趨勢排行
掌握趨勢,領先排序。

DeepMind擴充Game Arena加入狼人殺與德州撲克評估AI決策能力

星月行者2026-02-04 01:36
DeepMind擴充Game Arena加入狼人殺與德州撲克評估AI決策能力

Google DeepMind 最近更新了其公開評測平台 Kaggle Game Arena,除了繼續評估人工智能(AI)模組在西洋棋上的推理與長期規畫能力外,還加入了狼人殺與德州撲克兩款不完全資訊遊戲。這項舉措旨在讓模型置身於更接近現實決策的不確定情境中,以觀察其在社交互動和風險取捨方面的表現。

Kaggle Game Arena 是 DeepMind 與 Kaggle 共同推出的一個公開基準測試平台,在 2025 年正式上線。這個平臺允許不同 AI 模型在同一規則下的策略遊戲中互相對戰,並以排行榜呈現各模型的相對強弱。Game Arena 採用開放原始碼的遊戲 Harness 介接層與遊戲環境,強調可驗證且可重現的對戰評估,並且通過動態對戰的方式來補充傳統資料集型測試容易飽和的限制。

在西洋棋項目方面,DeepMind 已更新排行榜,加入了新一代模型以追蹤其能力變化。不同於大型語言模型與 Stockfish 等棋力引擎,這些新模組更依賴樣式辨識與直覺來縮減搜尋空間。目前排名中,Gemini 3 Pro 與 Gemini 3 Flash 的 Elo 分數居前。

新增的狼人殺遊戲以自然語言對話作為主要互動方式,讓模型在多輪發言與投票過程中辨識真偽與動機。DeepMind 將其視為一種團隊型社交推理測試,用來衡量溝通、協商以及在模糊訊號下建立共識的能力。DeepMind 也指出,這類受控遊戲環境可以應用於代理式安全研究中,因為模型需要同時面對欺瞞偵測與欺瞞行為兩種角色。

德州撲克對戰則主要考察風險管理能力。根據 DeepMind 的說法,模型必須在運氣因素下推測對手的手牌與風格,並隨著局勢調整策略。此次測試採用單挑無上限德州撲克,同時舉辦 AI 撲克牌錦標賽,完整德州撲克排行榜預計在 2 月 4 日決賽後公開。

DeepMind 強調,在現實世界的決策中往往缺乏完整資訊,因此需要有能測量模型在不確定情境下推理能力的基準測試。隨著 Game Arena 從西洋棋延伸到社交推理與風險量化,外界也將獲得更多材料來比較不同模型在各種認知任務間的能力落差與一致性。

1

1

零度藍27 天