趨勢排行
掌握趨勢,領先排序。

皮卡丘碰AI!科技大廠測試《寶可夢》long-term決策能力

量子墨客2026-01-26 15:24
1/26 (一)AI
AI 摘要
  • Google、OpenAI 與 Anthropic 等科技巨頭紛紛投入「AI 寶可夢大師」爭霸戰,藉此驗證模型在複雜環境下的邏輯推理和長期規劃能力。
  • 相較於過去簡單的基礎測試,在具備角色養成、屬性相剋與複雜地圖的 RPG 遊戲中表現優劣,已成為衡量 AI 是否具備「擬人化策略思考」的新標竿。

在人工智慧領域,評估模型性能的基準測試層出不窮。近期最受學界與業界關注的是,在遊戲《寶可夢》中進行的人工智慧長期決策能力測試。Google、OpenAI 與 Anthropic 等科技巨頭紛紛投入「AI 寶可夢大師」爭霸戰,藉此驗證模型在複雜環境下的邏輯推理和長期規劃能力。

跟隨Claude的腳步,一起探索關都地區,訓練那些擁有創意名字的寶可夢吧!(圖/ClaudePlaysPokemon)

這股熱潮始於去年,由 Anthropic 的應用 AI 負責人 David Hershey 推出的「Claude 玩寶可夢」Twitch 直播計畫。Hershey 表示,《寶可夢》的開放性遠高於過去常被用來進行機器學習的《乓》等遊戲,因為在遊戲中,AI 必須考慮提升現有夥伴等級、捕捉新寶可夢以及挑戰道館館主之間的判斷,這考驗了 AI 的風險評估與資源管理能力。

Loading

目前,這項非官方測試已獲得科技大廠正式關注。OpenAI 和 Google 的實驗室會根據直播表現微調模型,數據顯示,GPT 與 Gemini 已成功擊敗《寶可夢 紅/藍》版本並開始挑戰續作;而 Anthropic 的最新模型 Claude 4.5 則仍在奮戰中。研究人員將此類測試視為達成「通用人工智慧」的重要推力,完成《寶可夢》遊戲需要數千步連續且正確的策略行動。

在 Google News 上追蹤我們

根據 David Hershey 說,從這些測試中得到的「軟體框架控制」數據能有效協助開發者優化模型處理現實世界任務的運算效率。相較於過去簡單的基礎測試,在具備角色養成、屬性相剋與複雜地圖的 RPG 遊戲中表現優劣,已成為衡量 AI 是否具備「擬人化策略思考」的新標竿。

此項測試不僅僅是對 AI 能力的一次考驗,更為通用人工智慧的研究提供了新的方向。在未來,這些模型能否在現實世界中同樣展現出類似的能力,仍是學界和業界關注的焦點。