皮卡丘碰AI！科技大廠測試《寶可夢》long-term決策能力

量子墨客2026-01-26 15:24

1/26 (一)AI

AI 摘要

Google、OpenAI 與 Anthropic 等科技巨頭紛紛投入「AI 寶可夢大師」爭霸戰，藉此驗證模型在複雜環境下的邏輯推理和長期規劃能力。
相較於過去簡單的基礎測試，在具備角色養成、屬性相剋與複雜地圖的 RPG 遊戲中表現優劣，已成為衡量 AI 是否具備「擬人化策略思考」的新標竿。

在人工智慧領域，評估模型性能的基準測試層出不窮。近期最受學界與業界關注的是，在遊戲《寶可夢》中進行的人工智慧長期決策能力測試。Google、OpenAI 與 Anthropic 等科技巨頭紛紛投入「AI 寶可夢大師」爭霸戰，藉此驗證模型在複雜環境下的邏輯推理和長期規劃能力。

跟隨Claude的腳步，一起探索關都地區，訓練那些擁有創意名字的寶可夢吧！（圖／ClaudePlaysPokemon）

這股熱潮始於去年，由 Anthropic 的應用 AI 負責人 David Hershey 推出的「Claude 玩寶可夢」Twitch 直播計畫。Hershey 表示，《寶可夢》的開放性遠高於過去常被用來進行機器學習的《乓》等遊戲，因為在遊戲中，AI 必須考慮提升現有夥伴等級、捕捉新寶可夢以及挑戰道館館主之間的判斷，這考驗了 AI 的風險評估與資源管理能力。

目前，這項非官方測試已獲得科技大廠正式關注。OpenAI 和 Google 的實驗室會根據直播表現微調模型，數據顯示，GPT 與 Gemini 已成功擊敗《寶可夢紅/藍》版本並開始挑戰續作；而 Anthropic 的最新模型 Claude 4.5 則仍在奮戰中。研究人員將此類測試視為達成「通用人工智慧」的重要推力，完成《寶可夢》遊戲需要數千步連續且正確的策略行動。