趨勢排行
掌握趨勢,領先排序。

全球頂尖AI難關《寶可夢》:OpenAI、Anthropic與Google大考驗

微光工程師2026-01-25 16:48
1/25 (日)AI
AI 摘要
  • 《寶可夢》並非孤例,在追求通用人工智慧(AGI)的道路上,開發者發現即便 AI 能在司法考試中名列前茅,在面對某些複雜遊戲時依然面臨挑戰。
  • 這些反覆出現的困境清晰勾勒出通用人工智慧尚未跨越的能力邊界,並促進了對 AI 更真實的應用研究。
  • 該節目吸引了 2000 名觀眾進入直播間,他們不僅出謀劃策、加油打氣,還通過公共聊天區進行互動。
  • 5 已累計運行超 500 小時、執行約 17 萬步,但受限於每一步操作後的重新初始化,模型只能在極窄的上下文窗口中尋找線索。

全球頂尖的人工智能模型在醫學執照考試、編寫複雜程式碼甚至數學競賽中都表現得游刃有餘,但在一款面向兒童的遊戲《寶可夢》中卻頻頻失敗。這場引人注目的挑戰開始於 2025 年 2 月,當時 Anthropic 的研究人員透過 Twitch 直播推出了一個名為「Claude 玩《寶可夢紅》」的節目,以此配合 claude Sonnet 3.7 的發佈。該節目吸引了 2000 名觀眾進入直播間,他們不僅出謀劃策、加油打氣,還通過公共聊天區進行互動。Sonnet 3.7 被稱作「會玩」《寶可夢》,但這僅僅意味著它能在遊戲中做出一些行動,並不能真正獲勝。Claude 在關鍵時刻常常卡住數十小時,甚至犯下一些低級錯誤,如同兒童玩家一樣。

Claude 並不是第一次遭遇這種困境。早期版本的表現更加糟糕,有的模型毫無目標地遊蕩,有的陷入無限循環,更多的則無法走出新手村。即便 claude Opus 4.5 的能力有所提升,但仍然會犯下令人不解的錯誤。例如有一次,它在「道館外」繞了整整四天,仍未能進入,原因只是沒有意識到需要砍倒擋路的樹木。一個面向兒童的遊戲為什麼對 AI 如此具有挑戰性?

答案就在於《寶可夢》遊戲要求的是一種當今人工智能模型尚未掌握的能力:在開放世界的環境中進行持續推理、記憶數小時前的決定、理解隱含的因果關係,以及在多個可能行動中做出長期規劃。這些對 8 歲孩子來說輕而易舉的事,卻是標榜「超越人類」的 AI 模型的難題。

相比之下,Google 的 Gemini 2.5 Pro 在同年成功通關了一款同樣困難的《寶可夢》遊戲。Google 首席執行長桑達爾·皮查伊(Sundar Pichai)甚至在公開場合半開玩笑地表示,公司在打造「人工寶可夢智能」方面取得了進步。然而,這一結果並不是由於 Gemini 模型本身更聰明,而是因為 Gemini 使用的工具集更多。

負責營運 Gemini《寶可夢》直播的獨立開發者喬爾·張(Joel Zhang)將這種差異比喻為「鋼鐵人裝甲」。Gemini 並非赤手空拳進入遊戲,而是被放置在一個可以呼叫多種外部能力的系統中。這些工具集包括將遊戲畫面轉寫成文字、提供定制化的解謎與路徑規劃工具等,從而補充了模型在視覺理解上的弱點。

Claude 所使用的工具集則更加簡約,這使得它的表現更直接地反映出模型本身的感知、推理和執行能力。在日常任務中,這些差異可能不顯著,但在長期任務如《寶可夢》中,工具集的差異被放大至決定成敗的程度。由於《寶可夢》採用嚴格的回合制且無需即時反應,它成為了測試 AI 的絕佳環境。在每一步操作中,模型只需結合當前畫面、目標提示與可選操作進行推理,就能輸出「按 A 鍵」這樣的明確指令。

然而,這正是問題所在——時間維度上的斷層。雖然 Claude Opus 4.5 已累計運行超 500 小時、執行約 17 萬步,但受限於每一步操作後的重新初始化,模型只能在極窄的上下文窗口中尋找線索。這種機制使得它像一個靠便利貼維持認知的失憶者,在碎片化的資訊中循環往復,無法像真正的人類玩家那樣實現經驗的質變。

與此相比,在國際象棋和圍棋等領域,AI 系統早已超越人類。但這些系統是為特定任務高度定制的。相比之下,Gemini、Claude 和 GPT 作為通用模型,在考試、程式設計競賽中頻頻擊敗人類,卻在一款面向兒童的遊戲中屢屢受挫。這種反差本身便極具啟示性。

獨立研究者彼得·惠登(Peter Whidden)給出了一個更直觀的描述。他曾開源一個基於傳統 AI 的《寶可夢》算法。「AI 對《寶可夢》幾乎無所不知,」他表示,「它在海量人類資料上訓練,清楚知道正確答案,但在執行階段則顯得笨拙不堪。」

遊戲中,這種「知道卻做不到」的斷層被不斷放大。模型可能知道自己需要尋找某道具,卻無法在二維地圖中穩定定位;知道應與 NPC 對話,卻在像素級移動中反覆失敗。

儘管如此,AI 的進步仍然清晰可見。Claude Opus 4.5 在自我記錄和視覺理解上明顯優於前代,在遊戲中推進更遠。Gemini 3 Pro 在通關《寶可夢藍》後,又完成了難度更高的《寶可夢水晶》,且全程未輸一場戰鬥。

這些案例揭示了一個不直觀的現實:配備合適工具集的 AI,可能在軟體開發、會計、法律分析等知識工作中展現極高效率,即便它們仍難以應對需要即時反應的任務。《寶可夢》實驗還揭示另一耐人尋味的現象:在人類資料上訓練的模型,會表現出近似人類的行為特徵。例如,在 Gemini 2.5 Pro 的技術報告中,Google 指出,當系統模擬「恐慌狀態」,如寶可夢即將昏厥時,模型的推理質量會顯著下降。

而在 Gemini 3 Pro 最終通關《寶可夢藍》時,它為自己留下了一段非任務必需的備註:「為了詩意地結束,我要回到最初的家,與母親進行最後一次對話,讓角色退休。」

根據喬爾·張的看法,這一行為出乎意料,還帶有某種人類式的情感投射。《寶可夢》並非孤例,在追求通用人工智慧(AGI)的道路上,開發者發現即便 AI 能在司法考試中名列前茅,在面對某些複雜遊戲時依然面臨挑戰。

例如,《NetHack》是一款 80 年代的地牢遊戲,其隨機性極強且有「永久死亡」機制。Facebook AI Research 發現,即使模型能寫程式碼,但在需要常識邏輯和長期規劃的《NetHack》面前表現遠遜於人類初學者。

再如,《我的世界》中的 AI 雖然已能製作木鎬甚至挖掘鑽石,但獨立「擊敗末影龍」仍是幻想。在開放世界的資源收集過程中,「忘記初衷」或在複雜導航中迷路的情況經常發生。

又例如,在《星海爭霸 II》中,儘管定製化模型曾擊敗職業選手,但若讓 Claude 或 Gemini 直接通過視覺指令接管,它們便會瞬間崩盤。處理「戰爭迷霧」的不確定性以及平衡微操與宏觀建設方面仍力不從心。

再者,《過山車大亨》中管理樂園需要追蹤數千名遊客的狀態,具備初步管理能力的 Claude Code 在處理大規模財務崩潰或突發事故時也極易疲態。

最後,在《艾爾登法環》與《隻狼》等強動作反饋遊戲中,目前的視覺解析延遲意味著當 AI 還在「思考」Boss 動作時角色往往已經陣亡。毫秒級的反應要求構成了模型互動邏輯的天然上限。

如今,《寶可夢》正逐漸成為人工智能評估領域中一種非正式卻極具說服力的測試基準。Anthropic、OpenAI 和 Google 的模型在 Twitch 上的相關直播累計吸引數十萬條評論。Google 在技術報告中詳細記錄 Gemini 的遊戲進展,皮查伊也在 I/O 開發者大會上公開提及此項成果。

這些反覆出現的困境清晰勾勒出通用人工智慧尚未跨越的能力邊界,並促進了對 AI 更真實的應用研究。至今,AI 在《寶可夢》中的挑戰仍在繼續。