趨勢排行
掌握趨勢,領先排序。

全球頂尖AI模型陷《寶可夢》滑鐵盧:長期推理與記憶短板展現

雲端上的貓2026-01-27 17:37
1/27 (二)AI
AI 摘要
  • 全球頂尖 AI 模型在《寶可夢》中的滑鐵盧:長期推理與記憶短板展現

全球頂尖 AI 模型在《寶可夢》中的滑鐵盧:長期推理與記憶短板展現

儘管全球頂尖的 AI 模型能在醫學考試、程式設計等領域表現出色,但在《寶可夢》這類兒童遊戲中卻屢屢失敗。這些失敗揭示了其在長期推理、記憶和規劃方面的核心短板。

加入動區 Telegram 頻道

2025 年 2 月,Anthropic 的一名研究人員在 Twitch 直播上推出了 Claude 玩《寶可夢紅》,以此展示 Claude Sonnet 3.7 的能力。觀眾們為 Claude 出謀劃策,但 Claude 的表現並未令人滿意。它會在關鍵節點卡住數十小時,做出連兒童玩家都會犯的低級錯誤。這種表現同樣見於早期版本的 AI 模型,早期版本常常毫無目標地遊蕩、陷入無限迴圈或無法走出新手村。

《寶可夢》要求玩家在沒有明確指令的情況下,在開放世界中進行長期推理和記憶數小時前的決策。這些能力對於 8 歲的小孩來說輕而易舉,但對於 AI 模型則是難以逾越的鴻溝。

相比之下,谷歌的 Gemini 2.5 Pro 在同樣的遊戲中取得了成功。這並非因為 Gemini 模型本身更聰明,而是因為它使用了更多的工具集,這些工具集為模型提供了更多支援,例如將遊戲畫面轉寫為文字,提供客製化的解謎與路徑規劃工具。

AI 在《寶可夢》中長期記憶的短板在於,每一步操作後的重新初始化讓其只能在極窄的上下文視窗中尋找線索。這使其無法像真正的人類玩家那樣實現從量變到質變的經驗跨越。因此,在國際象棋和圍棋等領域已經超越人類的 AI 系統,在《寶可夢》這樣需要長期推理和記憶能力的遊戲中卻屢遭挫敗。

獨立研究者彼得·惠登曾開發了一個基於傳統 AI 的《寶可夢》演算法,他指出模型在執行階段顯得笨拙不堪。這也表明,《寶可夢》實驗揭示了即使經過大量人類資料訓練的模型,在面對需要即時反應的任務時仍會表現不佳。

此外,《NetHack》、《我的世界》、《星海爭霸 II》等遊戲同樣展示了 AI 在處理複雜規則和長期目標推進方面的困難。這些遊戲中的挑戰凸顯了通用人工智慧尚未跨越的能力邊界,即在長時間跨度內持續執行單一明確目標。

因此,《寶可夢》正在成為評估 AI 能力的一種非正式但極具說服力的測試基準。各大研究機構和公司都通過 Twitch 直播來展示其模型的進步,這些案例揭示了工具集在決勝中的重要作用以及通用人工智慧實現認知勞動自動化的挑戰。

總之,《寶可夢》成為了一項重要的 AI 試金石,為我們理解該領域的未來提供了重要啟示。