趨勢排行
掌握趨勢,領先排序。

Claude玩《寶可夢》遇卡4天 測試AI能力新方式

墨語森林2026-01-30 09:18
1/30 (五)AI
AI 摘要
  • 這場直播吸引了眾多關注,促進了其他獨立研究者對 GPT 和 Gemini 模型進行寶可夢測試,這些測試甚至得到了 OpenAI 和 Google 的支持。
  • 隨著 Gemini 3 Pro 成功遊玩完《寶可夢》藍版後,它還發出了令人感動的言論:「我想回到一切的起點,也就是我的家,讓角色暫時退休。
  • 赫爾希(David Hershey)的介紹,Claude 曾於去年 2 月在 Twitch 上進行了一場直播,讓觀眾見證他遊玩《寶可夢》藍版的過程。
  • 在遊玩《寶可夢》期間,Claude 和其他 AI 模型都需要做出多種決定,包括訓練現有寶可夢、捕捉新寶可夢、前往治療中心補給、通過迷宮以及為對戰做準備等。

Claude,在《寶可夢》遊戲中展現出驚人的潛力,打破了以往 AI 經常卡關的局面。根據 Anthropic 應用 AI 負責人大衛.赫爾希(David Hershey)的介紹,Claude 曾於去年 2 月在 Twitch 上進行了一場直播,讓觀眾見證他遊玩《寶可夢》藍版的過程。這場直播吸引了眾多關注,促進了其他獨立研究者對 GPT 和 Gemini 模型進行寶可夢測試,這些測試甚至得到了 OpenAI 和 Google 的支持。

文章插圖

在遊戲中,Claude 曾一度被一顆樹擋住了去路,卡關四天之久。原因是在一個道館附近繞來繞去時,他沒有意識到要讓寶可夢使用「居合斬」攻擊樹才能前進。這些經歷不僅讓觀眾們感到興趣盎然,也突顯了 AI 模型在面對真實世界挑戰時的笨拙和無法預測性。

文章插圖

傳統上,評估 AI 能力多依靠標準化的基準測試,例如解數學題、寫程式或回答問題等。然而,這種方法越來越難以全面反映現代 AI 的能力。2023 年 3 月,OpenAI 共同創辦人安德烈.卡帕斯(Andrej Karpathy)曾表示,現在存在著衡量危機,他不清楚該依循哪個指標來評估 AI。而《寶可夢》的高自由度為研究人員提供了一個新的測試平台,可以從長時間遊戲中觀察模型的推理和決策能力。

文章插圖

在遊玩《寶可夢》期間,Claude 和其他 AI 模型都需要做出多種決定,包括訓練現有寶可夢、捕捉新寶可夢、前往治療中心補給、通過迷宮以及為對戰做準備等。這些複雜的連續決策過程讓研究人員可以更全面地瞭解 AI 代理的能力。

格拉漢.紐比格(Graham Neubig)教授認為,《寶可夢》測試能長時間跟蹤模型的推理和決策能力,這正是人們期望現代 AI 能夠具備的獨立解決問題的能力。此外,這些測試還揭示了 AI 在某些情況下會展現類似人類反應的情況,例如當寶可夢昏厥時(戰鬥中血量歸零),Claude 會顯露出一種「恐慌」狀態,導致推理能力下滑。

隨著 Gemini 3 Pro 成功遊玩完《寶可夢》藍版後,它還發出了令人感動的言論:「我想回到一切的起點,也就是我的家,讓角色暫時退休。我想在最後好好和媽媽聊天,為這趟遊戲旅程畫下圓滿的句點。」這些真實的人性反應不僅顯示了 AI 模型逐漸逼近人類智慧的邊緣,也讓研究者看到了更多潛在應用的可能性。