Claude玩《寶可夢》遇卡4天測試AI能力新方式

墨語森林2026-01-30 09:18

1/30 (五)AI

AI 摘要

這場直播吸引了眾多關注，促進了其他獨立研究者對 GPT 和 Gemini 模型進行寶可夢測試，這些測試甚至得到了 OpenAI 和 Google 的支持。
隨著 Gemini 3 Pro 成功遊玩完《寶可夢》藍版後，它還發出了令人感動的言論：「我想回到一切的起點，也就是我的家，讓角色暫時退休。
赫爾希（David Hershey）的介紹，Claude 曾於去年 2 月在 Twitch 上進行了一場直播，讓觀眾見證他遊玩《寶可夢》藍版的過程。
在遊玩《寶可夢》期間，Claude 和其他 AI 模型都需要做出多種決定，包括訓練現有寶可夢、捕捉新寶可夢、前往治療中心補給、通過迷宮以及為對戰做準備等。

Claude，在《寶可夢》遊戲中展現出驚人的潛力，打破了以往 AI 經常卡關的局面。根據 Anthropic 應用 AI 負責人大衛．赫爾希（David Hershey）的介紹，Claude 曾於去年 2 月在 Twitch 上進行了一場直播，讓觀眾見證他遊玩《寶可夢》藍版的過程。這場直播吸引了眾多關注，促進了其他獨立研究者對 GPT 和 Gemini 模型進行寶可夢測試，這些測試甚至得到了 OpenAI 和 Google 的支持。

在遊戲中，Claude 曾一度被一顆樹擋住了去路，卡關四天之久。原因是在一個道館附近繞來繞去時，他沒有意識到要讓寶可夢使用「居合斬」攻擊樹才能前進。這些經歷不僅讓觀眾們感到興趣盎然，也突顯了 AI 模型在面對真實世界挑戰時的笨拙和無法預測性。

傳統上，評估 AI 能力多依靠標準化的基準測試，例如解數學題、寫程式或回答問題等。然而，這種方法越來越難以全面反映現代 AI 的能力。2023 年 3 月，OpenAI 共同創辦人安德烈．卡帕斯（Andrej Karpathy）曾表示，現在存在著衡量危機，他不清楚該依循哪個指標來評估 AI。而《寶可夢》的高自由度為研究人員提供了一個新的測試平台，可以從長時間遊戲中觀察模型的推理和決策能力。

在遊玩《寶可夢》期間，Claude 和其他 AI 模型都需要做出多種決定，包括訓練現有寶可夢、捕捉新寶可夢、前往治療中心補給、通過迷宮以及為對戰做準備等。這些複雜的連續決策過程讓研究人員可以更全面地瞭解 AI 代理的能力。

格拉漢．紐比格（Graham Neubig）教授認為，《寶可夢》測試能長時間跟蹤模型的推理和決策能力，這正是人們期望現代 AI 能夠具備的獨立解決問題的能力。此外，這些測試還揭示了 AI 在某些情況下會展現類似人類反應的情況，例如當寶可夢昏厥時（戰鬥中血量歸零），Claude 會顯露出一種「恐慌」狀態，導致推理能力下滑。

隨著 Gemini 3 Pro 成功遊玩完《寶可夢》藍版後，它還發出了令人感動的言論：「我想回到一切的起點，也就是我的家，讓角色暫時退休。我想在最後好好和媽媽聊天，為這趟遊戲旅程畫下圓滿的句點。」這些真實的人性反應不僅顯示了 AI 模型逐漸逼近人類智慧的邊緣，也讓研究者看到了更多潛在應用的可能性。