海外のAI研究者が「日本の某ゲームをプレイさせて」AIの真の推論能力を測定、わりと意外な結果が出てしまった模様

1：名無しさん

AIの真の推論能力を測るには「逆転裁判」をプレイさせればいいという素晴らしい発想。

この指標は、逆転裁判を使いてAIの「証言から矛盾点を見つけ、それを裏付ける適切な証拠を選び、最も効果的に反論する」実践能力を評価。

その結果、最もの優れた弁護士はo1だった↓pic.twitter.com/L8hdWVPZRP
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025

Hao AI Labは、人気ゲーム「逆転裁判」に着目し、このゲームを通じて大規模言語モデル（LLM）の推論能力や判断力を測定するというユニークな試みを行いました。ゲーム内では、証言の矛盾を見抜くための文脈的な理解力、証拠と証言のズレを見極める画像分析力、さらにはどのタイミングで“異議あり”を唱え、どの証拠を提示するかという戦略的判断力が求められます。つまり、単なる言語処理能力だけでなく、状況判断や戦略的思考といった複雑なタスクに対するAIの適性を評価するのに適しているのです。

実験には、OpenAIの最新モデル「o1」や「GPT-4.1」、Googleの「Gemini 2.5 Pro」と「Gemini 2.5 Flash Thinking」、Anthropicの「Claude 3.5 Sonnet」と「Claude 3.7 Sonnet」、Metaの「Llama 4 Maverick」、中国のDeepSeekが開発した「DeepSeek R1」が参加し、「Gaming Agent」というツールを介して逆転裁判を実際にプレイさせる形で行われました。

結果として、最も難易度の高い事件に到達したのは「o1」と「Gemini 2.5 Pro」の2モデルでした。最終的に事件をクリアすることはできなかったものの、全体的な対応力では「o1」がわずかに上回る評価を受けています。一方で、コスト効率の面では「Gemini 2.5 Pro」が圧倒的に優れており、場合によっては「o1」の6分の1から15分の1程度のコストで同等のパフォーマンスを発揮しました。

注目すべきは、OpenAIの最新モデル「GPT-4.1」が期待されたほどの成績を残せず、Anthropicの「Claude 3.5 Sonnet」と同等レベルの性能にとどまったという点です。これは、AIの進化が必ずしも直線的ではなく、特定のタスクにおいては別のアーキテクチャや設計思想の方が優位に立つことを示しているとも言えるでしょう。

このベンチマークは、

・現在の証言だけに囚われないよう、事件全体の流れを考慮して判断
・「意義あり！」のタイミングを考え、最も効果的な戦略を立てる能力
・裁判の中で明らかになる、新たな情報や証拠が出るたびに戦略を調整する柔軟性

というAIの実践的な知性を測るのにうってつだけだ。 https://t.co/1kbi9bcP8n
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025

「逆転裁判」を攻略するには、証言の積み重ねから矛盾を発見し、嘘を暴く決定的証拠画像を見極め、そして状況に応じて何をすべきかの決断が必要だ。

これが暗記だけでは太刀打ちできないというのもポイントだ。事前に蓄えた知識だけではだめで、その場で臨機応変に対応する能力が求められる。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025

結果、最も優れていたのはOpenAI o1だった。Gemini 2.5 Proも僅差で、2つのモデルは両方ともレベル4まで到達した。そして少し離れてClaude 3.7だ。

しかし、コストパフォーマンスを見るとGemini 2.5 Proの圧勝で、o1とほぼ同じ性能を1/10のコストで達成している。

やはり今はGeminiの時代だ。 pic.twitter.com/eiXKG5TSNm
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025

参照元はこちらのHao AI Labのポスト。イリヤの推理小説の例から着想を得ているのが面白い。また、昔流行った日本のゲームがこういう形で再び活躍するのも感慨深い。 https://t.co/1kbi9bcP8n
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025

逆転裁判のリーダーボードはこちら。 https://t.co/4ghsyVzvAm
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025

かまいたちの夜も良さそう
— AI驚き屋😲転生したらデジタル小作人だった (@namapomaster) April 17, 2025

Claude 3.7は途中まで調子よかったけど途中でドツボにはまって脱落した感じですかね？
— Rex (@rex_fate) April 16, 2025

逆転裁判を何作まで解いたのか気になる
— ニュトーイ＠低浮上 (@nyutoi) April 16, 2025

テキスト重視の御神楽少女探偵団もテストして欲しい
— 新星 (@korekaratuihai) April 17, 2025

その後逆裁のチートバグ動画を視聴させAIの脳を破壊します https://t.co/gQTWSrBjgJ
— マックス@ (@atm4xat) April 17, 2025

東大理科3類に合格できるらしいo1ですらクリアできなかった逆転裁判1第2話をクリアした私は東大理科3類に合格できるってコト！？！？ https://t.co/rXc9aWyCyH
— Tar-ya (@tar__ya) April 16, 2025

こういう形で逆転裁判が再評価されるのも面白いけど、逆に考えると逆転裁判をクリアできない人は既にAIに知性で追い越されてるってことになるのでは・・・。 https://t.co/z9HVckGduH
— イエーガー (@Jaeger75) April 16, 2025

面白い。ただ、攻略サイトを見てカンニングしている可能性をやっぱり考えてしまうので、なにか他の、未知の推理ゲームでやってみてほしいなあ。 https://t.co/kKEmaCANlK
— Head (@head_s) April 16, 2025

これ面白いけど、すでにストーリーやネタバレは学習されてるので、training/validationの分離ができてないよなぁ… https://t.co/FjKgpft2iB
— nikq (@nikq) April 16, 2025

逆転裁判をプレイするAIは、絶対頭がディスプレイになってるロボットだし、負荷がかかると顔が回り始めるし、失敗すると煙吹いて頭が吹き飛び、バネと歯車が飛び出す。 https://t.co/AFlF2h2odW
— 寺田海月 (@teradakurage) April 16, 2025

o1は推論モデルで複数の解析実行して整合性とるんだっけ。だから矛盾に気付きやすいとかあるんでしょうかね https://t.co/NBNa3Ouwh6
— enfiel (@enfiel_luka) April 16, 2025

なるほど。矛盾を探すベンチマークね。確かに難しいはず。しかしポケモンやマインクラフトに続き、逆裁を使うとは。。。
ゲームベンチ、続きそうだな。レイトンベンチとかかなりむずかったりして。 https://t.co/3RMMXuDpqG
— s_shigel (@s_shigel) April 16, 2025

そうか、推理小説読ませて犯人誰?っていうのがまさに推論能力なんだ。この方法でちゃんと検証できるベンチが登場するかな? https://t.co/RdBJhvnxyq
— ガル・トーロイド (@yk5KEpDk) April 16, 2025

AIに既存のキャラクター使わせて、おもろそうなエピソード作ってもらえば無限に続編出せる https://t.co/5dtsjkcQQk
— ひなみつ (@So9ra10th) April 17, 2025

誰かGrok3で追試させてほしいのだぁ！で、なんでLlama-4-Maverick-17B が圏外なのだ？知識を吸い込みすぎると、逆にだめになってのだ？ https://t.co/FRSBSxS4wO
— ずぼらずんだもん (@zzZundamon) April 16, 2025

AIの性格の傾向（疑り深さとか）も影響するので、単なる知性のレベルというわけでもなさげ https://t.co/vAq5Wkqmk7
— ニコラシカ (@ONERAY01) April 16, 2025

人気ページ

スポンサードリンク

カテゴリー

検索

スポンサードリンク

海外のAI研究者が「日本の某ゲームをプレイさせて」AIの真の推論能力を測定、わりと意外な結果が出てしまった模様

おすすめ記事

関連記事

おすすめ記事

コメントページはこちら

最近の投稿

アーカイブ

スポンサードリンク