AIの真の推論能力を測るには「逆転裁判」をプレイさせればいいという素晴らしい発想。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025
この指標は、逆転裁判を使いてAIの「証言から矛盾点を見つけ、それを裏付ける適切な証拠を選び、最も効果的に反論する」実践能力を評価。
その結果、最もの優れた弁護士はo1だった↓pic.twitter.com/L8hdWVPZRP
Hao AI Labは、人気ゲーム「逆転裁判」に着目し、このゲームを通じて大規模言語モデル(LLM)の推論能力や判断力を測定するというユニークな試みを行いました。ゲーム内では、証言の矛盾を見抜くための文脈的な理解力、証拠と証言のズレを見極める画像分析力、さらにはどのタイミングで“異議あり”を唱え、どの証拠を提示するかという戦略的判断力が求められます。つまり、単なる言語処理能力だけでなく、状況判断や戦略的思考といった複雑なタスクに対するAIの適性を評価するのに適しているのです。
実験には、OpenAIの最新モデル「o1」や「GPT-4.1」、Googleの「Gemini 2.5 Pro」と「Gemini 2.5 Flash Thinking」、Anthropicの「Claude 3.5 Sonnet」と「Claude 3.7 Sonnet」、Metaの「Llama 4 Maverick」、中国のDeepSeekが開発した「DeepSeek R1」が参加し、「Gaming Agent」というツールを介して逆転裁判を実際にプレイさせる形で行われました。
結果として、最も難易度の高い事件に到達したのは「o1」と「Gemini 2.5 Pro」の2モデルでした。最終的に事件をクリアすることはできなかったものの、全体的な対応力では「o1」がわずかに上回る評価を受けています。一方で、コスト効率の面では「Gemini 2.5 Pro」が圧倒的に優れており、場合によっては「o1」の6分の1から15分の1程度のコストで同等のパフォーマンスを発揮しました。
注目すべきは、OpenAIの最新モデル「GPT-4.1」が期待されたほどの成績を残せず、Anthropicの「Claude 3.5 Sonnet」と同等レベルの性能にとどまったという点です。これは、AIの進化が必ずしも直線的ではなく、特定のタスクにおいては別のアーキテクチャや設計思想の方が優位に立つことを示しているとも言えるでしょう。
このベンチマークは、
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025
・現在の証言だけに囚われないよう、事件全体の流れを考慮して判断
・「意義あり!」のタイミングを考え、最も効果的な戦略を立てる能力
・裁判の中で明らかになる、新たな情報や証拠が出るたびに戦略を調整する柔軟性
というAIの実践的な知性を測るのにうってつだけだ。 https://t.co/1kbi9bcP8n
「逆転裁判」を攻略するには、証言の積み重ねから矛盾を発見し、嘘を暴く決定的証拠画像を見極め、そして状況に応じて何をすべきかの決断が必要だ。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025
これが暗記だけでは太刀打ちできないというのもポイントだ。事前に蓄えた知識だけではだめで、その場で臨機応変に対応する能力が求められる。
結果、最も優れていたのはOpenAI o1だった。Gemini 2.5 Proも僅差で、2つのモデルは両方ともレベル4まで到達した。そして少し離れてClaude 3.7だ。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025
しかし、コストパフォーマンスを見るとGemini 2.5 Proの圧勝で、o1とほぼ同じ性能を1/10のコストで達成している。
やはり今はGeminiの時代だ。 pic.twitter.com/eiXKG5TSNm
参照元はこちらのHao AI Labのポスト。イリヤの推理小説の例から着想を得ているのが面白い。また、昔流行った日本のゲームがこういう形で再び活躍するのも感慨深い。 https://t.co/1kbi9bcP8n
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025
逆転裁判のリーダーボードはこちら。 https://t.co/4ghsyVzvAm
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025
かまいたちの夜も良さそう
— AI驚き屋😲転生したらデジタル小作人だった (@namapomaster) April 17, 2025
Claude 3.7は途中まで調子よかったけど途中でドツボにはまって脱落した感じですかね?
— Rex (@rex_fate) April 16, 2025
逆転裁判を何作まで解いたのか気になる
— ニュトーイ@低浮上 (@nyutoi) April 16, 2025
テキスト重視の御神楽少女探偵団もテストして欲しい
— 新星 (@korekaratuihai) April 17, 2025
その後逆裁のチートバグ動画を視聴させAIの脳を破壊します https://t.co/gQTWSrBjgJ
— マックス@ (@atm4xat) April 17, 2025
東大理科3類に合格できるらしいo1ですらクリアできなかった逆転裁判1第2話をクリアした私は東大理科3類に合格できるってコト!?!? https://t.co/rXc9aWyCyH
— Tar-ya (@tar__ya) April 16, 2025
こういう形で逆転裁判が再評価されるのも面白いけど、逆に考えると逆転裁判をクリアできない人は既にAIに知性で追い越されてるってことになるのでは・・・。 https://t.co/z9HVckGduH
— イエーガー (@Jaeger75) April 16, 2025
面白い。ただ、攻略サイトを見てカンニングしている可能性をやっぱり考えてしまうので、なにか他の、未知の推理ゲームでやってみてほしいなあ。 https://t.co/kKEmaCANlK
— Head (@head_s) April 16, 2025
これ面白いけど、すでにストーリーやネタバレは学習されてるので、training/validationの分離ができてないよなぁ… https://t.co/FjKgpft2iB
— nikq (@nikq) April 16, 2025
逆転裁判をプレイするAIは、絶対頭がディスプレイになってるロボットだし、負荷がかかると顔が回り始めるし、失敗すると煙吹いて頭が吹き飛び、バネと歯車が飛び出す。 https://t.co/AFlF2h2odW
— 寺田海月 (@teradakurage) April 16, 2025
o1は推論モデルで複数の解析実行して整合性とるんだっけ。だから矛盾に気付きやすいとかあるんでしょうかね https://t.co/NBNa3Ouwh6
— enfiel (@enfiel_luka) April 16, 2025
なるほど。矛盾を探すベンチマークね。確かに難しいはず。しかしポケモンやマインクラフトに続き、逆裁を使うとは。。。
— s_shigel (@s_shigel) April 16, 2025
ゲームベンチ、続きそうだな。レイトンベンチとかかなりむずかったりして。 https://t.co/3RMMXuDpqG
そうか、推理小説読ませて犯人誰?っていうのがまさに推論能力なんだ。この方法でちゃんと検証できるベンチが登場するかな? https://t.co/RdBJhvnxyq
— ガル・トーロイド (@yk5KEpDk) April 16, 2025
AIに既存のキャラクター使わせて、おもろそうなエピソード作ってもらえば無限に続編出せる https://t.co/5dtsjkcQQk
— ひなみつ (@So9ra10th) April 17, 2025
誰かGrok3で追試させてほしいのだぁ!で、なんでLlama-4-Maverick-17B が圏外なのだ?知識を吸い込みすぎると、逆にだめになってのだ? https://t.co/FRSBSxS4wO
— ずぼらずんだもん (@zzZundamon) April 16, 2025
AIの性格の傾向(疑り深さとか)も影響するので、単なる知性のレベルというわけでもなさげ https://t.co/vAq5Wkqmk7
— ニコラシカ (@ONERAY01) April 16, 2025