Hao AI Labは、人気ゲーム「逆転裁判」に着目し、このゲームを通じて大規模言語モデル(LLM)の推論能力や判断力を測定するというユニークな試みを行いました。ゲーム内では、証言の矛盾を見抜くための文脈的な理解力、証拠と証言のズレを見極める画像分析力、さらにはどのタイミングで“異議あり”を唱え、どの証拠を提示するかという戦略的判断力が求められます。つまり、単なる言語処理能力だけでなく、状況判断や戦略的思考といった複雑なタスクに対するAIの適性を評価するのに適しているのです。
実験には、OpenAIの最新モデル「o1」や「GPT-4.1」、Googleの「Gemini 2.5 Pro」と「Gemini 2.5 Flash Thinking」、Anthropicの「Claude 3.5 Sonnet」と「Claude 3.7 Sonnet」、Metaの「Llama 4 Maverick」、中国のDeepSeekが開発した「DeepSeek R1」が参加し、「Gaming Agent」というツールを介して逆転裁判を実際にプレイさせる形で行われました。
結果として、最も難易度の高い事件に到達したのは「o1」と「Gemini 2.5 Pro」の2モデルでした。最終的に事件をクリアすることはできなかったものの、全体的な対応力では「o1」がわずかに上回る評価を受けています。一方で、コスト効率の面では「Gemini 2.5 Pro」が圧倒的に優れており、場合によっては「o1」の6分の1から15分の1程度のコストで同等のパフォーマンスを発揮しました。
注目すべきは、OpenAIの最新モデル「GPT-4.1」が期待されたほどの成績を残せず、Anthropicの「Claude 3.5 Sonnet」と同等レベルの性能にとどまったという点です。これは、AIの進化が必ずしも直線的ではなく、特定のタスクにおいては別のアーキテクチャや設計思想の方が優位に立つことを示しているとも言えるでしょう。
続きを読む