「AIか哲学者か」を見分けることは専門家でも難しいことが実験で明らかに
人工知能を研究する非営利団体・OpenAIが開発した言語モデルである「GPT-3」は、非常に高精度な文章を生成することが可能であり、海外掲示板で1週間にわたり人間と会話したり、GPT-3が生成した記事がソーシャルニュースサイトの1位に浮上したりと話題を呼んでいます。新たに、GPT-3にアメリカの哲学者であるダニエル・デネット氏の著書を学習させて、「デネット氏の発言かGPT-3の発言かを人間の被験者に判別してもらう」という実験が行われました。<中略>
研究チームはデネット氏と訓練したGPT-3の両方に対し、意識・神・自由意志といった哲学的トピックについて合計10個の質問を行いました。GPT-3では、「インタビュアー」の質問に「デネット氏」が答えるという形式でテキストを自動生成させ、GPT-3の生成したテキストがデネット氏の回答とほぼ同じ長さになるように、長すぎる文章は後ろの方の末尾が切り捨てられました。また、研究チームはデネット氏の回答より5語以上少ない回答や、「インタビュアー」「デネット」といった不自然な言葉が含まれている回答を除外したとのことで、このプロセスで全回答の3分の1が除外されたそうです。さらに研究チームは引用符の統一やダッシュの正規化などを行いましたが、内容に基づくチェリーピッキングは行われなかったとSchwitzgebel氏は述べています。GPT-3によるテキスト生成は、質問に対する回答が4つになるまで繰り返されたとのこと。
研究チームはGPT-3の回答とデネット氏の回答を混ぜ、1つの質問に対し5つの回答を被験者に提示しました。被験者は研究プラットフォームのProlificで募集された大学の学位を持つ98人と、ブログからたどり着いた302人、そしてデネット氏の著作に詳しいとして指名された専門家25人であり、Prolificで募集された被験者には合計5問、それ以外の被験者には合計10問を出題しました。なお、Prolificで募集された被験者には真剣に回答するインセンティブとして、「5つのうち3つ以上に正答すれば報酬を1ドル(約137円)追加で支払う」というボーナスが与えられたそうです。
被験者はそれぞれの回答について、「まったく人間の哲学者(デネット氏)が回答しているようには思えない」から「間違いなく人間の哲学者(デネット氏)が回答していると思う」まで5段階で評価し、最後まで回答した際にどれほどの精度で「AIか哲学者か」を判別できたかが測定されました。なお、Prolificの被験者はデネット氏の知識がないと推測されたため、「人間の哲学者」という文言で尋ねられましたが、それ以外の被験者には「デネット氏」と名前で尋ねられたとのこと。研究チームはブログにリンクを貼ったページで、実際に出題した質問と回答を公開しています。
実験の結果、Prolificで募集された被験者の正答率はわずか24%で、5つのうち1つを適当に選んだ場合の20%をわずかに上回る程度でした。また、哲学に興味があるはずのブログ読者でさえ正答率は48%であり、驚くべきことに専門家でも正答率は51%に過ぎませんでした。この結果は、「専門家なら少なくとも80%は正答するだろう」というSchwitzgebel氏らの予測を大幅に下回るものだったとのこと。なお、回答してくれたブログ読者にアンケートをしたところ、57%が哲学の大学院を出ており、64%がデネット氏の著作を100ページ以上読んだことがあると回答したそうで、「ブログの読者は非常によく教育されていました」とSchwitzgebel氏は述べています。
全文はこちら
https://gigazine.net/news/20220727-distinguish-philosopher-from-ai/
続きを読む