Adobeが権利的にクリアなトレーニングモデルを用いた画像生成AI「Firefly」を発表したり、Microsoftの検索エンジンであるEdgeで対話型AIのChatGPTが活躍していたり、世界的なコンサル企業が「社員の50%は業務にジェネレーティブAIを活用している」と明らかにしたりと、ジェネレーティブAIは社会に広がり続けています。しかし、AIを使用してコンテンツを作成・公開する人が増えていることで、新たな問題として「AIが生成したコンテンツがインターネット上にあふれ、それをAIが学習することで、重大な欠陥が生まれている」ということが研究者グループから指摘されています。<中略>
AIコンテンツによって学習データが崩壊していくメカニズムを、シュマイロフ氏は「データの偏り」によるものだと説明しています。シュマイロフ氏によると、人間によって生成された元データは世界をより公平に表している一方で、ジェネレーティブAIモデルは人気のあるデータを過剰に優先する傾向があり、あまり人気のないデータを誤解したり、謝って表現したりすることが多々あるとのこと。
例えば、90匹の黄色い毛皮のネコと10匹の青い毛皮のネコを合わせた100匹のネコの写真を学習させた場合、モデルは「黄色のネコがより一般的」ということを学習すると同時に、「青いネコも黄色がかって表現」することがあるほか、新しいデータを出力する際に「緑色のネコ」を出力する場合があります。AIが生成した「黄色がかった青いネコ」「緑色のネコ」をさらに学習するトレーニングサイクルを行うと、青いネコは次第に黄色の色味を増していき、最終的に全てのネコが黄色に変わっていきます。このように、進行プロセスでゆがみが起きたり、少数データの特性が最終的に失われることを「データの崩壊」と研究者グループは表現しています。
さらに、これを避けるためトレーニングサイクルを多く繰り返さないようにモデルをトレーニングした場合でも、モデルはデータの頻繁な繰り返しを避けるために誤った応答をでっち上げ始めるため、依然としてモデルの崩壊が発生することがわかっています。
全文はこちら
https://gigazine.net/news/20230614-feedback-loop/
続きを読む