Nature ハイライト

Cover Story:ゴミを生み出す:AIが生成したデータで学習したAIモデルは、意味のないテキストを生成する

Nature 631, 8022

大規模言語モデル(LLM)などの生成AIツールの爆発的な普及は、その訓練に使用された膨大な量のデータによって支えられてきた。こうした訓練データは人間が作成したものである。生成AIツールがさらに普及して、その出力がオンラインでますます利用可能になるにつれ、訓練データの情報源がコンピューターによって生成されたコンテンツに切り替わる可能性も考えられる。今回I Shumailovたちは、こうした変化がもたらすであろう影響について調べ、その結果はあまり期待できないことを明らかにしている。彼らは、AIが生成したデータを生成AIモデルに与えると、それ以降の世代の生成AIモデルが崩壊するほどに劣化することを見いだした。あるテストでは、中世の建築に関するテキストが出発点として使われたが、9世代目になると、モデルの出力はジャックウサギのリストになっていた。著者たちは、AIが生成したデータを使用して生成AIモデルを訓練することは不可能ではないが、それらのデータを選別する際には細心の注意を払う必要があり、人間が作成したデータの方がまだ優れている可能性が高いとしている。

2024年7月25日号の Nature ハイライト

目次へ戻る

プライバシーマーク制度