Nature ハイライト
Cover Story:ゴミを生み出す:AIが生成したデータで学習したAIモデルは、意味のないテキストを生成する
Nature 631, 8022
大規模言語モデル(LLM)などの生成AIツールの爆発的な普及は、その訓練に使用された膨大な量のデータによって支えられてきた。こうした訓練データは人間が作成したものである。生成AIツールがさらに普及して、その出力がオンラインでますます利用可能になるにつれ、訓練データの情報源がコンピューターによって生成されたコンテンツに切り替わる可能性も考えられる。今回I Shumailovたちは、こうした変化がもたらすであろう影響について調べ、その結果はあまり期待できないことを明らかにしている。彼らは、AIが生成したデータを生成AIモデルに与えると、それ以降の世代の生成AIモデルが崩壊するほどに劣化することを見いだした。あるテストでは、中世の建築に関するテキストが出発点として使われたが、9世代目になると、モデルの出力はジャックウサギのリストになっていた。著者たちは、AIが生成したデータを使用して生成AIモデルを訓練することは不可能ではないが、それらのデータを選別する際には細心の注意を払う必要があり、人間が作成したデータの方がまだ優れている可能性が高いとしている。
2024年7月25日号の Nature ハイライト
統計物理学:量子アニーリング高速化のカギ
熱電学:単結晶Mg3Bi2熱電材料における特定方向の延性
光触媒:光触媒反応によるカルベンの生成
生物地球化学:高木の表面は大気中のメタンを吸収する
地球化学:かんらん岩の超低酸素フガシティーに記録された古代の還元的マントルの循環
保全生物学:伐採林の保全価値を見極めるための閾値
考古学:洞窟壁画の年代を掘り下げる
進化遺伝学:ウマの家畜化の時系列を解き明かす
生態学:空気中の菌類DNAについての全球的なデータ
微生物学:細菌にも真核生物と類似するユビキチン化システムが存在する
微生物学:細菌がファージの組み立てを阻止する仕組み
免疫学:全身性エリテマトーデスにおけるT細胞表現型不均衡の分子機構
感染症:肝炎ウイルスの慢性感染では肝類洞内皮細胞が免疫を抑制する
がん治療:がん細胞が徐々に治療抵抗性を獲得していく様子
生物工学:埋め込んだ酵素で自己生分解するプラスチック
分子生物学:転写因子の活性は結合部位の位置によって左右される
構造生物学:シナプス小胞の働きを支えるV-ATPアーゼとシナプトフィジンの複合体
構造生物学:チューブリンを修飾する異例な機構
神経変性:アルツハイマー病患者脳のアミロイドのin situ構造