Research Press Release

人工知能：大規模言語モデルのハルシネーションを検出する

Nature

2024年6月20日

大規模言語モデル（LLM）によって生成された応答の意味の不確実性を測定してLLMのハルシネーションを検出するという方法について報告する論文が、今週、Natureに掲載される。この方法は、LLMの出力の信頼性を高めるために使用できるかもしれない。

LLM（ChatGPT、Geminiなど）は、人間の言語を読み取って自然な言語を生成する人工知能システムだ。しかし、こうしたシステムは、生成されたコンテンツが不正確であったり、意味をなさなかったりする「ハルシネーション」が起こりやすい。LLMがどの程度ハルシネーションを起こす可能性があるかを検出することは難しい課題となっている。LLMの応答の提示のされ方によっては、もっともらしく見えることがあるためだ。

今回、Sebastian Farquharらは、LLMによって生成されるハルシネーションの程度を定量化して、LLMが生成する内容が正確である可能性がどれくらい高いかを評価しようと試みた。Farquharらの方法は、ハルシネーションのサブクラスの1つである「作話」を検出する。作話は、不正確で独断的であり、LLMの知識が不足している際に起こることが多い。Farquharらの方法は、言語のニュアンスと、LLMの応答の表現の仕方にどの程度のバリエーションがあって、どの程度意味が異なる可能性があるかという点を考慮に入れている。Farquharらは、この方法によって、LLMが生成した伝記や、いろいろなトピック（雑学的知識、一般知識、生命科学など）の質問に対するLLMの回答において、作話を検出できることを示した。

この生成課題は、1つのLLMによって実行され、大抵は第3のLLMによって評価される。同時掲載のNews & Viewsでは、Karin Verspoorが、これは「相手と同じ手段を用いて戦う」ことになると指摘し、「LLMを使用した方法の評価にLLMを用いることは堂々巡りのように見え、結果にバイアスがかかるかもしれない」と付言している。しかし、Farquharらは、今回開発した方法が、ユーザーがLLMの応答に依存する際に注意すべき点を理解する上で役立ち、より広い応用範囲で、より安心してLLMを使用できるようになる可能性があるという考えを示している。

doi:10.1038/s41586-024-07421-0

英語の原文

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

注目のハイライト

3月27日

医学研究：ブタから人間への肝臓移植の評価Nature
3月27日

天文学：宇宙再電離の初期兆候Nature
3月27日

化学: 永遠の化学物質の分解Nature
3月25日

神経科学：マラソンランナーは脳内のミエリンの可逆的な変化を経験するNature Metabolism
3月25日

加齢：健康的な加齢のための食事パターンの特定Nature Medicine
3月20日

神経科学：鳥の脳が明かす言語の秘密Nature

「注目のハイライト」記事一覧へ戻る

人工知能：大規模言語モデルのハルシネーションを検出する

注目のハイライト

医学研究：ブタから人間への肝臓移植の評価Nature

天文学：宇宙再電離の初期兆候Nature

化学: 永遠の化学物質の分解Nature

神経科学：マラソンランナーは脳内のミエリンの可逆的な変化を経験するNature Metabolism

加齢：健康的な加齢のための食事パターンの特定Nature Medicine

神経科学：鳥の脳が明かす言語の秘密Nature