注目の論文

人工知能：大規模言語モデルは一部の精神状態の追跡を人間と同程度に行えるかもしれない

Nature Human Behaviour

2024年5月21日

Artificial Intelligence: LLMs may be as good as humans at tracking some mental states

２種類の大規模言語モデル（LLM）が、他者の精神状態を追跡する能力（「心の理論」として知られる）を検討する課題において、人間と同程度か、特定の状況下では人間より優れた性能を示すことを明らかにした論文が、Nature Human Behaviourに掲載される。

心の理論は、人間の社会的な相互作用の中心であり、コミュニケーションや他者への共感において不可欠である。これまでの研究では、人工知能の一種であるLLMが、多肢選択式の意思決定などの複雑な認知課題を解くことができると報告されている。しかし、LLMが「心の理論」課題（人間に特有と考えられている能力）においても、人間と同程度の成績を達成できるかどうかは不明であった。

今回、James Strachanらは、誤った信念の特定、間接話法の理解、無作法の認識など、心の理論のさまざまな側面を検討する課題を選択し、1907人の被験者と2種類の一般的なLLM（GPTモデルとLLaMA2モデル）の能力を課題完了時に比較した。その結果、GPTモデルの性能は、間接的要求、誤った信念、注意そらしの特定において、人間の平均と同程度か、時には人間の平均を上回ることが判明した。一方で、LLaMA2モデルの性能は人間のレベルを下回った。無作法の検出においては、LLaMA2は人間よりも優れていたが、GPTは苦戦した。Strachanらは、LLaMA2の成功は、無作法を真に感知したのではなく、無作法に対する応答の偏りが低レベルだったことに起因し、一方でGPTが失敗したように見えるのは、実際には推論の失敗ではなく、結論に至る際の超保守的なアプローチに起因することが分かったと述べている。

Strachanらは、心の理論課題においてLLMが人間と同程度の性能を示したからといって、LLMが人間と同様の能力を有すると言えるわけではなく、また、LLMが心の理論を有することを意味するものではないことに注意を促している。それでも、Strachanらは、今回の知見は今後の研究の重要な基盤となり、LLMの心的推論に関する性能がヒューマン・マシン・インタラクションにおける個人の認知にどのような影響を及ぼし得るかを他の研究で調べることができると示唆している。

doi: 10.1038/s41562-024-01882-z

英語の原文

注目の論文

12月13日

進化：最古の現生人類ゲノムから、4万5,000年前にネアンデルタールとの混血があったことが判明Nature
12月13日

Nature Medicine：2025年の医療に影響を与える11の臨床試験Nature Medicine
12月12日

進化：ワニはどのようにして皮膚を得たのかNature
12月12日

天文学：Firefly Sparkleが初期の銀河形成に光を当てるNature
12月12日

医学：マウスの子癇前症に対するmRNA療法の提供Nature
12月10日

加齢：脳の老化に関連する重要なタンパク質の発見Nature Aging

「注目の論文」一覧へ戻る

人工知能：大規模言語モデルは一部の精神状態の追跡を人間と同程度に行えるかもしれない

Artificial Intelligence: LLMs may be as good as humans at tracking some mental states

注目の論文

進化：最古の現生人類ゲノムから、4万5,000年前にネアンデルタールとの混血があったことが判明Nature

Nature Medicine：2025年の医療に影響を与える11の臨床試験Nature Medicine

進化：ワニはどのようにして皮膚を得たのかNature

天文学：Firefly Sparkleが初期の銀河形成に光を当てるNature

医学：マウスの子癇前症に対するmRNA療法の提供Nature

加齢：脳の老化に関連する重要なタンパク質の発見Nature Aging