注目の論文

人工知能:大規模言語モデルは一部の精神状態の追跡を人間と同程度に行えるかもしれない

Nature Human Behaviour

2024年5月21日

Artificial Intelligence: LLMs may be as good as humans at tracking some mental states

2種類の大規模言語モデル(LLM)が、他者の精神状態を追跡する能力(「心の理論」として知られる)を検討する課題において、人間と同程度か、特定の状況下では人間より優れた性能を示すことを明らかにした論文が、Nature Human Behaviourに掲載される。

心の理論は、人間の社会的な相互作用の中心であり、コミュニケーションや他者への共感において不可欠である。これまでの研究では、人工知能の一種であるLLMが、多肢選択式の意思決定などの複雑な認知課題を解くことができると報告されている。しかし、LLMが「心の理論」課題(人間に特有と考えられている能力)においても、人間と同程度の成績を達成できるかどうかは不明であった。

今回、James Strachanらは、誤った信念の特定、間接話法の理解、無作法の認識など、心の理論のさまざまな側面を検討する課題を選択し、1907人の被験者と2種類の一般的なLLM(GPTモデルとLLaMA2モデル)の能力を課題完了時に比較した。その結果、GPTモデルの性能は、間接的要求、誤った信念、注意そらしの特定において、人間の平均と同程度か、時には人間の平均を上回ることが判明した。一方で、LLaMA2モデルの性能は人間のレベルを下回った。無作法の検出においては、LLaMA2は人間よりも優れていたが、GPTは苦戦した。Strachanらは、LLaMA2の成功は、無作法を真に感知したのではなく、無作法に対する応答の偏りが低レベルだったことに起因し、一方でGPTが失敗したように見えるのは、実際には推論の失敗ではなく、結論に至る際の超保守的なアプローチに起因することが分かったと述べている。

Strachanらは、心の理論課題においてLLMが人間と同程度の性能を示したからといって、LLMが人間と同様の能力を有すると言えるわけではなく、また、LLMが心の理論を有することを意味するものではないことに注意を促している。それでも、Strachanらは、今回の知見は今後の研究の重要な基盤となり、LLMの心的推論に関する性能がヒューマン・マシン・インタラクションにおける個人の認知にどのような影響を及ぼし得るかを他の研究で調べることができると示唆している。

doi: 10.1038/s41562-024-01882-z

「注目の論文」一覧へ戻る

プライバシーマーク制度