注目の論文

医学:医学的な質問に対するAIの回答能力をベンチマーキングする

Nature

2023年7月13日

Medicine: Benchmarking AI’s ability to answer medical questions

医学的な質問に対する大規模言語モデル(LLM)の回答内容を評価するためのベンチマークを報告する論文が、Natureに掲載される。Google ResearchとDeepMindによるこの論文では、医学分野に特化したLLMであるMed-PaLMも紹介されている。ただし著者らは、LLMには多くの限界があり、それらが克服されて初めてLLMの臨床応用が可能になると指摘している。

人工知能(AI)モデルは、医学分野で使用できる可能性がある。その一例が、知識の検索や臨床判断の支援だ。しかし、現在のAIモデルは、例えば、説得力のある誤った医学情報をまことしやかに提示したり、健康格差を悪化させ得るバイアスを組み込んだりする可能性がある。そのために、AIモデルの臨床知識の評価が必要になっている。ところが、こうした評価は、限られた種類のベンチマーク(例えば、個別の医学試験の点数)による自動評価に基づいていることが通例で、評価結果が現実世界の信頼性や価値に結び付くとは限らない。

今回、Karan Singhal、Shekoofeh Azizi、Tao Tu、Alan Karthikesalingam、Vivek Natarajanらは、LLMが医学的な質問に回答する能力を検討して、LLMにどれだけの臨床知識がコード化されているかを評価した。著者らは、MultiMedQAという新たなベンチマークを提示している。MultiMedQAは、医療従事者、研究者、消費者からの質問に対応する6種類の既存の質問応答データセットと、オンライン検索された医学的な質問(合計3173問)の新規データセット(HealthSearchQA)を組み合わせたものである。次に、著者らは、PaLM(5400億パラメータLLM)とその改良版Flan-PaLMの性能を評価した。その結果、Flan-PaLMは、いくつかのデータセットで最高の性能を達成した。また、米国医師国家試験形式の質問からなるMedQAデータセットでは、FLAN-PaLMは、これまでの最先端のLLMの性能を17%以上上回った。FLAN-PaLMは、多項選択式問題での性能は良好だったが、人間による評価では、消費者からの医学的な質問に対する長文回答の点で劣っていることが明らかになった。

この問題点に対処するため、著者らは、インストラクション・プロンプト・チューニングという手法を用いて、Flan-PaLMの医学分野に対する適応性をさらに高めた。この手法は、汎用LLMを新しい専門分野に整合させるための効率的な方法として導入されている。それによって得られたモデルMed-PaLMの予備的評価での性能は、その将来に期待を持たせるものとなった。例えば、臨床医のパネルによる評価で、科学的コンセンサスと一致すると判断されたFlan-PaLMの長文回答はわずか61.9%であったのに対し、Med-PaLMの回答は92.6%で、臨床医が作成した回答(92.9%)とほぼ同レベルだった。また、Flan-PaLMの回答の29.7%が有害な結果につながる可能性があると評価されたのに対し、Med-PaLMでは5.8%となり、臨床医が作成した回答(6.5%)とほぼ同じだった。

著者らは、今回の研究によって期待できる結果が得られたが、さらなる評価が必要な点も指摘している。

doi: 10.1038/s41586-023-06291-2

「注目の論文」一覧へ戻る

プライバシーマーク制度