画像解析:医療系ツイッターを活用した病理画像解析のための視覚–言語基盤モデル
Nature Medicine 29, 9 doi: 10.1038/s41591-023-02504-3
公開されている注釈付き医療画像が不足していることは、計算科学による研究と教育の革新にとって大きな障壁となっている。一方で、たくさんの匿名化画像や多くの知識が、医療系ツイッター(現X)などの公開の意見交換の場で臨床医に共有されている。本論文では、これらの大勢が利用するプラットフォームを利用して、自然言語による説明と対になった20万8414枚の病理画像の大規模なデータセットであるOpenPathのキュレーションを行った。我々は、OpenPathで訓練された、画像と言語情報の両方を理解するマルチモーダルな人工知能である病理言語–画像事前訓練(pathology language–image pretraining:PLIP)を開発することによって、この情報資源の価値を実証する。PLIPは、4つの外部データセットに対して、新しい病理画像を分類する最高水準の性能を達成した。例えば、ゼロショット分類では、以前のCLIP(contrastive language–image pretrained)モデルのF1スコアは0.030〜0.481であったのに対して、PLIPのF1スコアは0.565〜0.832を達成している。PLIP埋め込み上で単純な教師あり分類システムを訓練すると、他の教師ありモデルの埋め込みを使用した場合と比較して、F1スコアが2.5%向上する。さらにPLIPを使用すると、ユーザーは画像または自然言語によって類似の症例を検索できるため、知識の共有が大幅に促進される。我々の手法は、公開されている医療情報は、診断、知識の共有、および教育を向上させるための医療用人工知能の開発に活用できる、非常に大きな情報資源であることを実証している。