機械学習:計算病理学モデルによる誤診の人口統計学的なバイアス
Nature Medicine 30, 4 doi: 10.1038/s41591-024-02885-z
深層学習に基づく計算病理学システムは、規制当局による承認数が増加しているが、人口統計学的因子がパフォーマンスに及ぼす影響が見落とされることが多く、結果的にバイアスにつながる可能性がある。この懸念の重要性を特に際立たせているのは、計算病理学が、特定の人口統計学的グループが過少代表された大規模公開データセットを利用してきているためである。本論文では、がんゲノムアトラス(TCGA)およびEBRAINS脳腫瘍アトラスの公開データに加えて、患者の内部データを使うことにより、WSI(whole-slide image)分類モデルを乳がんや肺がんのサブタイプ分類やグリオーマでのIDH1変異予測に用いると、異なる人口統計学的グループ間でパフォーマンスに顕著な差異が見られることを示す。例えば、一般的なモデル化手法を使った場合、白人患者と黒人患者の間でのパフォーマンスの差異(受信者動作特性曲線下面積における差異)は、乳がんのサブタイプ分類で3.0%、肺がんのサブタイプ分類で10.9%、グリオーマでのIDH1変異予測で16.0%であることが観察された。我々は、自己教師あり視覚基盤モデルから得られた特徴表現が多くなるほど、グループ間でのパフォーマンスのばらつきが低減することを見いだした。これらの表現は、弱いモデルを改善し、弱いモデルが最先端のバイアス緩和戦略やモデル化選択と組み合わされた場合でも改善が見られることを示す。しかし、自己教師あり視覚基盤モデルでは、これらのパフォーマンスのばらつきは完全には解消されず、計算病理学でバイアス緩和の取り組みを続ける必要があることが示された。最後に、我々の結果は、患者の人種以外の他の人口統計学的因子へ拡大できることを示す。これらの結果から我々は、規制当局や政策機関に、人口統計学的に層別化された評価を計算病理学システムのアセスメントガイドラインへ取り入れることを推奨する。