Article
機械学習:生成モデルは分布シフト下での医療分類システムの公平性を向上させる
Nature Medicine 30, 4 doi: 10.1038/s41591-024-02838-6
ドメイン汎化は、医療分野の機械学習にとって普遍的な課題である。リアルワールドの条件下でのモデルの性能は、開発に用いたデータと実装中に遭遇するデータの間に相違があるため、予想よりも低くなる可能性がある。この現象のよくある原因は、モデル開発中のグループや疾患の一部の過少代表である。この問題は、標的を絞ったデータ収集や専門医によるラベル付けでは容易に対処できないことが多く、疾患の希少性や利用可能な専門家の点から、著しく高額になったり、事実上不可能だったりし得る。我々は、生成人工知能の進歩が、制御可能な方法で、この満たされないニーズに応えるのに役立ち、我々の訓練データセットを合成症例データによって補強すれば、過少代表の疾患やサブグループの不足に対処できるのではないかという仮説を立てた。その結果、拡散モデルは、ラベルを効率的に用いることにより、データから現実的な拡張を自動的に学習できることが分かった。我々はまた、モデルが、学習した拡張によって、学習分布内でも学習分布外でも、よりロバストさを増し、統計学的に公平になることを実証する。我々の手法の汎化性能を評価するために、さまざまな難易度の3つの異なる医用画像処理コンテキスト(病理組織画像、胸部X線画像、皮膚科画像)において研究を行った。実際の症例データを合成症例データで補完すると、3つの医療タスク全てでモデルのロバストさが向上し、また特に学習分布外の、過少代表のグループ内の臨床診断精度を高めることで公平性が向上した。