Technical Report

がんゲノム解析:がん塩基配列決定データからの体細胞バリアントコールをディープラーニングにより自動識別する

Nature Genetics 50, 12 doi: 10.1038/s41588-018-0257-y

がんゲノム解析では、塩基配列解読データから体細胞バリアント(変異)を正確に特定することが求められる。データの自動的な処理後の最終段階として、体細胞バリアントコールの絞り込みに手動による見直しが必要になる。しかし手動による見直しには時間や費用がかかり、また標準化が難しく、再現性がない。今回、機械学習の手法を用いて、体細胞バリアントの見直し(識別)をシステム化および標準化した。この機械学習モデルは、最終的に、440のがん症例の塩基配列決定データから抽出された4万1000のバリアント上に構築されている。このモデルは、3つの別個のテストセットに対する手動による識別ラベルを正確に再現し(1万3579のバリアント)、統計的に独立した評価方法に基づく配列解読データにより確認された体細胞バリアントを正しく予測した(21万2158のバリアント)。このディープラーニングモデルは、評価者間での大幅なばらつきになりかねないコールへの偏りを減じることで、体細胞バリアントの手動識別を改善するものである。

目次へ戻る

プライバシーマーク制度