Technical Report

表現型インピュテーション:集団規模のバイオバンクデータに対する深層学習ベースの表現型インピュテーションにより遺伝的発見が増加する

Nature Genetics 55, 12 doi: 10.1038/s41588-023-01558-w

バイオバンクは、多くの人の詳細な表現型データとゲノムデータを収集しており、ヒトの遺伝学における重要な情報資源であることが明らかになってきている。しかしバイオバンクでは、表現型の情報が多くの人で欠落していることがよくあり、その有用性が限られてしまう。本論文では、集団規模のバイオバンクデータセットにおいて、欠落している表現型をインピュテーション、つまり「補う」ための深層学習ベースのインピュテーション法であるAutoCompleteを提案する。AutoCompleteは、英国バイオバンクの約30万人において測定された表現型コレクションに適用した場合、既存の方法よりもインピュテーション精度が大幅に向上していた。顕著な量の欠落がある3つの形質について、AutoCompleteを用いて、インピュテーションにより表現型を生成すると、この表現型は本来の観察による表現型に類似した遺伝的構造である一方、有効標本サイズは平均で約2倍増加したことが分かった。さらに、得られたインピュテーションによる表現型についてのゲノムワイド関連解析は、関連座位の数の大幅な増加につながった。我々の結果は、既存のバイオバンクデータセットにおける遺伝的発見の能力を高めるための深層学習ベースの表現型インピュテーションの有用性を実証している。

目次へ戻る

プライバシーマーク制度