Article

バリアントの効果予測:高深度のタンパク質言語モデルによって行うゲノム規模での疾患バリアント効果予測

Nature Genetics 55, 9 doi: 10.1038/s41588-023-01465-0

コード領域のバリアントの効果を予測することは重要な課題である。最近の深層学習モデルによってバリアントの効果予測の精度は向上しているが、近縁なホモログの影響やソフトウエアの限界により、全てのコード領域バリアントの解析が可能になっているわけではない。本論文では、6億5000万パラメーターを保持するタンパク質言語モデルであるESM1bを用いて、ヒトゲノムに想定され得る約4億5000万のミスセンスバリアント全ての効果を予測するワークフローを開発し、全ての予測をウェブポータルで利用できるようにしたことを報告する。ESM1bは、ClinVar/HGMDの約15万のミスセンスバリアントを病的か良性かに分類することや、deep mutational scan法による28のデータセットに対する測定値を予測することにおいて、既存の方法の性能を上回った。さらに、約200万のバリアントについて、特定のタンパク質アイソフォームにおいてのみ障害されるというアノテーションが得られたことから、バリアントの効果を予測する際に全てのアイソフォームを考慮することの重要性が明らかになった。我々の手法は、読み枠内のインデルや終止コドンの獲得など、より複雑なコード領域バリアントにも一般化できる。総合的にこれらの結果は、タンパク質言語モデルが、バリアントの効果を予測するための効果的で正確かつ一般化可能な手法であることを確立した。

目次へ戻る

プライバシーマーク制度