Article
ディープラーニングによるタンパク質集合空間のアノテーション
Nature Biotechnology 40, 6 doi: 10.1038/s41587-021-01179-w
アミノ酸配列とタンパク質機能との関係を理解することは、科学および臨床橋渡しの面で極めて大きな意味をもつ積年の課題である。アラインメントに基づく最新の手法では微生物タンパク質配列の3分の1で機能を予測することができず、多様な生物に由来するデータが利用しきれていない。今回、タンパク質ファミリーデータベースPfamの1万7929ファミリーに基づく厳密なベンチマーク評価で未アラインメントのアミノ酸配列の機能アノテーションを正確に予測するべく、ディープラーニングモデルの訓練を行った。そのモデルは、進化的置換の既知のパターンを推定し、初見のファミリーの配列を正確にクラスター化する表現を学習した。ディープモデルを既存の方法と組み合わせると遠縁の相同性の検出が大きく改善されたことから、このディープモデルが補完的な情報を学習することが示唆された。この方法はPfamのカバー率を9.5%以上拡大し(これはこの10年間の追加分を上回る)、これまでPfamのアノテーションが行われていなかったヒト参照プロテオームタンパク質360個の機能を予測した。今回の結果から、ディープラーニングモデルが将来のタンパク質アノテーションツールの中核要素になることが示唆された。