Article
言語モデルおよびディープラーニングによる単一配列タンパク質構造予測
Nature Biotechnology 40, 11 doi: 10.1038/s41587-022-01432-w
AlphaFold2および関連する計算システムは、ディープラーニング、および多重配列アラインメント(MSA)に記号化された共進化関係を利用してタンパク質の構造を予測する。そうした方法では高い予測精度が達成されているが、次の3点が課題として残っている。それは、(1)MSAが得られないオーファンタンパク質や急速に進化するタンパク質の予測、(2)設計した構造の迅速な検討、および(3)溶液中でのポリペプチドの自発的な折りたたみを支配する法則の解明、の3点である。今回我々は、タンパク質言語モデル(AminoBERT)を用いて未整列タンパク質から隠れた構造情報を学習するエンドツーエンドのディファレンシャブルRGN(recurrent geometric network)を開発した。連結された幾何学的モジュールが、並進および回転不変的にCα骨格の配置を簡潔に示す。平均すると、RGN2はオーファンタンパク質および一群の設計タンパク質に関してAlphaFold2およびRoseTTAFoldよりも好成績でありながら、計算時間を6桁も短縮した。以上の知見は、構造予測でMSAに対してタンパク質言語モデルが持つ実際的および理論的な強みを示している。