Article

大規模言語モデルが多様なファミリーの機能性タンパク質配列を生成する

Nature Biotechnology 41, 8 doi: 10.1038/s41587-022-01618-2

深層学習言語モデルは、タンパク質の設計やタンパク質工学など、さまざまな生物工学的用途に有望であることが示されている。本論文で紹介する言語モデルProGenは、多様な論題に関して文法的にも意味的にも正しい自然言語文を生成するように、各種の大規模なタンパク質ファミリーを対象として予測可能な機能を有するタンパク質配列を生成することができる。このモデルは1万9000以上のファミリーに属する2億8000万のタンパク質配列で訓練され、タンパク質の特性を指定する制御タグによって増強された。さらに、キュレーション済みの配列とタグに対する微調整を加え、相同的なサンプルが十分なファミリーのタンパク質に関して制御可能な生成の性能を高めることができる。5種類のリゾチームファミリーに対して微調整された人工タンパク質は、天然のリゾチームと同等の触媒効率を示したが、天然タンパク質に対する配列同一性は31.4%にとどまった。ProGenは、今回コリスミ酸ムターゼとリンゴ酸デヒドロゲナーゼで実証したように、多様なタンパク質ファミリーへの応用が容易である。

目次へ戻る

プライバシーマーク制度