Article

進化データおよびアッセイラベルデータからのタンパク質適応度モデルの学習

Nature Biotechnology 40, 7 doi: 10.1038/s41587-021-01146-5

タンパク質適応度の機械学習モデルは、一般にラベルのない進化的関連配列または実験的に測定されたラベルのあるバリアント配列のいずれかから学習する。限られた実験データしか利用できないレジームに関して、最近の研究では、両方の情報源を組み合わせるための方法が示唆されている。その目標に向けて我々が提案する簡単な併用法は複雑な方法に劣らず、平均的にはそれをしのいでいる。我々の手法は、部位特異的なアミノ酸特性のリッジ回帰を、進化データのモデリングに由来する1つの確率密度特性と組み合わせて用いる。この手法では、変分オートエンコーダーに基づく確率密度モデルが最高の全体的性能を示すものの、いずれの進化密度モデルも使用可能であることがわかった。さらに今回の解析から、系統的な評価および十分な基準の重要性が明らかになった。

目次へ戻る

プライバシーマーク制度