Article

ギャップを認識する配列トランスフォーマーによって配列の正確さを改善するDeepConsensus

Nature Biotechnology 41, 2 doi: 10.1038/s41587-022-01435-7

パシフィックバイオサイエンス社(PacBio)の技術によるCCS(循環コンセンサス塩基配列解読)では、1分子のDNAの連続的な読み取りの結果を組み合わせてコンセンサス配列とすることで、長く(10~25キロ塩基)正確な「HiFi」リードが得られる。コンセンサス生成の標準的な手法であるpbccsは、隠れマルコフモデルを用いている。我々は、アラインメントに基づく損失を用いて塩基配列修正用のギャップ認識トランスフォーマー・エンコーダーを訓練するDeepConsensusを紹介する。pbccsと比較して、DeepConsensusではリードエラーが42%減少した。これは、PacBio のHiFiリードの収量を、Q20で9%、Q30で27%、Q40で90%改善した。HG003の2つのSMRT Cellでは、DeepConsensusのリードがhifiasmのアセンブリーの連続性を高め(NG50が4.9 Mbから17.2 Mbへ)、遺伝子の完成度を高め(94%から97%へ)、偽遺伝子重複率を下げ(1.1%から0.5%へ)、アセンブリーの塩基の正確度を高め(Q43からQ45へ)、バリアントコーリングのエラーを24%減少させた。DeepConsensusモデルは、固有の分子識別子やゲノムアセンブリーなど、他タイプの配列のアラインメントを解析するという一般的な問題に対して訓練可能と考えられる。

目次へ戻る

プライバシーマーク制度