Article
長い高忠実度リードからのゲノムアセンブリーを可能にする多重de Bruijnグラフ
Nature Biotechnology 40, 7 doi: 10.1038/s41587-022-01220-6
既存のゲノムアセンブラーの大多数はde Bruijnグラフを基盤としているが、大規模ゲノムおよび大きいk-merサイズに関してそのグラフを作成することはいまだに困難である。このアルゴリズム的課題は、とりわけヒトゲノムのテロメアからテロメアまでの半手動アセンブリーを行うために最近用いられている長い高忠実度(HiFi)のリードの出現によって差し迫ったものとなった。長いHiFiリードの自動アセンブリーを可能にするものとして、我々はラホヤ・アセンブラー(LJA)を紹介する。これは、ブルームフィルター、低密度のde Bruijnグラフ、およびディスジョインティグ(disjointig)の作成を利用する高速アルゴリズムである。LJAは、HiFiリードのエラー率を3桁低下させ、大規模ゲノムおよび大きいk-merサイズのde Bruijnグラフを作成し、それをさまざまなk-merサイズの多重de Bruijnグラフに変換する。我々のアルゴリズムは、誤アセンブリーを最新式アセンブラーの5分の1に減少させるだけでなく、得られるアセンブリーの連続性が高い。我々は、6本の染色体を完全に組み立てたヒトゲノムの自動アセンブリーによってLJAの有用性を実証した。