Computational Biology

RNA配列データの統合的分析によるゲノム誘導型の転写物アセンブリー

Nature Biotechnology 32, 4 doi: 10.1038/nbt.2850

ゲノムアノテーションでは、短いリードのRNA配列データ(RNA-seq)のみから完全長転写物を明らかにすることが課題となっている。本論文では、RNA-seqと遺伝子境界のデータセットを統合するゲノムアノテーションのための自動パイプラインを紹介する。我々はこれをGRIT(Generalized RNA Integration Tool)と命名した。modENCODEプロジェクトのために収集されたDrosophila melanogasterの短リードRNA-seq、CAGE(cap analysis of gene expression)、およびポリA部位配列データにGRITを応用することにより、これまでにアノテーションされている転写物の大部分が回収され、収集された転写物の総数は倍増した。タンパク質をコードする遺伝子の20%が複数のタンパク質局在化シグナルをコードしており、20日齢の成体ハエの頭部では選択的スプライシングを行う遺伝子または選択的プロモーターを持つ遺伝子と比較して複数のポリアデニル化部位を持つ遺伝子の方が多いことが分かった。極めて広く用いられているアセンブリーツールと比較して、GRITは適合率および再現率が30%優れていた。GRITを用いれば、大規模な手動アノテーションによらずに、質の高いゲノムアノテーションの自動生成が可能になると考えられる。

目次へ戻る

プライバシーマーク制度