Computational Biology
大規模RNA塩基配列解読データの系統的なばらつきの検出および補正
Nature Biotechnology 32, 9 doi: 10.1038/nbt.3000
ハイスループットのRNA塩基配列解読(RNA-seq)によって全トランスクリプトームの網羅的スキャンが可能となったが、RNA-seqのデータ、特に複数の塩基配列解読プラットフォームまたは施設から収集されたデータに関して、最適な解析方法は確立されていない。本論文では、標準配列が組み込まれた標準化RNA試料を用いて、大規模なRNA-seq試験の誤差の原因、およびそれが差次的発現遺伝子の検出に与える影響を分析した。グアニン・シトシン含量、遺伝子カバー率、塩基配列解読エラー率、および挿入サイズのばらつきを解析することにより、施設間の再現性の低下が明らかにされた。さらに、一般的に用いられている正規化法(cqn、EDASeq、RUV2、sva、PEER)は、そうした系統的な偏りを排除する能力が、試料の複雑度および初期的なデータの精度によって異なっていた。さまざまな施設の遺伝子から得たデータを組み合わせる正規化法は、施設に特異的な影響を特定および除去することが強く推奨され、RNA-seq試験を大幅に改善することができる。