Perspective
数千件のショートリード配列解読実験の高速検索
Nature Biotechnology 34, 3 doi: 10.1038/nbt.3442
公開リポジトリに存在する塩基配列情報が急増している。そのデータは臨床上重要な未発見情報を含むと考えられるが、そうしたリポジトリを効果的に探ることはできていない。本論文では、配列によって数千件のショートリード配列解読実験のクエリーを行う「配列ブルームツリー(Sequence Bloom Tree;SBT)」という方法を紹介する。その速度は既存の方法の162倍である。この方法は、与えられた配列が関連する全実験の大規模なデータアーカイブを検索する。我々はSBTを用い、239 MB足らずのRAMおよび単一のCPUを利用して、既知の転写物21万4293個の全てに関してヒトの血液、乳房、および脳のRNA-seq実験2652件を4日以内で検索した。これまで、既存のツールではこれだけの期間でこれだけの規模の配列アーカイブを検索することができなかった。