Article
集団遺伝学:巨大な集団データセットから全ゲノムの履歴を推定
Nature Genetics 51, 9 doi: 10.1038/s41588-019-0483-y
DNA塩基配列のデータセットについて、その全系譜関係を推定することは、進化生物学の中心的な課題である。というのも、この系譜関係の歴史から、種に影響を与えたイベントや圧力に関する情報をひもとけるからである。しかしながら、現在の手法は限定的であり、サンプル数が100を超えると、精度の高い技術を適用することはできない。現在では、数百万ものゲノムからなるデータセットが収集されているので、これらのリソースを十分に活用するためのスケーラブルで効果的な系譜関係の推定方法が必要とされている。今回我々は、最新の手法に匹敵する精度で全ゲノムの系譜関係を推定でき、しかも桁数にして4桁多い数の塩基配列を処理できるアルゴリズムを開発したので紹介する。このアプローチはデータの「進化的コード化」も行っているので、関連する統計的計算を効率的に処理することを可能にしている。我々はこの手法を、1000ゲノムプロジェクト、Simons Genome Diversity Project、および英国バイオバンクなどのヒトデータに適用し、推定された系譜関係が生物学的シグナルに富んでおり、このようなシグナルが効率的に処理されることを明らかにした。