Technical Report
コピー数多型:GATK-gCNVはエキソーム塩基配列決定データから希少なコピー数多型の発見を可能にする
Nature Genetics 55, 9 doi: 10.1038/s41588-023-01449-0
コピー数バリアント(CNV)は、遺伝的多様性や疾患の主要な原因である。短いバリアントの検出には、ゲノム解析ツールキット(GATK)のような標準化された手法が存在するが、全エキソーム塩基配列決定(WES)データから均一で大規模なCNV解析を行うことは、技術的に難しい。希少なde novoコード領域CNVがゲノム構造やヒト疾患に及ぼす甚大な影響を鑑みて、我々は、塩基配列決定のリード深度情報から希少なCNVを発見するための柔軟なアルゴリズムであるGATK-gCNVを開発した。GATK-gCNVは、GATKを通じてオープンソースとして配布される。4人組(両親と2人の同胞)のそれぞれから採取した7962のエキソームについて、マッチさせたゲノム塩基配列決定データとマイクロアレイデータと共にGATK-gCNVで評価を行い、希少なコード領域CNVについて、2エキソン以上の解像度で最大95%の再現率が示された。次に、GATK-gCNVを用いて、英国バイオバンクの19万7306人のWESデータ中の希少なコード領域CNVの参照カタログを作ったところ、遺伝子当たりのCNV率と変異制約量の間に強い相関が観察された。まとめると、GATK-gCNVはWESデータから高感度かつ特異的にCNVを発見するための調節可能な手法であり、幅広い応用が可能である。