Technical Report
関連解析:バイオバンク規模のデータのための一般化線形混合モデルに基づく関連解析ツール
Nature Genetics 53, 11 doi: 10.1038/s41588-021-00954-4
線形混合モデルに基づくゲノムワイド関連(GWA)解析法と比較して、一般化線形混合モデル(GLMM)に基づく方法は、二値形質に適用した場合に統計学的特性に優れるが、計算速度ははるかに遅くなる。本研究では、効率的な疎行列ベースのアルゴリズムを利用して、GLMMに基づくGWAツールであるfastGWA-GLMMを開発したこと、また、fastGWA-GLMMは、英国バイオバンク(UKB)データに適用した場合、最先端のツールより数倍から桁違いに高速であり、数百万人のコホートに拡大可能であることを報告する。我々は、シミュレーションにより、一般的なバリアントとまれなバリアントの両方のfastGWA-GLMM検定統計量が、極端な症例–対照比を持つ形質であっても、帰無仮説の下で適切に較正されていることを示す。fastGWA-GLMMを、45万6348人、1184万2647のバリアント、2989の二値形質からなるUKBデータ(完全な要約統計量はhttp://fastgwa.info/ukbimpbinで入手可能)に適用すると、75の形質に関連する259のまれなバリアントが見つかったことから、大規模コホートにおいてインピューテーションによる遺伝子型データを用いて、二値複合形質のまれなバリアントを見つけ出せることが示された。