Author Corner: プロテオミクスデータを共有してコミュニティーベースのリソースを構築する
原文: 26 April 2016 Author’s corner: Sharing proteomics data to build community-based resources
質量分析法に基づくプロテオミクスは、プロテオームを構成するタンパク質の同定と定量を主目的とする、データ中心型研究領域である1。これは、個々のプロテオームのタンパク質分解で生じたペプチドを表す多数(104~106)のフラグメントイオンスペクトルを得ることによって行われる。質量分析装置は、データ依存的収集(DDA)、選択的反応モニタリング(SRM)のような選択的な収集、もしくはSWATH-MS3,4 のようなデータ非依存的収集(DIA)2と呼ばれるさまざまなデータ収集モードで動作させることができる。そして、特別なソフトウェアツールがこの生データから処理済みの質量スペクトルを生成し、そこから同定されたペプチド群、タンパク質およびその量が推測され、メタデータによってアノテーションされる。そのような生データセットは、生成にも処理にも大量のリソースと時間を要する。さらに、臨床コホートに多いことであるが、ほかでは代替不能な固有の試料が解析対象である場合、データの再生成は不可能である。そのためプロテオミクスコミュニティーは、たとえば GPMDB5、PRIDE6、PeptideAtlas7、ProteomicsDB8 など、いくつかの専門的な公共リポジトリを用いたデータ共有に取り組み始めた。ここ数年、ProteomeXchange9 コンソーシアムは生データとそのメタアノテーションの一元的な蓄積を提供している。
誰でもアクセス可能で、かつ十分にアノテーションされたプロテオームデータセットは、少なくとも3つの重要な目的に資するものである。第一に、その集積と一貫した処理は、質量分析法に基づくプロテオームの発見についての現状を示している。すなわちプロテオーム全体のカタログや目次になっている。たとえばヒト染色体プロテオームプロジェクト(C-HPP)10や最近のヒトプロテームの概要マップ8,11のような協同的取り組みは、プロテオミクスコミュニティーの有志によるデータ登録によって支えられたそうした取り組みの例である。第二に、大規模で多様なデータセットが利用可能であることは、さらなるソフトウェアや統計ツールの開発、そしてその性能評価を行ううえで非常に価値がある。このことは、報告される結果の再現性と透明性を向上させる。第三に、フラグメントイオンスペクトルのよく検証されたライブラリーの生成やそれが表すペプチド配列は、DDAで得られたデータセットのスペクトルマッチングによる解析にきわめて有益であることが示されている12。スペクトルライブラリーは、選択的戦略とDIA戦略に不可欠な要件でもある。それは、特定のタンパク質を検出および定量するための検証されたアッセイ群を提供する経験的情報として用いられる。
2014年、我々は「A repository of assays to quantify 10,000 human proteins by SWATH-MS (SWATH-MSで1万種類のヒトタンパク質を定量するアッセイのリポジトリ)」と題した Data Descriptor を発表した13。このプロジェクトは、SWATH-MS3 のようなDIA法がデータ解析に関して包括的なスペクトルやアッセイのライブラリーから恩恵を受けるという考えに基づいて始まった14。質の高いスペクトルライブラリーの生成は実験的、計算機的に複雑であるため15、我々はさまざまな試料のDDA測定からSWATH-MS用に最適化された包括的なヒトアッセイライブラリーを構築した。早くから我々は、このリソースが他者にとっても有用であり、異なる試料や別の試験および研究グループのSWATH-MSモードによるヒトプロテオームデータセットをさらに再現性よく比較することを可能にするのではないかと認識していた(このことはタンパク質配列データベースを標準化する取り組み16に似ている)。
データ共有とアノテーションを主眼とするScientific Data の創刊は、原稿を伴ってデータを用意し登録することを我々に促す。Scientific Data は、詳細を supplementary materials のセクションに隠さず、目に見えるセクションにサンプルや手法を記述するため柔軟な形式を提供している。著者として我々は、この柔軟性により、データを最大限利用する方法に関する有用な情報へと読者の注意を導くことができた。我々の Data Descriptor の場合、この重要な要素は、大規模なアッセイのライブラリーを選択的なデータ抽出に用いるときの統計的補正法であった。ここでの問題点は、(大規模な)プロテオーム実験で偽陽性のタンパク質同定ばかり増えてしまうことを避けるため大いに注意しなければならないことである17。
この Data Descriptor フォーマットの第二の付加価値は、メタデータのトラッキングに適した機械可読性のあるISA-Tabフォーマットである。Scientific Data の編集チームのサポートを受けて、我々はすべての試料とデータセットに詳細なアノテーションを加えた。ProteomeXchange と SWATHAtlas に登録したデータと合わせて、このアノテーションが将来の応用に向けたデータの再利用を促進することを願っている。
最初の発表以来、我々の複合的アッセイライブラリーは、さまざまな用途に幅広く採用されてきた。現在のところ、ユーザーの多くは、公開アッセイライブラリーを自身のデータで置換または補完するなどの方法により、選択的データ抽出のためのアッセイライブラリーを特定の試料タイプに合わせている。ただし、Wang らのグループのように18、中間的なスペクトルライブラリーを用いてヒト試料に新アルゴリズムを応用してみせ、性能を既存の手法と比較したユーザーもある。
我々の複合的なヒトスペクトルアッセイライブラリーは、理想的にはC-HPPや PeptideAtlas などの大規模な全コミュニティー的取り組みに加えて組み込まれていくようになる発展途上のものと常々考えていた。我々は最初の取り組みについて、大規模で統一的なアッセイライブラリーを最大限活用するためのツールや方法の構築と推進に大きく貢献したと確信している。
我々は、プロテオミクスコミュニティーが既成の公共リポジトリでデータを共有し続けること、そしてメタデータのアノテーションと再利用性を改善するための議論に参加することを強く薦める。それは、コミュニティーリソース、報告された知見の透明性や質に大きな影響を与え、その利益は最終的に質量分析法に基づくプロテオミクスの分野全体に還元されよう。
References
- Aebersold, R. & Mann, M. Mass spectrometry-based proteomics. Nature 422, 198–207 (2003).
- Chapman, J. D., Goodlett, D. R. & Masselon, C. D. Multiplexed and data‐independent tandem mass spectrometry for global proteome profiling. Mass Spectrometry Reviews 33, 452–470 (2014).
- Gillet, L. C. et al. Targeted data extraction of the MS/MS spectra generated by data-independent acquisition: a new concept for consistent and accurate proteome analysis. Mol. Cell. Proteomics 11, O111.016717–O111.016717 (2012).
- Röst, H. L. et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nat. Biotechnol. 32, 219–223 (2014).
- Craig, R., Cortens, J. P. & Beavis, R. C. Open Source System for Analyzing, Validating, and Storing Protein Identification Data. J. Proteome Res. 3,1234–1242 (2004).
- Martens, L. et al. PRIDE: The proteomics identifications database. PROTEOMICS 5, 3537–3545 (2005).
- Desiere, F. et al. The PeptideAtlas project. Nucleic Acids Res. 34, D655–8 (2006).
- Wilhelm, M. et al. Mass-spectrometry-based draft of the human proteome. Nature 509, 582–587 (2014).
- Vizcaíno, J. A. et al. ProteomeXchange provides globally coordinated proteomics data submission and dissemination. Nat. Biotechnol. 32, 223–226 (2014).
- Deutsch, E. W. et al. State of the Human Proteome in 2014/2015 As Viewed through PeptideAtlas: Enhancing Accuracy and Coverage through the AtlasProphet. J. Proteome Res. 150724142438005 (2015). doi:10.1021/acs.jproteome.5b00500
- Kim, M.-S. et al. A draft map of the human proteome. Nature 509, 575–581 (2014).
- Lam, H. et al. Development and validation of a spectral library searching method for peptide identification from MS/MS. PROTEOMICS 7, 655–667 (2007).
- Rosenberger, G. et al. A repository of assays to quantify 10,000 human proteins by SWATH-MS. Scientific Data, Published online: 16 September 2014; | doi:10.1038/sdata.2014.31 1, 140031 (2014).
- Gillet, L. C., Leitner, A. & Aebersold, R. Mass Spectrometry Applied to Bottom-Up Proteomics: Entering the High-Throughput Era for Hypothesis Testing. Annual Review of Analytical Chemistry 9, annurev–anchem–071015–041535 (2015).
- Schubert, O. T. et al. Building high-quality assay libraries for targeted analysis of SWATH MS data. Nat. Protoc. 10, 426–441 (2015).
- Lane, L. et al. neXtProt: a knowledge platform for human proteins. Nucleic Acids Res. 40, D76–83 (2012).
- Nesvizhskii, A. I., Vitek, O. & Aebersold, R. Analysis and validation of proteomic data generated by tandem mass spectrometry. Nat. Methods 4, 787–797 (2007).
- Wang, J. et al. MSPLIT-DIA: sensitive peptide identification for data-independent acquisition. Nat. Methods (2015). doi:10.1038/nmeth.3655