FANTOM5データを誰でも活用できる形に
川路 英哉、粕川 雄也、坊農 秀雅、小野 浩雅
2017年8月29日掲載
理化学研究所主宰の哺乳類ゲノムの国際研究コンソーシアム、FANTOM。現在の第5期FANTOM5では、500種類以上の細胞(臓器由来含む) について、ゲノムから転写されたRNAが網羅的に測定・解析された。FANTOM5データの多くはすでに公開済みだが、データ取得プロセスや試料の品質、データ処理などを詳しく記述した報告は、今回のScientific Data が初めてだ。同時に、FANTOM5などの遺伝子発現データを簡単に検索・閲覧できるウェブツール「RefEx」に関する論文も同誌に報告。公開データの活用を促すこれらの研究に尽力した4人のデータサイエンティストに話を伺った。
―― FANTOMは、日本の代表的な国際研究コンソーシアムの1つです。その名付け親は坊農さんとお聞きしました。
坊農氏: FANTOMの発足は2000年にさかのぼりますが、当初の目標は、「マウスcDNA(遺伝子)の機能アノテーション」でした。そこで、その英語表記からアルファベットを抜き出し、覚えやすそうな名前、FANTOM(ファントム)を考えつきました。このコンソーシアムは、主宰の林崎良英(はやしざき・よしひで)博士の下で、現在の第5期まで継続し、発展してきています。途中で対象がマウス(mouse)ゲノムから哺乳類(mammalian)ゲノムに変更されましたが、幸い、名称につく「M」の文字は変えずに済みました。
―― アノテーションとはどういう意味ですか?
坊農氏: アノテーションは「注釈付けする」という意味です。ある生物のゲノム配列が解読されても、長い配列のどこにどのような遺伝子が存在し、それがどのように転写されて遺伝子発現が起こるのか、といったことは即座には分かりません。それを明らかにすることを、ゲノムの機能アノテーションといいます。実際、ヒトやマウスのゲノム配列が解読されて15年以上たちますが、ゲノムの機能の全容はまだ十分解明されてはいないのです。ゲノムの機能を明らかにする方法の1つに、ゲノムDNAから転写されて生じるRNAを調べる方法があります。細胞に含まれる全RNA(トランスクリプトーム)を抽出し、その配列や量を明らかにするのです。それをさらに詳細に解析すると、遺伝子の発現量、転写の調節の仕組みなど、いろいろなことが明らかになってくるのです。FANTOMはこれまで一貫して、トランスクリプトーム解析を軸に進められてきました。
―― では、最新のFANTOM5の研究内容について、第5期の中心メンバーの川路さんと粕川さんにお聞きします。
川路氏:
FANTOM5でも、細胞の全RNAを解析しました。今期の特徴の1つは、この解析を、体中のさまざまな細胞や臓器に対して行った点です。ヒトとマウスが中心ですが、500種以上に上ります。
過去に、がん細胞株などを対象にした解析は数多く行われてきましたが、今回は、正常な細胞(初代培養細胞、組織片)を大規模にカバーした点に特徴があります。また、規模は小さくなりますが、ラット、イヌ、マカクザル、ニワトリを対象にした解析も行いました。もう1つの特徴は、全RNAの解析に、理研が開発したCAGE法を用いたことです。これは、転写の開始点を一塩基解像度で測定できる方法で、得られた開始点の情報をもとに、プロモーターを18万個、エンハンサーを6万5千個、ヒトゲノム中に同定できました。複雑な遺伝子発現の制御の一端を示すデータです
―― FANTOM5の研究成果はすでに論文発表されていますね。
粕川氏: はい。2014年にNature に発表したプロモーターやエンハンサーに関する論文1,9を皮切りに、50報以上の関連論文が報告されています。最近は、ノンコーディングRNA2やマイクロRNA3に関する論文も出ました。FANTOM5には、共同研究者を含め、20カ国から500人が参加しており、関連論文はまだ増えると思います。
Scientific Data の記事としてデータを報告
―― 今回、FANTOM5のデータに関する報告をされました。
川路氏:
FANTOM5の膨大な研究データを、他の人々にも活用してもらいたいと考えていました。哺乳類の細胞多様性と遺伝子制御に関するデータは、生命科学研究の基盤になりますので。
そんな折、データの出版に焦点を当てたScientific Data やData in Brief といったデータ・ジャーナルが創刊されました。データ取得の背景、データの品質や内容などの詳細に関する報告は、そのデータが自分の期待と合致するかを知りたい潜在的な利用者にとって有用である、という背景からだと思います。そこで、Scientific Data の記事(Data Descriptor)として、FANTOM5データの全体像や詳細を報告することにしたのです4,5。データの多くは、すでに公共データベースに登録・公開されていましたが、データが利用される機会をもっと広げたい、という思いがありました。
―― いくつかに分けて報告されていますね。
粕川氏: はい。データ取得の方法は対象とするRNAの種類によって異なりますし(例えばノンコーディングRNAならばCAGE法とRNA-seq法など)、最適なデータ処理プロセスも対象生物により異なります。そこで、大まかなグループ分けをして、別々のData Descriptorとして報告しました。
川路氏: まずはヒトとマウスのCAGEデータについて報告しましたが、今後、ラットとイヌ、マカクザルのデータも順次報告していきます。Nature Researchのウェブサイト*1で、関連記事がFANTOM5 Collectionとして特集されています。
川路氏: 冒頭には、Scientific Data に掲載されたComment記事へのリンクがあり、ここでFANTOM5データの概要を解説しました6。また、Nature や関連誌に掲載された論文も集められ、FANTOM5の成果が一望できます。
―― データ更新に関するData Descriptor7も含まれていますね。
粕川氏:
RNA配列のゲノム上の位置は、ヒトゲノムの参照配列に対応させて割り出します。ところが、参照配列は何年かごとに更新され、既に、FANTOM5で使用したものより新しいバージョンが登場しています。そこで我々は、データ公開に当たり、最新バージョンを使用してFANTOM5データの解析をやり直し、再処理済のデータとしたのです。最新のデータでなければ、使用されなくなりますからね。
このデータ再解析の仕方をData Descriptorで説明しました。それは1つの解析プログラムを走らせれば済むという単純な作業ではなく、解析結果の妥当性を評価し、評価に基づいてデータの扱いを変更するなど、多くの判断が求められる作業でした。このような再解析や更新作業は、データの利便性を維持する上で必須であるにも関わらず、科学的発見でないとして論文発表に至らないケースが多々あります。今回このような形でこの成果も発表できたのはとてもうれしいですね。
RefExからもFANTOM5のデータが閲覧できる
―― 坊農さんと小野さんはScientific Data のArticle8の記事カテゴリに報告されていますね。
坊農氏: 私と小野さんは現在、DBCLSに所属しており、研究者が使いやすいウェブツールを作り、データ共有化や再利用促進に資するのがミッションの1つです。そこで、FANTOM5のデータを含む、遺伝子発現解析の基準となるデータを閲覧・検索することができるシンプルなビューワー「RefEx」を作りました。FANTOM5のデータが広範囲の生物学者に有用であることや、データを利用しやすくすることの意義などをこの記事で説明しています。
小野氏: FANTOM5のデータは、理研のデータベースからも閲覧可能ですが、そこでは、転写調節機構の解析に主眼が置かれています。従って、詳細な転写開始単位ごとの検索画面が用意され、RNAを定量したデータは「転写開始活性」として表示されています。一方、私たちは、転写調節解析を専門としない一般的な生物学者でもデータを活用できることを目指しました。そのため、FANTOM5データを再解析し、得られた転写開始単位ごとの詳細なデータを遺伝子単位にまとめて、いわゆる「遺伝子発現量」として検索できるようにしてあります。
―― RefExは2012年頃から公開されていますね。
坊農氏: はい。RefExはもともと40の健康な臓器別の遺伝子発現を比較できるウェブツールとして出発し、小野さんと私が中心になって充実化を進めてきました。現在は、従来の40臓器別分類データに加え、FAMTOM5専用ビューワーを追加する形で表示しています。
小野氏: 遺伝子発現データは、測定する試料の種類や状態、計測方法の影響を大きく受けるので、信頼できるデータの基準のようなものがほしいと学生のころから思っていました。ですから、複数の手法で測定したデータが一覧できるRefExの作成には、大いに意義を感じています。
データ共有の促進にScientific Data が果たす役割
―― Scientific Data の目標の1つは「データ再利用の促進」です。同誌はどのように活用できるとお考えですか。
粕川氏: 私はゲノム分野の研究者として、常日頃から他の研究コンソーシアムなどのデータを使用しています。今の時代、そうしないと研究になりません。そのようなときに、データの説明や品質などを確認する必要がありますから、Scientific Data に説明があるのは大助かりです。これまでは、論文のsupplementとして記載されていることが多かったのですが、説明が不十分で分かりにくく、データが複数の論文に分散していることさえあります。
坊農氏: いわゆる一般的な実験研究者にとっても、自分の研究に公共データを利用することにはメリットがあるでしょう。例えば、無駄な実験をしないで済むといったような。ですから、彼らにとっても、データが分かりやすく解説されていることは有用だと思います。
―― 一般の実験研究者は、遺伝子発現データを具体的にどのように利用できるでしょうか。
川路氏: 山中伸弥(やまなか・しんや)先生は、細胞の初期化因子候補を絞りこむ際にFANTOMのデータも活用された、と伺ったことがあります。
小野氏: そうですね。まず考えられるのは、候補遺伝子の絞り込みでしょう。例えば、がん治療の標的となる遺伝子の候補を数十個得ていた研究者が、RefExを用いて正常組織での発現量が非常に低い遺伝子を検索し、追加実験の対象を効率的に絞り込むことができたといった例があります。
坊農氏: 自分の出したデータの再現性の検証にも使えますよね。自分たちの研究結果を公共データを用いて再解析し、同じ結果が得られることを示す、という方法です。このような再解析を行いたい実験生物学者は大勢いると思います。ただ、多少のデータ解析技術を学ぶ必要はあるでしょう。そのための講習会を私たちも開いています。
―― データを再利用するときの注意は?
小野氏:
オリジナルデータがどのような条件で得られたものか、そして、適切な品質の実験で得られているかを確認することが大切でしょう。
また、データを再解析してRefExなどで提供する側としては、ビューワー内の情報をたどれるようにしておくことが重要だと思っています。データの信頼性は再解析者側でも確認していますが、本来的にはオリジナルデータに依存するからです。そういう意味で、Scientific Data の役割は重要です。なおRefExでは、私たちがオリジナルデータをどう処理したかも、もちろん明示してあります。
―― では、データの生成者は、Scientific Data への報告を通じて何を期待しますか?
川路氏: 苦労して取得したデータなのでぜひ広く活用して欲しいと考えたとき、データを中心とした報告ができる場がある。これは、とても大きなメリットだと思います。
粕川氏: データベースの更新が研究者としての評価の対象にならないのは、1つには、データの引用を評価するシステムができていないからです。今回のScientific Data への報告がきっかけで、評価につながるシステムが形成されることを願ってやみません。
―― データ共有や再利用が日本でも盛んになるのですね。
坊農氏:
データの共有を促進することが世界的に重要視されている現代、日本でもその動きが急速に加速していると感じます。日本は、データ解析者の「バイオハッカソン」*2を主宰してきました。データのFAIR原則*3は、このバイオハッカソンから生まれたものです。
FANTOMプロジェクトからも今回のようなデータの報告があり、データ共有が世界でも日本でもますます盛んになっていくことを期待しています。
―― ありがとうございました。
聞き手は、藤川良子(サイエンスライター)。
*1 Collection: The FANTOM5 project
*2 バイオインフォマティクスに関連する技術開発を合宿形式で行う会議。JSTとDBCLSが2008年より主催。
*3 オープンサイエンスやデータ共有において重要と提唱されているFindable(見つけられる)、Accessible(アクセスできる)、Interoperable(相互運用可能)、Reusable(再利用できる)という4つの原則。
参考文献
- Forrest A. R. et al. Nature 507, 462–470 (2014).
- Hon C. C. et al. Nature 543, 199–204 (2017).
- de Rie D. et al. Nature Biotechnology 35, 872–878 (2017).
- Noguchi S. et al Scientific Data 4, 170112 (2017).
- Bertin N. et al. Scienific Data 4, 170147 (2017).
- Kawaji H. et al. Scientific Data 4, 170113 (2017).
- Abugessaisa I. et al. Scientific Data 4, 170107 (2017).
- Ono H. et al. Scientific Data 4, 170105 (2017).
- Andersson R. et al. Nature 507, 455-461 (2014).
Scientific Data とは?
価値のある研究データセットを掲載することを目的に2014年に創刊されたオープンアクセスジャーナル。研究データのより広範囲な再利用を促進するとともに、データを公開した研究者にクレジットを与えることを目指す。コンテンツの中心となる新しい論文タイプ「Data Descriptor」は、データ収集の目的,対象,取得方法などの記述と、機械可読な情報を含み、公開されたデータの有用性を示し、かつデータが発見されやすく、理解されやすく、再利用されやすいように構成される。そのほか、既存データの新しい分析またはメタ解析を示す「Analysis」と、再利用を決定的に促進するシステムや技術についての独自のレポートである「Article」を出版する。
Scientific Data は科学のすべての領域を対象とし、データのサイズや、研究主体の規模(主要な研究コンソーシアム、研究室、個人単位など)に関わらず論文を受け付けている。
ジャーナル創刊の背景などは下記を参照されたい:
Scientific Data 掲載論文
FANTOM5コレクション: 多様な細胞種を網羅した哺乳類トランスクリプトームアトラスを支えるデータシリーズ OPEN
Scientific Data 4 : 170113 | doi:10.1038/sdata.2017.113 | Published online 29 August 2017
VEGFR-3およびVEGFR-2刺激に対するリンパ管内皮細胞の異なる転写反応 OPEN
Distinct transcriptional responses of lymphatic endothelial cells to VEGFR-3 and VEGFR-2 stimulation
Scientific Data 1 : 170106 | doi:10.1038/sdata.2017.106 | Published online 29 August 2017
遺伝子発現解析の基準となるデータを快適に検索できるウェブツールRefEx OPEN
RefEx, a reference gene expression dataset as a web tool for the functional analysis of genes
Scientific Data 4 : 170105 | doi:10.1038/sdata.2017.105 | Published online 29 August 2017
FANTOM5のCAGEピークとアノテーションを対応付けるCAGEscanデータ OPEN
Linking FANTOM5 CAGE peaks to annotations with CAGEscan
Scientific Data 4 : 170147 | doi: 10.1038/sdata.2017.147 | Published online 3 October 2017
ゲノムアセンブリーGRCh38およびGRCm38を基準に再処理されたヒトおよびマウスのFANTOM5 CAGEプロファイル OPEN
FANTOM5 CAGE profiles of human and mouse reprocessed for GRCh38 and GRCm38 genome assemblies
Scientific Data 4 : 170107 | doi:10.1038/sdata.2017.107 | Published online 29 August 2017
アカゲザル中枢神経系の解剖学的領域15カ所における転写開始点プロファイリング OPEN
Scientific Data 4 : 170163 | doi: 10.1038/sdata.2017.163 | Published online 31 October 2017
ヒトおよびマウス試料のFANTOM5 CAGEプロファイル OPEN
FANTOM5 CAGE profiles of human and mouse samples
Scientific Data 4 : 170112 | doi:10.1038/sdata.2017.112 | Published online 29 August 2017
ラットとイヌの転写開始活性を探る OPEN
Monitoring transcription initiation activities in rat and dog
Scientific Data 4 : 170173 | doi:10.1038/sdata.2017.173 | Published online 28 November 2017
Author Profile
川路 英哉 (かわじ ひでや)
理化学研究所
予防医療・診断技術開発プログラム コーディネーター
情報基盤センター 予防医療・ゲノミクス応用開発ユニットユニットリーダー。博士(工学)。
大阪大学基礎工学研究科情報数理系博士課程修了後、NTTソフトウェアを経て、2007年に理化学研究所オミックス基盤研究領域研究員(のちユニットリーダー)。2013年より現職。FANTOM1、2には新規タンパク質の機能予測に、FANTOM3、4では転写開始解析とデータベース構築に携わる。FANTOM5では、データコントロール・グループを率いる他、プロモーター解析における中心的な役割を担った。
粕川 雄也 (かすかわ たけや)
理化学研究所 ライフサイエンス技術基盤研究センター 機能性ゲノム解析部門 大容量データ管理技術開発ユニット ユニットリーダー。博士(情報科学)。
1998年大阪大学基礎工学研究科博士課程修了後、同研究科助手、NTTソフトウェア、理研研究員を経て、2013年より現職。2000年には理研のFANTOMに参加し、マウスcDNAの機能アノテーションを行う。その後、マイクロアレイのデータ解析に従事。FANTOM5には2013年より参加。データベース開発と研究を行う。
坊農 秀雅 (ぼうのう ひでまさ)
ライフサイエンス統合データベースセンター(DBCLS)特任准教授。博士(理学)。
1995年より京都大学大学院理学研究科でバイオインフォマティクスを習得。2000年より理化学研究所基礎科学特別研究員。FANTOM1と2の中心的メンバーとして、マウス遺伝子のアノテーションを行う。2003年より埼玉医科大学ゲノム医学研究センターで助手(のち准教授)として疾患モデル化研究を行う。2007年より現職。データベース利用技術の普及活動と研究活動を行う。FANTOM3、5に共同研究者として参加。
小野 浩雅 (おの ひろまさ)
ライフサイエンス統合データベースセンター(DBCLS)特任助教。博士(生物資源科学)。
日本大学大学院生物資源科学研究科(応用生命科学専攻)に在籍中の2005年より、埼玉医科大学の坊農氏の下でデータ解析を学ぶ。2007年よりDBCLSにリサーチアシスタントとして勤め、特任技術専門員を経て2012年より現職。RefExの開発の他、データベースやウェブツールの使い方を動画で紹介する「統合TV」などの制作に携わる。