Data Matters:データの重要性 │ データの保全について
June 6, 2014
Russell Poldrack氏は、テキサス大学オースティン校で心理学および神経生物学の教授、ならびに Imaging Research Center の所長です。
現在、あなたの分野でデータの保全はどのように行われていますか?
データ保全の慣行は実のところ存在しません。何かをするとしたら、通常はデータをDVDやテープに保存し、それをどこかにしまいこんで使い物にならなくすることだけです。私は同僚たちに、昔の重要なfMRIの紙ベースのデータセットの一部をOpenfMRI(OpenfMRI.org)に登録するように言ったことがあります。しかし、同僚たちのほとんどは、「データがどこにあるかわからない」と言うか、「テープに保存してあるが、それを再生するドライブがない」と言います。私の手元には、10年前からのさまざまなテープフォーマットのデータがありますが、再生したくてもできません。もっとも、データ再生技術の進歩は少し落ち着いたようですが。もう1つ心配なことは、データをDVDやハードドライブに保存しても、そういった媒体は劣化するということです。データを物理的媒体に保存すれば、いつまででもとっておけると思っている人は多いと思いますが、それは全く違います。最も良い方法は、一ヶ所のデータが失われてもいいように、地理的に異なる場所の可能な限り多くのシステムでデータを複製することです。
Data Matterss「データの重要性」シリーズでは、科学者、研究助成機関、ライブラリアンの方々に、データの共有や基準に関連するテーマでお話を伺っていきます。
私は現在、データ共有およびビッグデータについて論文を執筆中です。私がこの論文で1つ言いたいことは、データ共有において保全がいかに基本的かつ重要な側面の1つであるかということです。
研究者がデータをリポジトリに登録する際の問題は何ですか?
基本的に問題なのは、そうすることの必要性が受け入れられていないということだけです。時間や労力といった面で明らかにコストがかかるため、ほとんどの分野では、データの共有に費やした労力に十分に見合うだけの利益があるとは考えられていません。保全すること自体が利益の1つなのですが、データを共有すれば、自らの研究結果の信頼性が高まる可能性があるということに人々が気付いたことも、利益となりつつあります。そして、若い研究者たちの中で、こうした認識がより強まっていると思います。
私の手元には、10年前からのさまざまなテープフォーマットのデータがありますが、再生したくてもできません。
データを共有しやすいように構造化することが困難な場合があるということも問題です。さまざまな種類のイメージングデータを根本的に区別しなければなりません。静止状態のデータや解剖学的データは比較的容易ですが、タスク実行状態のfMRIのデータは特に難しいのです。1000機能コネクトームプロジェクト(1000 Functional Connectomes Project)と国際神経画像データ共有イニシアチブ(International Neuroimaging Data-sharing Initiative)は、静止状態fMRIデータの共有で大きな成功を収めました。しかし、これらのデータを共有するために必要なメタデータは比較的少ないのです。タスクfMRIのデータでは、必要なメタデータはずっと多く、それがopenfMRIで私たちが注目していることです。データセットを広く利用可能とするためにデータセットに対して行うキュレーション作業の量は膨大です。
データ共有サービスの利用可能性は現在問題ではありません。私が管理するリポジトリでは、共同研究者以外の人からのデータ共有の申請は月に1件程度です。もし、みながタスクfMRIのデータを共有したいとしたら、この分野ではそれに対応しきれません。私たちがキュレーションできるのはせいぜい1ヵ月に2~3件のデータセットですが、おそらく毎月少なくとも20~50件のデータセットが作成されています。多くのサポートなしでは、それに対応しきれません。また、データ共有リポジトリを構築することは、研究助成機関にとってはかなり退屈なことだということは問題です。現時点では、NIHの助成金が直接経費で年間50万ドル以上である場合のみ、データを共有しなければいけません。助成金が交付されたすべてのデータを共有しなければならないとNIHが言うことはありませんし、NIHがデータ共有のコストを支援するということもありません。なぜなら、コストは莫大だからです。
最終的に、データを確実に保全する責任は研究者たちにあります。
データを保全する責任はだれにありますか?またScientific Data のようなオープンアクセス誌はエコシステムにどのように適合するでしょうか?
最終的に、データを確実に保全する責任は研究者たちにあります。しかし、自分でそれを行うことは実に困難です。そして、データ獲得のために資金を提供し、データ処理を行っている人は、そうしたデータができるだけ長く生き続けるようにする役割を確実に担います。ライブラリーは、知識の所蔵庫としてのその歴史的役割を考えれば、明らかにその役割を担うことができますが、データを有益な形で確実に保全する基本的な責任を負うのは最終的には研究者である、と私は思います。
Scientific Data は、データセットを記述するための、アクセス可能で永久的な方法を提供します。これは、研究の結果を記述する論文でさえも、必ずしも成し得ることではありません。論文には適さない詳細な内容も多くあります。ですから、Scientific Data で共有されるデータは、より可視性が高いものとなっています。また、Scientific Data では共有に対してクレジットを得る方法も提供します。データの共有について懸念されることの1つは、誰かがデータを利用し、それに対してクレジットを提供しないということです。クレジットの適切なモデルはどのようなものであるかということについてこれまで議論がなされてきました。アルツハイマー病脳画像診断先導的研究(Alzheimer’s Disease Neuroimaging Initiative)は、健康な人だけでなく、軽度認知障害やアルツハイマー病の患者に関する大量のデータを収集することで大成功を収めました。そして、そのモデルは、データを取り出し、それを公表したい場合、それはかまわないが、論文の共著者にコンソーシアムを含めなければならない、というものでした。それが適切なモデルであるかどうかということについて、文献の中で議論がなされました。なぜならこれは、論文で行われたことに何の関係もない、単にデータを作成しただけの影の著者を作りだすことになるからです。データ論文は、こうしたモデルの代わりとなる優れたものであり、データ作成者がデータ論文への引用を通じてデータを共有したことに対するクレジットを得られます。これは、共有することがなぜ良いことであるかを人々が理解する手助けをする上で、重要となるでしょう。
インタビューアー:David Stuart(英国ロンドンを拠点に活動するフリーランスライター)