Data Matters:データの重要性 │ 研究者との対談
原文: May 27, 2014 Data Matterss: interview with Susanna-Assunta Sansone
オックスフォード大学 e-リサーチセンターの副所長
Scientific Data 名誉アカデミックエディター。
現在、あなたの分野でデータの共有はどのように行われていますか?
私はデータの作成者ではありません。私は生物学者としての教育を受けましたが、博士号を取得して以降、データ管理に携わっており、ライフサイエンス、自然科学、生物医学の分野で、他の研究者のデータの構築、共有、検証を支援してきました。少なくとも過去5年間、こうした分野の研究助成機関は、データの共有および管理に関して、これまでより厳格で詳細な方針を打ち出すようになってきています。大量のデータが作成される中、研究助成機関は、データ作成のために行った投資の見返りを得るために、データセットが共有され、再利用されることを望んでいます。
研究助成機関は「警棒」を持っているような存在です。ですから、データ作成者の多くは研究助成機関の方針に従わなければならず、また一般的に科学者はこうした方針を受け入れていると思います。比較や統計解析の信頼性を高めるためには、第三者が作成した同様のデータセットと自らの研究内容を関連付ける必要があるため、データを共有すべきであるという考え方に、科学者は概して賛同しています。科学者は、他の研究者がデータを共有させない場合、それは自分にとっても限界となるということを認識しています。現時点での問題は、方針の文言がいまだ極めて一般的で、どのようにデータを共有するか、どのようにデータを共有できるか、あるいはデータが共有できないかということについて、非常にあいまいな場合があるということです。
科学者が直面するもう1つの問題は、データが共有されても、そのデータが必ずしも再利用可能ではないということです。
実験内容またはデータ処理手順の詳細が十分に説明されておらず、何が行われたかを本当に理解したり、特定の分析においてそのデータセットを使用するかどうかを決定したり、そのデータが頑健かつ健全であり、再利用が可能であると確信することができないことがよくあります。
データの発見可能性は、現在どのくらい注目されていると思いますか?
これは、データをどのように共有できるか、または共有できないかということに関する方針がどの程度明確で詳細であるかということに関係します。ここで問題なのは、データ作成者に適切なリポジトリ、例えば機関のリポジトリや国際的な公開リポジトリにデータを登録するよう促すことです。適切なリポジトリとは、オープンで、データセットが利用可能であり、データを他のデータに照らして分析し、再利用可能とするような基準がある持続可能性のモデルを有しており、これが一般に受け入れられているリポジトリです。最近では多くの方針で、データ作成者は、データをどのように共有するかを説明したデータ管理計画を作成することが求められていると思います。残念なことに、多くの場合、この管理計画は助成金申請では審査の対象ではありませんでした。ですから、クオリティの低い管理計画を作成しても、それが受け入れられていたのです。現在では、「データを利用可能とします」とだけ言って済んでしまわないよう、研究助成機関は管理計画がどのように書かれているかということに注目するようになり、その管理計画がデータを共有する適切な方法であるかどうかが助成審査者に分かるよう、データ作成者は計画の中でデータをどのように利用可能とするのかを説明しなければなりません。公開リポジトリがある場合、通常はそれを利用することが奨励されます。
発見可能性における機械可読コンテンツおよび意味的注釈(セマンティック・アノテーション)の役割についてどのようにお考えですか?
これは、発見可能性に関してだけでなく、再利用に関しても、極めて重要です。実のところ何が最も適切な機械可読フォーマットであるか、という大きな議論となるでしょう。なぜなら、テキストファイルでさえ、ツールで容易に構文解析が可能だからです。フリーテキストの値や記述の代わりに、管理された用語を使用するフォーマットは非常に有益です。例えば、W3C(RDFおよびOWL)に対応したXMLベースの言語がより一般的となりつつあります。今日の問題の核心は、統一され、関連付けがなされたデータビューの必要性にあります。しかし、これは単にフォーマットの種類に関することだけでなく、記述される内容、特に実験内容の豊かさ(幅広さや深さ)、そしてこれがデータの再利用を促すのか、またどのように促すのかということにも関連します。
ライフサイエンスや生物医学の領域では、過去10年にわたり草の根的な複数のコミュニティーによって作られた固有の基準(フォーマット、用語/オントロジー、最低報告要件)が500以上あります。こうした基準を調和させることには、多くの利害関係者がいるため、長期にわたる非常に困難な試みとなる可能性があります。研究助成機関および出版社はこうした取組みを見守ってきており、これまでも、そしてこれからも、こうしたコミュニティー基準の策定、検証、改良、承認、維持を支援するでしょう。例えば、Big Data to Knowledgeイニシアチブの一環として、国立衛生研究所(NIH)は固有の枠組み(方針、研究助成プログラムなど)の構築に取り組んでおり、コミュニティー基準をそのライフサイクルを通じてサポートし、基準が相互運用可能となるよう、コミュニティー基準の調和を目指しています。
ネイチャー・リサーチはこのような問題を主導した実績があり、すでにデータの再現性という面では重要な役割を担っています。
Scientific Data のようなオープンアクセス誌は、データの発見可能性を高める上でどのように役立ちますか?
研究助成機関や政府の方針では、オープンアクセスの動き、そしてデータ基準を有するコミュニティーによる研究コミュニケーション変革の試みを奨励してきました。結果として、出版社は確実に、より積極的な役割を担い始めています。ネイチャー・リサーチはこのような問題を主導した実績があり、すでにデータの再現性という面では重要な役割を担っています。
現在、仮説や発見は、主に科学論文として、従来の雑誌掲載論文を通じて、自由記述形式で共有されています。しかし、例えば結果の根拠となるデータを再利用できるようにしたい場合、問題が生じます。Scientific Data では、論文にとって重要なデータに焦点をあてた新しいタイプのコンテンツを導入しています。Data Descriptor(DD)は、実験データおよび観察データの詳細な記述を、データ収集の方法および測定の品質を裏付ける技術的分析をも含めて提供するものです。DDには、自由記述的要素と、これを補う意味的に構造化された機械可読要素があります。DDでは、従来の論文を参照してデータファイルを引用し、データは適切なコミュニティーデータベースに登録するようになっています。Scientific Data は、データ共有というエコシステムの不可欠な要素となり、有用なデータセットの記述に付加価値を提供します。
インタビューアー:David Stuart(英国ロンドンを拠点に活動するフリーランスライター)