Data Matters:データの重要性 │ 研究者との対談
27 May 2014
Patricia Soranno氏は、米国ミシガン州立大学水産学/野生動物学部の教授です。
生態学の分野では、データの再利用は重要であるとの認識が高まりつつあります。特にこの2~3年で、データ再利用の利益を提唱する声が多くなってきています。生態学および環境における多くの問題は、非常に幅広い空間、大陸、そして地球規模でさえも発生します。そして、通常そのような規模で自然体系に関する研究を行うことはこれまでありませんでした。いくつか例を挙げると、気候の変化、侵入生物種、生物多様性に関する研究などの問題です。このような研究に有益な方法とされているものの1つに、詳細な研究を行い、それらを統合するという方法があります。結果として、これらの詳細な研究は、当初考えられていた以上に非常に価値があると認識されつつあります。
「これらの詳細な研究は、当初考えられていた以上に非常に価値があると認識されつつあります。」
私たちの分野では、データを共有するという文化がまだありません。しかし、これは時間とともに改善されることを期待しています。データを共有する文化がなかった結果、データを記録する方法、あるいは作成したデータベースのフォーマットに関する基準を作成するという大掛かりな作業が行われてきませんでした。データレベルおよびメタデータレベルの両方においてです。生態学では、かつてecological metadata language(EML)と呼ばれる基準が作られ、現在生態学においてデータを共有する人は、その基準を使用するということを知っているだろうと思います。しかし、その基準が作成される以前の研究は必ずしもその基準を使用してはいません。また、生態学のデータは多くの情報源から収集されます。例えば、生態学的データを収集する政府機関は、その基準を使用する必要はないと考えているかもしれません。私も、多くの生態学者と同様、気候学、水文学、地質学など他の分野の多くのデータを使用しています。これらの分野では独自の基準があり、これによりデータの統合がさらに複雑となります。
データを統合するには、多くのロジスティックな障壁もあります。極めて特異的な個々のデータセットを取り出してまとめることは、本当に困難です。今まさに、私はこれを行うプロジェクトに参加していますが、基準がなく、小規模な研究の効果的なデータベース管理がなされていないため、予想をはるかに超える時間がかかっています。
発見可能性はやはり問題です。というのも、生態学ではオンラインレポジトリで現在利用可能なデータセットは比較的少ないからです。多くの研究は、個々の研究者に連絡し、データを依頼しなければなりません。生態学やその他の分野において、そのようにして行われていた過去の研究は、データを得る方法としては極めて不十分であると私たちは気づいたのです。データの問い合わせをしても、総じて、Eメールに対して返事がなかったり、共有したいがメタデータをまとめる時間がないという回答であったり、共有したくない、あるいは共有してもよいが共著者にしてほしい、という返事がEメールで送られてくるのです。共有という文化は、非常に重要ですが、現時点では、生態学の文化はそこまで到達していないと思います。文化は変化する必要があります。なぜなら、個人の科学者として、私たちはデータの共有を進んで行い、共有を望むべきだからです。毎年、状況は少しずつ改善していますが、まだ十分ではないと思います。
私たちの文化では、収集したデータに対する所有権を強く意識します。データに関して、できることがもっとあると思っているため、データを手放さず静観していたり、あるいはデータで何をしたいかということについて曖昧な計画があるに過ぎず、「いいでしょう、これを他の研究コミュニティーと共有しましょう。このデータで私が思いつかなかったアイディアを持っている人がいるかもしれないし、私がこのデータを利用できるようにすれば、このデータが影響力を持つ可能性が高くなるでしょう」とは言いません。私がデータを共有する必要があると考える主な理由の1つが、実は今お話しした考え方です。1人の研究者では思いつかないような方法でデータをより価値あるものとする機会がたくさんあるからです。特に、自分ではアクセスできない他のデータと自分のデータを組み合わせるとき、そのような可能性が高まります。
発見可能性の問題に対処する方法はあります。私たちは生態学に特化したレポジトリを立ち上げようとしているところです。そして研究者たちがこれを使ってくれるようになるでしょう。今ようやく解決方法が見つかったと感じています。しかし、過去のデータの使用やアクセスについては、他の分野に大きく遅れをとっています。
非常に重要です。Scientific Data は外部とのデータ共有の新しい考え方です。データを新たな研究成果物とみなす新たな考え方を提供してくれます。データを、影響力があり、従来の出版物と同じように成果としてリストアップできるような、広く認められた研究成果とみなす方法です。そして研究者がクレジットを得ることができます。これも、私たちの文化の中で認識する必要がある要素です。共有を促進し、科学者や社会全体がデータに対して見出す価値を高めるさまざまな方法を試してみる必要があると思います。
データに焦点をあてた出版物は、必要とされる他の全ての変革に加えて、中心的な存在となるでしょう。
インタビューアー:David Stuart(英国ロンドンを拠点に活動するフリーランスライター)