Scientific Data ブログ

Scientific Data は公開データリポジトリを補完し、データの再利用を促進します

原文: 23 July 2013 Scientific Data to complement and promote public data repositories

Scientific Data はデータセットを発表するための場を提供しますが、一次データセットのためのリポジトリではありません。Data Descriptor に関連する一次データは、外部の1つ以上のデータリポジトリに保管されます。どうしてこのような区別をするのでしょうか?

一次データセットを外部システムに確実に保管するということは、「Scientific Data の目標は、データセットの科学的な価値と再利用を促進するコンテンツを、著者の皆様が発表する手助けをすることであって、データへのアクセスを管理することではない」というScientific Data の戦略をはっきりと示しています。このような戦略によって、データの断片化は防がれることとなり、研究者間の協力とデータの統合化が促進されると考えられます。

公開されている利用可能な科学データはさまざまなリポジトリに保管されているため、関連するデータセットを探し出すのは難しいことです(「データ・サイロ」の問題とも言われます)。Scientific Data は、データの探索を容易にする発表形態を提供します。これにより、研究者の皆様は多数のリポジトリの中から高品質のデータセットを探し出すことができます。発表した Data Descriptor は、ネイチャー・リサーチのジャーナルや外部の発行者により掲載された関連研究にリンクされます。これにより、研究者の皆様は、他の研究で得られた知見や、豊富なデータ記述、および実際のデータを容易に探索することができるようになります。NPGは現在、2つの一般向け科学リポジトリである Data Dryad および figshare と協働して、全てのデータセットが保存される場所を持つようにし、またISAフレームワークを用いて、他のリポジトリとの間にメタデータ転送パイプラインを開発する計画を立てています。

既存の科学データリポジトリは、データ標準を明確にし、データの共有を促進する上で中心的な役割を果たします。多くのタイプのデータ、モデル生物、疾患あるいは研究分野には、コミュニティーに認知されたすぐれたデータリポジトリがすでに存在します。Scientific Data は、下記に記載した項目を提供し、各リポジトリの代表者との協働を通じて、既存の重要なリポジトリを補完し、強化します。

  • 方法の詳細な記述、および検証の技術的情報のための発表形態を提供します。
  • 多様なリポジトリをカバーした、データの探索および発見のための機能を備えています。
  • データ発表のための査読を行います。
  • 厳格な査読を受けた出版物には公式に関連付けられたクレジットが付与されます。

以上と並行して、私たちは2つの「一般向け」科学リポジトリである Data Dryad および figshare と協働して、全てのタイプのデータが確実に保存される場所を持つようにすることを目指しています。特定のタイプのデータに対してすぐれたリポジトリが存在している場合でも、この保存場所が「バックアップ用リポジトリ」として利用できるようになります。これにより、もし既存のリポジトリが、機密を守った査読を実施していなかったり、メンテナンスによりシステムがダウンしていたりした場合でも、査読の際に役立つと思われます。その後、著者の皆様は、発表時にご自身のデータをコミュニティーの基準を満たすリポジトリに転送することになります。

NPGは、ジャーナルごとのデータリポジトリは、最終的にはオープンなデータ共有の促進にはつながらないと考えています。研究ジャーナルはそれぞれ、補足情報のセクションに膨大なデータセットを保管しています。補足情報のセクションでの情報の公開は、データが公開されないことに比べればはるかに良いことですが、こうした場所への一次データセットの保管にはリスクがあるということは広く認識されています。実際、Nature と Nature 関連誌は、これについてすでに強固なポリシーを有しており、データ標準とリポジトリが十分に確立されたフィールドに存在する公共リポジトリに、データを登録することを要件としています。ジャーナルごとのデータリポジトリは、このような重要なポリシーに関するリスクを曖昧にするものです。

この戦略と並行して、Scientific Data の中心となるコンテンツ Data Descriptor は、研究ジャーナルの掲載論文とデータリポジトリ記録の両方の情報を補完することを目指しています。Data Descriptor は、重要なデータセットを生成するために必要な実験や手順の詳細な記述を提供します。これには、データの技術的品質の評価、主要な方法や分析のワークフローの再現、および研究上の重要問題に取り組むための最終的なデータの再利用を行う上で、研究者にとって必要不可欠な情報が含まれます。加えて、Scientific Data の全ての出版物は、実験データや結果データの主要な特性を記述するメタデータによりサポートされます。これらはScientific Data の1名のキュレーターによるチェックを受けたものであり、ISA-tab フォーマットで配布します。今後、他の標準フォーマットでも利用可能となる予定です。これらのメタデータにより、データマイニングが可能になり、研究者の皆様が、複数のデータリポジトリに保管されているものの中から高品質のデータセットを探し出し、再利用することを手助けします。

Scientific Data ブログ」記事一覧に戻る

プライバシーマーク制度