#scidata16: オープン性と再現性を備えた研究作業を通じてリサーチ力を高め、ばつの悪い論文撤回を回避する
5 Dec 2016
「実験が再現できない、他者の研究データを入手できない、データから数値までの手順が 「ここで奇跡が起きる」式の説明にとどまっている。」 Publishing Better Science through Better Data (#scidata16) 会議で講演者が取り上げた上記とその他の問題点
大半の研究は非公開で行われ、結果データを入手できるのは公表後に限られている。研究結果を導き出す未加工データが公表されるのは稀であるため、データから数値に至るまでの過程を出版物から把握するのは困難だ。研究が今日直面している再現性の危機(reproducibility crisis)の原因はここにある。この課題に対する対応策が必要なのは明らかだ。そして、独創的な解決策が、サイエンスという創意に満ちた集団思考により発見されつつある。
Florian Markowetz は、再現性を備えた研究作業を強く提唱する科学者である。彼はその論文で、データから数値を取り出す過程を明らかにする未加工データとプログラミングを紹介している。この情報を使えば誰でも(すなわち、彼のラボスタッフ、精査担当者をはじめ、彼の論文の読者すべてが)分析工程を再現できる。よって、ミスの修正が容易になり、分析工程全体を分類できるうえ、入力データが変更された場合は、他の科学者が結果ファイルを迅速かつ容易に作り直すことも可能だ。
この方法が効果を発するのは、自分の解析を完了させるために、無償提供の統計データ・プログラムを利用でき、そして、未加工データを自由に公表できる場合だ。一方、研究に多数のプログラムが関与し、その一部が有料ライセンスを必要とする場合、テラバイト規模のデータセットであるためスムーズに配信できない場合、この方法はいくつかの壁に遭遇する。
しかし、壁があるからといって、普通の科学者が再現性の追及をやめることはない。彼らは、実験をこまかに分類し、データの変更履歴を追跡することで、相手方が成果を得た過程を正確に知ることができる。ゼロから試みる必要はないのだ。
トロント大学でハンチントン病について研究している Rachel Harding 氏は、自分の研究を広範に共有することのメリットを迅速に察知した科学者のひとりだ。彼女が作成したラボ走り書き(Lab Scribbles) は、自身の研究作業、根拠、手法、未加工データを共有するオンラインプラットフォームだ。ハーディング氏は、本プラットフォームを活用し、科学界の動向を追跡し、他者との交流、協働作業を可能とし、自身の成功事例や失敗事例を公開している。
問題は自分のデータにあるとは限らない。最も注意深く細部にこだわる人であっても、自分の研究が他者のデータに依存している限り、頭痛のタネは避けようがない。Antica Čulina 氏と Nathan Golightly 氏は、それぞれの研究に利用できるデータを昼夜問わず探し続けている。Čulina氏は、世界各地から収集した情報をまとめ、自分の研究「鳥類の離婚」(そう、本当にあるんです!(a real thing))の洞察力を高めようとしている。
Golightly 氏は、無料で利用できる遺伝子発現データに基づき、ガンを予測する機械学習アルゴリズムのパフォーマンス比較を行っている。「このデータを探そうと思ったのは初めてだけど、質疑応答時間に利用できるデータがないか相手にしつこく問いただしたところ、適切に注釈を付けていない、誤ったデータが含まれている、不可解なファイル形式で保存されているなどの理由から、価値ある情報となりうるデータセットを破棄したことを認めました。」「彼らの話から、私は科学に疑問が少し沸いて、彼らの研究の質にも疑いを持ちました」と、Čulina 氏は言う。Čulina 氏と Golightly 氏は、「データを共有する者は、検索性、アクセス性、相互運用性、再利用性において、公正を期すべき」と提唱している。
このように、データの公開性と再現可能性に向け個人レベルでの努力がある中、大規模な研究による取り組みもある。ヒトゲノム計画や、より最近のエクソーム集約コンソーシアム(Exome Aggregation Consortium (ExAC)) は、その一例だ。利用者がデータの出典として当計画に言及し、再配信するバージョンは常に公開することを条件に、誰でもダウンロードし、利用・共有することができる。これと同一の公開精神を貫いているのがウィキペディアだ。この取り組みは、ソフト開発にも活用されている。例えば、リナックス(Linux)は、オープンソース(誰でも自由に変更・頒布できるソフトウェア)である。
モントリオール神経学研究所(Montreal Neurological Institute)はさらに一歩先を行く。同研究所で取得した研究データやサンプルを、発表後に(サンプルの提供可能な範囲内で、かつ患者情報保護の範囲内で)無料で利用できるようにし、患者の追跡調査に役立てている。この大胆な取り組みの立案者である Guy Rouleau 氏は、「研究は、金儲けではなく、人助けという益を目標に、科学の加速化に資すべく活用すべきです」と述べている。この取り組みが神経疾患の治療に役立つ創薬の迅速化を促し、他の機関も追随することを Rouleau 氏は願っている。
研究者や研究機関がオープンで再現可能なサイエンスを導入するまでに、対応すべき課題は数多く残っている。しかし考えてみてほしい。10年前、オープンデータの普及が始まった。そして、今ついにスタート合図のピストルの音が聞こえてきた。10年後、我々は、オープンデータが全速力で駆けているのを目撃するだろう。
Réka Nagy 氏は、エディンバラ大学の遺伝学・分子医学MRC研究所の博士課程の学生として、大規模な家族データベースを活用し、遺伝子特徴が人の健康を形作る過程を解明中。原稿作成やデータ分析で多忙でないとき、彼女はサイエンスについて語ることや、コンピュータでビデオゲームやデザイン(ポスターから夢のマイホームに至るまで)に興じている。LinkedIn や Twitter も利用している。
「Publishing Better Science through Better Data 2016」では、サイトのスライドと動画へのアクセスを許可しています。また、当日の様子をまとめた映像も提供しています。イベントサイトを参照してください。