再起動する大学図書館
原文:Nature 495, 430-432 (号)|doi:10.1038/495430a|Publishing frontiers: The library reboot
科学論文出版界がデータのオープンアクセス化に向かって動いている今、世界中の大学図書館と研究者が、その流れに遅れまいと方法を模索している。
Sayeed Choudhury が差し伸ばした右腕を振ると、通りすがりの数人の学生が何事かと振り返る。パリッとのりの利いたドレスシャツにスラックスという服装の技術者は、スローモーションでダンスの練習をしているように見える。けれども本当は、天文データを操っているところなのだ。
Choudhury がいる場所は、3200万ドルの費用を投じて建設され、去年オープンしたばかりのジョンズ・ホプキンズ大学(米国メリーランド州ボルチモア)図書館の中である。彼は、12台のディスプレイを連結した縦2m、横4mの「ビジュアライゼーション・ウォール(視覚化の壁)」に向かって立ち、そこに映し出されたハッブル宇宙望遠鏡の40種類の画像の中から、環状星雲の写真を腕で差し示して選択する。そして、まるで誰かを歓迎するかのように両手を広げると、環状星雲を縁取るオレンジ色に輝くガスが、フレームいっぱいに広がった。
良この「壁」は、コンピューター科学者 Greg Hager と、ジョンズ・ホプキンズ大学図書館のデジタル研究およびデータキュレーションの責任者である Choudhury によって発明された。彼らのチームが、モニターとプロセッサー、そしてマイクロソフト社のキネクト(ユーザーの腕や胴体の動きを認識するシステム)をつなぐのにかかった費用は3万ドルに上る。2012年10月、この壁が図書館内に試験的に設置され、恒星系から中世の絵入り写本まで、同大学が持つ膨大な量のデータの一部を学生や研究者が探索できるようになった。
「デジタルコンテンツが増えるにつれ、我々がそうしたコンテンツを持っていることを人々に気付いてもらい、新しい方法で相互作用してもらうにはどうすればよいか、という問題が生じてきたのです」と Choudhury は言う。彼は、人々がこの壁に興味を持ち始めていると感じている。ある化学工学者は、これを使って分子を視覚化し、操作したいと考えているし、天文学者たちは、学生が銀河を分類する訓練に使えそうだと期待している。従来とは違った方法でデータを探索し、共有することを可能にするこのビジュアライゼーション・ウォールを、Choudhury は「出版の新しい形式です」と言う。
21世紀の学問の急激な変化に遅れをとるまいと、今、世界中の大学図書館がこぞって改革に乗り出している。大学図書館は、書籍の購入や学術誌へのアクセス許可、学生のための勉強場所の提供や研究指導など、これまでどおりの業務もこなしているが、その一方で、教員に対して授業開発や新規技術の導入を手伝うことも増えてきている。けれども、現場の科学者がこうした図書館の活動を目にすることは少なくなった。昔と違って、今は自分のデスクから離れることなく科学文献をオンラインで閲覧できるからだ。多くの研究者にとって、図書館はもはや自分たちのニーズを満たさない過去の遺物になってしまったようにも見受けられる。
データキュレーションの新たな担い手
だが、研究者たちのそんな認識は、間もなく変わるかもしれない。ジョンズ・ホプキンズ大学をはじめとする多くの一流大学では、図書館が科学者の研究活動の積極的なパートナーになって、研究方法やその成果の発表方法を変えようとしているのだ。大学図書館は、ガイダンスを行ったり、データの収集や探索、視覚化、ラベル付け、共有を行うためのツールを提供することにより、研究活動の全ての段階を支援したいと考えている。オックスフォード大学(英国)図書館長の Sarah Thomas は、「私たちは、知の食物連鎖の上位に上り、新しい知の創造に貢献したいのです」と言う。
この改革がどこまでうまくいくかは、まだわからない。図書館と研究者が共に厳しい予算削減にさらされていることを考えると、なおさらだ。その上、図書館が参入しようとしているデータキュレーション事業には、商業出版社、情報ストレージ企業、DNAの塩基配列データを蓄積している GenBank をはじめとする専門分野別データリポジトリなどのライバルがひしめいているのである。それでも多くの人々は、大学図書館はもともとデータの世界の一翼を担う存在であり、研究成果の公開に対する圧力が高まっている今日、その重要性は増す一方であろうと考えている。
2013年2月、米国のオバマ政権は、研究助成金の配分を行う連邦機関に対して、連邦政府の助成金を受けた研究の成果である論文やデータへのパブリックアクセスを促進することを命じた。ニューメキシコ大学(米国アルバカーキ)図書館の情報科学者 William Michener は、「この命令が及ぼす影響は非常に大きく、研究データを保管し、他の科学者たちが利用できるようにすることの必要性が、もっと評価され、支持されることになるでしょう」と言う。「この新しい状況では、大学図書館は重要な利害関係者になります。大学教員がデータ管理の問題に直面したとき、最初に守ってくれるのは図書館なのです」。
ジョンズ・ホプキンズ大学シェリダン図書館の研究チームは、図書館改革プロジェクトの先頭に立っている。彼らがこの位置に着くことができた理由の1つは、100万個近い銀河の地図を作成したスローン・デジタル・スカイサーベイのデータ管理を10年以上行ってきたという実績があるからだ。Choudhury は、全米科学財団(NSF)から940万ドルの資金提供を受けて Data Conservancy(データキュレーションの研究とツール開発を行う多施設プログラム)を立ち上げたチームの主任研究者でもある。ジョンズ・ホプキンズ大学が2011年に研究者のデータ管理を支援する有料のサービスを開始することができたのは、この助成金のおかげだった。
ジョンズ・ホプキンズ大学の科学者たちは当初、このプロジェクトに乗り気ではなかった。実際、2011年にこの試みについての説明会が開かれたときには、データ管理料の支払いを強制するものだとして、一部の科学者が激しく反発した。同大学で動物バイオメカニクスの研究をしている機械工学者の Noah Cowan はそれを、「何かを提案しようとする人が課される税金のようなもの」だと言う。科学者らはすでにその年、データ管理に関する新しい義務を負わされていた。NSFの助成金への申請方法が変わって、自分のデータをどのようにして広め、共有するつもりであるかも明記することになったのだ。Choudhuryは、ジョンズ・ホプキンズ大学のデータサービスは利用を強制するものではなく、研究者にとって有用なものになるはずだと、必死に説明しなければならなかった。
「私たちは、知の食物連鎖の上位に上り、新しい知の創造に貢献したいのです。」
「研究者は、データを保管してもらうことにあまり魅力を感じないのです」と、同大学のデータ管理コンサルタント Betsy Gunia は言う。「認識不足も、その一因です」。
Cowan はその後、大学のデータ管理サービスの最初の利用者の1人になった。このサービスを利用することで、普段の研究活動の質を高められるかもしれないと期待したからだ。Cowan の研究で得られるデータの一例を、彼のオフィスで見せてもらった。それは、シミュレーションされた流れの中を泳ぐナイフフィッシュの姿を高速ビデオ撮影したものだった。彼のチームが記録したナイフフィッシュのひれの動きと、同僚の神経科学者チームが測定した神経信号のデータを対照することで、魚が水中でどのようにして位置を制御するかを調べているのだ。
科学は最先端を走っているにもかかわらず、データに対する Cowan のアプローチは、どちらかと言えば時代遅れだ。研究が終わると、彼はビデオと分析結果をハードドライブに保存して棚の上に置いておく。そして多くの研究者がそうであるように、リクエストがあるとケースバイケースで対応し、データを提供している。一般的には、この方法でも十分だった。しかし去年の夏、ある大学院生が7年ほど前の研究データを再分析しようとしたところ、データを実際に利用できるところまでくるのに数か月もかかってしまった。データは解析コードとは別に保管されていたので、複数のバージョンのコードの仕分けをしなければならなかったのだ。メタデータ(データについて記述する情報)の質の低さが、「作業を宝探しにしてしまった」のだと Cowan は言う。
そこで、鳴き鳥の神経活動に関する新しい研究プロジェクトの助成金をNSFに申請しようと考え始めたとき、彼は Gunia ともう1人の情報科学者と手を組むことにした。彼らは協力してプロジェクトのデータを整理する計画を立て、外部の研究者がその一部を利用できるようにした。Cowan らの申請が通り、NSFから助成金が出ることが決まったら、ジョンズ・ホプキンズ大学のデータ管理サービスは5年にわたってこのプロジェクトのデータのキュレーションと保存を行うことになる。なお、この契約は更新することができる。
ジョンズ・ホプキンズ大学のデータキュレーションサービスは、データをオンラインで保存するだけの Dropbox のようなサービスに比べて、もっと直接的な関わり合いを持つ。利用者は、データの収集や処理に用いるスクリプトだけでなく、メタデータの「リードミー」ファイルも提供することになる。このサービスでは、利用者が個々のデータに恒久的な固有の参照ラベルを付ける作業も支援する。ウェブ上のデータは、URLが変更されるとリンクが切れ、おなじみの「404エラー(Not Found)」が出てしまうが、出版社が付与している「デジタルオブジェクト識別子(DOI)」のようなラベルをデータに付けることで、これを防ぐことができるのだ。恒久的な識別子があれば、他の人々がこのデータを直接引用することもできる。
ジョンズ・ホプキンズ大学のデータ管理チームはまた、記憶媒体の劣化やファイルの破損、データフォーマットの老朽化などの問題にも対処するという。主にデジタル文書を登録している既存の大学リポジトリの多くは、ここまで行き届いた保護はしていない。「私は、『ビット腐敗』の問題に頭を悩ませなくてよいのです」と Cowan は言う。
研究助成金が支給される場合、このサービスの利用料は直接費の約2%になるが、Cowan はその価値はあると考えている。「自分の長期データアーカイブの世話をするよりも、学生を指導したり、データの収集や分析をしたりしているほうが、時間の使い方として有効ですから」と彼は言う。
データキュレーションに対する懸念
多くの科学者は、自分でデータ管理を行う時間がないか、その知識がない。2010年に完了した1300人の科学者を対象とする調査では、80%以上の研究者が、「他の研究者のデータに容易にアクセスできるなら、それを利用したい」と回答した。けれども、「自分のデータは、他の研究者が容易にアクセスできるようになっている」と回答した研究者は、わずか36%だった(『科学者のデータ管理:理想と現実』参照)(C. Tenopir et al. PLoS ONE 6, e21101; 2011)。
自分でデータキュレーションを行う科学者は、DataONE や Dryad など、多くの新しいシステムを利用することができる。Michener が主導する DataONE は、NSFから2000万ドルの資金提供を受けて構築された、データの保存と共有のための国際的なネットワークである。Dryadも、研究者がデータに識別子を付け、保存し、論文と結びつけるのを支援する非営利のリポジトリだ。データサービスを提供する企業もたくさんあり、Nature の親会社であるマクミラン社が所有するロンドンのfigshareや、トムソン・ロイター社(米国ニューヨーク)が2012年に開始した Data Citation Index などがある。
けれどもMichenerは、大学図書館はデータ管理の理想と現実のギャップを埋めるのに絶好の位置にあると言う。大学図書館は教員の支援経験が豊富である上、今後もなくなりそうにないからだ。「大学図書館には大きな信頼資本があるのです」
実際、多くの大学図書館がデータ管理への参入に興味を持っている。2010年に科学者のデータ管理について調査を行ったテネシー大学(米国ノックスビル)の情報科学者Carol Tenopirは、2011~12年にも、米国の100以上の研究大学の図書館を対象として、未発表の調査を行った。彼女によると、調査の時点でデータ管理サービスを実施していた大学は20%未満だったが、40%近くに、2年以内に科学者のデータのキュレーションと保存を支援する計画があったという。
オックスフォード大学のボドリアン図書館はすでに、患者のデータなどの機密情報を保管する完全非公開のものから、パブリックアクセスが可能なデータやメタデータまで、複数の段階に分かれた有料のストレージサービスを開発している。2012年にオックスフォード大学の研究者を対象に行われた調査によると、リポジトリの運用開始年に彼らが登録を考えているデータの量は、合計で約3ペタバイト(300万ギガバイト)に上るという。これは現在、オックスフォード大学の中央ファイリングシステムに保存されているデータ量のざっと2倍である。しかし、ボドリアン図書館のデジタルサービス開発に従事する Wolfram Horstmann は、おそらくこれらのデータが全部登録されることはないだろうと言う。調査の際には、研究者自身がデータを提供しなければならいことや、1テラバイト(1000ギガバイト)当たり5000ポンド(7500ドル)のデータ保管料を支払わなければならないことに言及していなかったからである。
他の大学は、別のアプローチで研究データのキュレーションをしようとしている。例えば、スタンフォード大学(米国カリフォルニア州)は、研究者が自分のデータを登録でき、小さくて単純なデータなら無料で管理してもらえるというデータ管理サービスとリポジトリを試験的に提供している。しかし、多くの大学には独自のリポジトリを構築できるほどの資源がないため、研究者が既存の適当なリポジトリを見つけられるように支援することしかできない。「トップクラスの研究機関でないと、データリポジトリにはなれないのです」と Tenopir は言う。
データ共有への動きは、数か国で加速している。オーストラリア政府は、モナシュ大学(メルボルン)にオーストラリア国立データサービスを設立するために7550万豪ドル(7830万ドル)を投資している。モナシュ大学図書館長の Cathrine Harboe-Ree は、このサービスは、オーストラリアの大学が各種の情報に識別子を付けたり、発表したりするのを支援していると説明する。「シンクロトロンからのペタバイトサイズのデータから、口腔学研究プロジェクトの小さいデータまで、あらゆる情報がその対象になっています」。
モナシュ大学やジョンズ・ホプキンズ大学、その他の大学図書館が進めているデータキュレーションの取り組みは、いわゆる「科学出版革命」と密接に関係している。それは、文章で報告するテキストベースの論文が科学研究の主要な成果であった時代の終わりを意味する。ドイツ国立科学技術図書館(ハノーバー)の情報研究者で、研究データの記述と引用を専門的に行う国際組織 DataCite の経営代理人 Jan Brase は、「古典的な学術出版のモデルは、過去300年間ほとんど変化していません。限界に達しているのです」と言う。
将来的には、科学研究のアウトプットは、観測のスプレッドシートからアルゴリズムや解析ツールまで、あらゆる種類のデータを用いて評価されるようになるだろう。「科学界も出版界も、つい最近までデータを二級市民として扱ってきました。けれども今、そんな状況が変化しようとしているのです」と Michener は言う。
変わる業績評価法
変化への一歩が踏み出されたのは、今年のことだ。NSFが助成金の申請ガイドラインを変更して、助成金に応募する研究者が、論文だけでなく、自分が得たデータや作成したソフトウェアも業績リストに入れられるようにしたのである。2013年3月の議会公聴会で Choudhury らは、科学データへのパブリックアクセスができるかどうかが国家の競争力を左右すると主張した。オープンデータ化を支持する人々は、これにより科学研究における捏造や間違いを暴きやすくなると主張する。
大学図書館は、こうした変化に対応しながら、予算の縮小や学術誌購読費の増大などの大きな問題に直面している。カリフォルニア大学サンディエゴ校の図書館の予算は2008年から2012年にかけて21%も縮小し、図書館長の Brian Schottlaender は、「パラダイムシフトと予算逼迫というダブルパンチを受けた現状を、『危機』という言葉で表現する人も出てきました」と言う。Schottlaender 自身はここまで悲観的にはなっておらず、図書館は「岐路に立っている」という言葉を選ぶ。
国際科学技術医学出版社協会(オランダ、アムステルダム)の規格技術部長であるEefke Smitは、大学図書館がデジタル時代に合わせて自らを再定義できるかどうかを語るには時期尚早だが、「一部の図書館が新しい取り組みをはじめたことは確かです」と言う。
このようにしてできてくる新しいデータ環境の複雑さを考えると、図書館は将来、情報のキュレーションをつかさどる広大な生態系の一部を構成することになるだろう。けれども、全ての人が期待するのは、リポジトリ同士が継ぎ目なく連結されて、研究者が自分のデスクから問い合わせをし、世界中からデータを引き出せるようになることだ。
データ管理が新たな焦点となったことは、大学図書館にとって厳しい挑戦であると考える人は多い。しかし Thomas は、データ管理は、大学図書館が何世紀にもわたって続けてきた仕事から大きく逸脱するものではないと言う。大学図書館はずっと前から、情報を整理、保存し、学者が利用しやすいように便宜を図ってきたではないか。もちろん、科学データは書物よりも複雑だ。「けれどもある意味、中世の文献の1ページと全く同じものなのです」。
(翻訳:三枝小夜子)
Richard Monastersky は、ワシントンD.C.在住の Nature 特集記事編集者。