科学コミュニティー:機械学習モデルで研究のインパクトを予測する
Nature Biotechnology
2021年5月18日
科学雑誌に掲載された研究の将来的な「インパクト」を、機械学習モデルを用いて予測できることを報告する論文が、Nature Biotechnology に掲載される。このモデルは、任意の1年間に出版された「トップ5%の論文」を、独自のスコアを用いて予測するものであり、科学者の研究の潜在的なインパクトを、論文の引用回数を利用する指標に依存して計測する既存の書誌学システムを補完できる可能性がある。
研究者の科学的成果を評価するために、その著者が執筆した論文の引用回数に基づく指標をはじめ、多くのシステムが利用されてきた。機械学習が出現したことで、研究者の成果に関連するより多くの側面を用いて、発表された成果の潜在的なインパクトを判断する機会が生まれた。そのため、ウェブページの重要度をランク付けするのに使われる指標に似た、時間尺度を組み込んだ「PageRank」スコアを予測する機械学習モデルを、研究者の成果にも応用できるのではないかと考えられるようになった。
今回、James WeisとJoseph Jacobsonはこのアイデアを実践しようと、DELPHI(Dynamic Early-warning by Learning to Predict High Impact)と呼ばれるモデルを採用し、これを、科学研究グラフを使って訓練した。1980~2019年に出版されたユニークな168万7850編からなる論文のプールを用いて、論文発表後1~5年間の、各論文、著者、雑誌、ネットワークに関連する29の特徴のセットを抽出した。次に、各論文のこれらの特徴を用いて機械学習モデルを訓練し、インパクトの「早期警報」スコアを算出した。
今回のモデルは、レトロスペクティブな盲検試験において、1980~2014年に出版されたインパクトの大きい20の生物工学論文のうち、19を正しく特定した。またこのモデルは、2018年に42の生物工学関連の雑誌で出版された論文の中から、今後トップ5%に入るであろう50の論文を予測した。また、このモデルを用いることで、「隠された宝物」研究をデータ駆動型の方法で見つけ出し、資金提供を円滑にできる可能性がある。この手法の生物工学分野以外における性能を、分野の正規化を行った引用スコアなどの従来のインパクト指標と比較して評価するにはさらなる広範な検証が必要だが、そうすれば、このモデルを他の研究分野にも応用できる可能性がある。
doi:10.1038/s41587-021-00907-6
「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。
注目のハイライト
-
化学:アルゴリズムは、ウイスキーの最も強い香りと原産地を嗅ぎ分けることができるCommunications Chemistry
-
天文学:月の年齢はより古いNature
-
気候変動:南極の海氷減少が嵐の発生を促すNature
-
天文学:天の川銀河の超大質量ブラックホールの近くに連星系を発見Nature Communications
-
惑星科学:土星の環が若々しい外観を保っている理由Nature Geoscience
-
惑星科学:木星の衛星イオに浅いマグマの海はないNature