科学コミュニティー:機械学習モデルで研究のインパクトを予測する
Nature Biotechnology
2021年5月18日
Scientific community: Machine-learning model predicts potential impact of research
科学雑誌に掲載された研究の将来的な「インパクト」を、機械学習モデルを用いて予測できることを報告する論文が、Nature Biotechnology に掲載される。このモデルは、任意の1年間に出版された「トップ5%の論文」を、独自のスコアを用いて予測するものであり、科学者の研究の潜在的なインパクトを、論文の引用回数を利用する指標に依存して計測する既存の書誌学システムを補完できる可能性がある。
研究者の科学的成果を評価するために、その著者が執筆した論文の引用回数に基づく指標をはじめ、多くのシステムが利用されてきた。機械学習が出現したことで、研究者の成果に関連するより多くの側面を用いて、発表された成果の潜在的なインパクトを判断する機会が生まれた。そのため、ウェブページの重要度をランク付けするのに使われる指標に似た、時間尺度を組み込んだ「PageRank」スコアを予測する機械学習モデルを、研究者の成果にも応用できるのではないかと考えられるようになった。
今回、James WeisとJoseph Jacobsonはこのアイデアを実践しようと、DELPHI(Dynamic Early-warning by Learning to Predict High Impact)と呼ばれるモデルを採用し、これを、科学研究グラフを使って訓練した。1980~2019年に出版されたユニークな168万7850編からなる論文のプールを用いて、論文発表後1~5年間の、各論文、著者、雑誌、ネットワークに関連する29の特徴のセットを抽出した。次に、各論文のこれらの特徴を用いて機械学習モデルを訓練し、インパクトの「早期警報」スコアを算出した。
今回のモデルは、レトロスペクティブな盲検試験において、1980~2014年に出版されたインパクトの大きい20の生物工学論文のうち、19を正しく特定した。またこのモデルは、2018年に42の生物工学関連の雑誌で出版された論文の中から、今後トップ5%に入るであろう50の論文を予測した。また、このモデルを用いることで、「隠された宝物」研究をデータ駆動型の方法で見つけ出し、資金提供を円滑にできる可能性がある。この手法の生物工学分野以外における性能を、分野の正規化を行った引用スコアなどの従来のインパクト指標と比較して評価するにはさらなる広範な検証が必要だが、そうすれば、このモデルを他の研究分野にも応用できる可能性がある。
doi: 10.1038/s41587-021-00907-6
注目の論文
-
11月21日
化学:光を使って永遠の化学物質を分解する新しい方法Nature
-
10月24日
古生物学:古代サンゴから共生関係の初期の証拠を発見Nature
-
8月15日
考古学:ストーンヘンジの祭壇石はスコットランドを起源としているかもしれないNature
-
8月13日
化学:廃水を浄化しながらアンモニアを作るNature Catalysis
-
8月8日
気候変動:グレートバリアリーフの記録的な気温Nature
-
7月11日
古代ゲノミクス:疫病に襲われた新石器時代の農民たちNature