科学コミュニティー:機械学習モデルで研究のインパクトを予測する
Nature Biotechnology
2021年5月18日
Scientific community: Machine-learning model predicts potential impact of research
科学雑誌に掲載された研究の将来的な「インパクト」を、機械学習モデルを用いて予測できることを報告する論文が、Nature Biotechnology に掲載される。このモデルは、任意の1年間に出版された「トップ5%の論文」を、独自のスコアを用いて予測するものであり、科学者の研究の潜在的なインパクトを、論文の引用回数を利用する指標に依存して計測する既存の書誌学システムを補完できる可能性がある。
研究者の科学的成果を評価するために、その著者が執筆した論文の引用回数に基づく指標をはじめ、多くのシステムが利用されてきた。機械学習が出現したことで、研究者の成果に関連するより多くの側面を用いて、発表された成果の潜在的なインパクトを判断する機会が生まれた。そのため、ウェブページの重要度をランク付けするのに使われる指標に似た、時間尺度を組み込んだ「PageRank」スコアを予測する機械学習モデルを、研究者の成果にも応用できるのではないかと考えられるようになった。
今回、James WeisとJoseph Jacobsonはこのアイデアを実践しようと、DELPHI(Dynamic Early-warning by Learning to Predict High Impact)と呼ばれるモデルを採用し、これを、科学研究グラフを使って訓練した。1980~2019年に出版されたユニークな168万7850編からなる論文のプールを用いて、論文発表後1~5年間の、各論文、著者、雑誌、ネットワークに関連する29の特徴のセットを抽出した。次に、各論文のこれらの特徴を用いて機械学習モデルを訓練し、インパクトの「早期警報」スコアを算出した。
今回のモデルは、レトロスペクティブな盲検試験において、1980~2014年に出版されたインパクトの大きい20の生物工学論文のうち、19を正しく特定した。またこのモデルは、2018年に42の生物工学関連の雑誌で出版された論文の中から、今後トップ5%に入るであろう50の論文を予測した。また、このモデルを用いることで、「隠された宝物」研究をデータ駆動型の方法で見つけ出し、資金提供を円滑にできる可能性がある。この手法の生物工学分野以外における性能を、分野の正規化を行った引用スコアなどの従来のインパクト指標と比較して評価するにはさらなる広範な検証が必要だが、そうすれば、このモデルを他の研究分野にも応用できる可能性がある。
doi: 10.1038/s41587-021-00907-6
注目の論文
-
12月13日
進化:最古の現生人類ゲノムから、4万5,000年前にネアンデルタールとの混血があったことが判明Nature
-
12月13日
Nature Medicine:2025年の医療に影響を与える11の臨床試験Nature Medicine
-
12月12日
進化:ワニはどのようにして皮膚を得たのかNature
-
12月12日
天文学:Firefly Sparkleが初期の銀河形成に光を当てるNature
-
12月12日
医学:マウスの子癇前症に対するmRNA療法の提供Nature
-
12月10日
加齢:脳の老化に関連する重要なタンパク質の発見Nature Aging