論文のメタデータを収集するならSemantic Scholar API

AI2が開発している論文検索サービスSemantic Scholar。

実は無料でAPIが公開されていて、様々な書誌情報を取得することができます。

公式に案内があります。

例えば調べたい論文のDOI(10.1371/journal.pone.0008461)があれば以下を叩くだけで簡単に手に入ります。

便利ですね。被引用数はcitationsの要素数を数え上げれば取得できます。

ただし注意書きのように被引用数は必ずしも正確ではありません。

Citations

How does Semantic Scholar estimate citation counts?
The Semantic Scholar corpus indexes citations for millions of publications; however, due to limitations in corpus coverage, citation counts may deviate from the true count for a publication. To address this, a statistical model is used to calculate an estimate of the total number of citations for a publication.

https://www.semanticscholar.org/faq#estimated-citations

実際に上記の論文の被引用数はSemantic Scholar上では22でしたがnatureで確認すると25でした。

https://www.nature.com/articles/ncomms10004

さらに追ってみるとそれらの数値はWeb of Science、CrossRef由来であると判明しました。

いずれもAPIがあるようなので、正確な数値が知りたければそちらを利用してみてください。

https://www.nature.com/articles/ncomms10004/metrics

ちなみにGoogle検索ではさらに大きく数値が出ます。32でした。

さておき、今回は使いやすさ重視でSemantic Scholar APIを使います。

こんな感じ。doi指定してキー指定するだけ。超絶楽。捗る。

url = 'http://api.semanticscholar.org/v1/paper/' + doi
result = requests.get(url).json()
title = result['title']
...

コメントを残す