賢い論文検索Semantic Scholar
AI2が開発・公開している論文検索サービスのSemantic Scholarの何が優れているのかをまとめました。
目次
課題
研究者にとって論文検索ツールは重要です。多くの方がGoogle Scholarを使ったことがあるでしょう。情報系ならarXiv、バイオメディカル系ならPubMedを愛用しているかもしれません。
私が過去にアナフィラキシーの研究をしていた時を振り返ると、PubMedには大変不満がありました。
例えばアナフィラキシーショックのマウスモデルの作り方を調べようとします。
一口にアナフィラキシーといってもanaphylaxisだけで検索すれば細胞実験、動物実験、臨床報告全てが引っかかってきます。マウスのモデルを知りたいのでmouseと追加で入れてみます。
するとアナフィラキシーモデルにもいくつか種類があって、passiveなのかactiveなのか、systemicなのかcuteneousなのか。
評価指標は体温なのか血圧なのか致死率なのか血管透過性なのか…マウスの系統…抗原の種類…
そんなこんなで条件を盛り盛りにするとあっという間にヒット数が0件になってしまいます。
諦めてある程度ノイジーな段階で検索を妥協し、あとは人力でチェックします。
1. 検索結果のうち良さげなタイトルを新規タブで開く
2. Abstractを流し読みして良さそうならジャーナルページを開く
3. Methodsを流し読みして探していた実験を行なっているかチェック
めんどくさい!
で、何が納得いかないってこんなめんどくさい作業をしたらちゃんと論文見つかるんですよね。なんでさっき検索結果0件だったの?と思うくらいには。不服〜。
不満を垂れましたが要するに既存の検索システムはテキストベースでの一致がメインで、多少オントロジーが使われていて同義語などはカバーしてくれますが完全にこちらの意図を考慮して論文を見つけてくれるわけではありません。
クリティカルに論文を検索でヒットさせるにはシステムの癖や裏側のタグ付け構造、そのほか検索サービスごとの条件付けテクニックを身につける必要があります。
製薬会社のメディカルアフェアーズ部門などはこういったテクニックを持った専門家がいるそうですが、そのスキルの属人性が経営層にとっては課題となっているそうです。
ではベストな論文検索サービスとはどのようなものか?私の知人のとある助教の先生曰く「会話形式で『こんな論文探して〜』って言ったら自分の専門領域に合わせた論文をピックアップしてくれたらいいよね」とのこと。
それが可能かはさておき、とにかく表層的なテキスト情報ではなくより賢く論文を探してきてほしいというのはその道の専門家でも望んでいることのようです。
Semantic Scholar
Semantic ScholarはAI2が開発している無料の論文検索サービスです。PubMed, arXivなどから取得した論文を解析し、従来の検索サービスより高度な情報の提示を実現しています。
Semantic Scholarは3つのレベルでの解析を行っています。
- Paper: 論文内の情報
- Relationships: 論文間の関係性
- Macro: 論文集合の特徴



これらの解析技術を利用することでSemantic Scholarは従来の検索サービスよりもリッチな情報をユーザに提供します。
実際に使ってみます。主に比較対象はPubMedとGoogle Scholarです。
検索
検索結果画面はぱっと見、代わり映えしません。多少デザインがモダン。

論文の下の電球と棒グラフのアイコンはそれぞれHighly Influential Citations, Citation Velocityを示します。これらの指標はGoogle Scholarで表示される単純な引用数と比べると後続の研究に重要な影響を与えたか、最近引用されているかを教えてくれます。PubMedでは引用数はわからないので重要な嬉しいですね。


また右下にRelated topicsが表示されます。
“Internet of Things”で検索すると”Android”, “Distributing Computing”, “IFTTT”など関連のワードが出てきます。

これはPubMedやGoogle ScholarのRelated searchesとは明らかに異なります。


検索システムについては詳しくないのですが、Related searchesは絞り込みやタイポの修正には役に立ちそうですが、知らなかった周辺単語を教えてくれることはありません。そういう点でSemantic ScholarのRelated topicsはより研究の探索に役立ちます。
個別ページ
Google Scholarは検索に表示されたタイトルをクリックすると掲載元に飛んでしまいます。早くアクセスできるという点では優秀です。
arXivも多少メタデータが表示されますが対して情報は増えません。

PubMedは何気にいろいろ出してくれますが、概要・全文リンクしか使ったことがないです。
- Abstract: 概要
- Full text links: 全文へのリンク
- Similar articles: 類似論文
- Cited by: この論文を引用している論文
- Related information: 謎
- Recent Activity: ユーザの直近の検索・閲覧履歴

Semantic Scholarでは以下のような情報が取得できます。
- Abstact: 概要

- Figures and Tables: 図表

- Results: 簡単なまとめ

- Citations: 何を引用されたのか(結果なのか手法なのか)の分類や影響度合い、年度別の被引用数など



- References: この論文が引用した論文が、影響を受けた度合いも合わせて表示

- Similar Papers: 類似論文

と、モリモリ分析をした上で類似論文を出してくるので説得力があります。正直PubMedの類似論文とか全然信用してなかったです。タイトルとかAbstractの単語の一致で見てる感じだったので。
でもSemantic Scholarが類似論文と出してくるなら次に読んでみようかなと思いました。
著者分析
PubMed, arXivでは著者名は同一著者の論文を表示するくらいにしか使われていません。arXivに至っては著者ユニークなIDが振られていないようで、似た名前の人が引っかかってきて阿鼻叫喚です。
Google Scholarでは引用数以外のメトリクスであるh-indexなどが表示されます。さらに共著者も表示されます。

Semantic Scholarでは引用数などのメトリクスを詳細に見ることはできません(傾向はわかる)。

しかし研究者が誰に強く影響され、誰に強い影響を与えたのかを可視化できます。これは特定の研究領域をまとめるのに重宝しそうです。時系列的にメインの研究のパスウェイを辿りやすそうです。

関連研究者にマウスオーバーすることで最も影響を授受した論文が表示され、ここから次の論文を探すことができます。細かいことですが、こういった点にサービスとしてのきめ細やかさを感じます。
(著者名をクリックしたらその著者のページに飛んでそこから論文を探す、といった手間がなくて快適)

その他の機能
著者、論文、キーワード、検索結果に対してAlertを設定できたり、論文をLibraryに保存できたりします。
他にもSemantic Sanityという関連サービスの案内がありました。

興味のある論文を選択、CREATE FEEDをすると選択した論文と近しい論文を提示してくれます(Computer Scienceのみ対応)。

コンセプトはすごく嬉しい。興味のある論文を選んでおけば関連論文が出版される度にメンションしてくれるわけですから。
しかし科学文書の情報抽出系論文を選択してFEEDを作ってみたら”Simple Natural Language Processing Tools for Danish”なんて論文をオススメされた。うーんデンマーク語に興味はないです!
まだベータ版ということもあってもうちょっとビシッとクリティカルな論文を教えて欲しいですね。
arXiv Sanityに影響を受けたとのことですが、本家を知らないのでなんとも言えず。
所感
ってな感じで、Semantic Scholarの機能について既存の検索サービスと比較しながらまとめてみました。
特に著者が影響を受けた人物・与えた人物がわかるのは結構面白いです。他にも被引用がどの部分を引用しているのか、どれくらいの影響を受けているのかがわかるのも嬉しいです。
一方で論文のフィード機能はまだまだ開発中といったところですね。今後に期待です。
しかし論文検索と同じくらい悩みの種である論文管理については結局別途持っておく必要がありそうですね。いかにLibraryに保存できても書き込みとかはSemantic Scholar上でできないので。
View PDFのURLを見る限り、自前のサーバにデータを保持しているみたい(掲載元に飛ばしているわけでもない)のでiPadと連携して書き込みができるようになるといいのに。書き込みデータだけユーザ固有のメタデータとしてもっとおけば。
最高に優れた論文検索ツールには究極、論文管理ツール機能を持ち合わせて欲しいものです。
開発元のAI2はデータセット, モデル, コード, フレームワーク, APIなど自分たちの知見を惜しみなく公開しています。決め台詞である”AI for the Common Good.”にも説得力があります。
Githubのissueに質問したら優しく回答してくれたし、大好きな団体の一つです。