概要

毎年膨大な量の論文が投稿されます。人力で先行研究を読むことは不可能になっています。

私自身、以前大学でアナフィラキシーショックの研究をしていましたが時間的制約のために論文調査を満足に行えませんでした。荒い推定を実験量でカバーするという体育会系な研究室であり、先人の研究を活用しきれていないことを歯がゆく思っていました。

PubMedやGoogle Scholarは先行研究を1つ1つ読むことはできても、包括的に理解することはできません。

本プロジェクトでは、特に動物実験の実験条件という情報に着目して先行研究を統計的に解析することで研究のスピードアップ、研究者の負担減、動物実験の削減を目的としています。

具体的には、非構造的な論文から単語や関係性を抽出し機械可読な構造的データに落とし込みます。

詳しいことに興味がある方はTwitterへ連絡ください。

フロー

プロジェクト履歴

背景、課題の認識

先行研究の調査

ドメイン選→がん

オープンジャーナルから論文取得

Methods単離

Bi-LSTMを用いて薬剤名を抽出

オープンデータが存在しないentityの抽出に悩む

論文100本のアノテーションを自作(entityのみ)

論文500本のアノテーションを外注

やることリスト

データフロー整備

  • ローカルにある論文をS3へ移動
  • Crawlerを定期実行できるよう配備(HTML取得)
  • 論文情報をRDSで管理
  • 出版社ごとに整形し、統一規格に落とし込む

分析

  • 見出しクラス分類
  • NER
    • CRF
  • データ拡張
    • 半教師あり学習、能動学習など調査
    • ウェブからリスト作成、マッチするか当ててみる

web app

  • ウェブサイト(react?)
  • api

自然言語処理全般の勉強