科学論文解析リソースまとめ

生命科学の論文から機械可読な動物実験プロトコルを抽出して、実験の効率化をめざしています。

興味のある方はTwitterでご連絡ください。

ここでは特にライフサイエンスの論文を解析するのに使えそうなデータセットや訓練済みのword vectorなどリソース全般をまとめます。

適宜更新します。

 

BioNLP

PubMed, PMCの文書を元にしたword vector

公式サイト

論文

Github

 

 

SCIERC

科学論文からknowlede graphを作成するモデルSCIIEの開発に使われたデータセット。

500本の論文abstructに対してentityとrelation、corefference(文をまたぐ)がアノテーションされている。

データセットSCIERCおよび情報抽出モデルSCIIEは公式サイトから入手可能。

公式サイト

書誌情報

データセット情報

  • 対象
    • 科学論文のabstruct 500本
    • 入手元:Semantic Scholar
  • アノテーションスキーム
    • entity:6種
    • relation:7種

ざっと眺めてみました。

EXACT2

生命科学実験の再現性担保や自動化のためにプロトコルを機械可読な形式に落とし込むことが目的。

オントロジーファイルのみ公開されている。

後述のwet lab protocol corpusの派生元として紹介。

公式サイト

  • Github:EXACT(owlファイルのみ)

書誌情報

  • Title:EXACT2: the semantics of biomedical protocols
  • Author:Larisa N SoldatovaEmail author, Daniel Nadis, Ross D King, Piyali S Basu, Emma Haddi, Véronique Baumlé, Nigel J Saunders, Wolfgang Marwan and Brian B Rudkin
  • Journal:BMC Bioinformatics, 2014
  • Date:2014/12/27

データセット情報

  • 対象
    • 不明
  • アノテーションスキーム
    • action
    • descriptor
    • relation

実験プロトコルからまずactionを取得し、詳細な条件descriptorを取得。最後にaction-descriptor間をrelationで結ぶ。

ちょっと詳しくまとめました。

Wet Lab Protocol Corpus

wet labの実験プロトコルをオントロジーに落とし込むためのアノテーションをしたデータセット。

上記EXACT2を拡張。

データセットは公式サイトでメールアドレスを登録することでダウンロード可能。

公式サイト

書誌情報

データセット情報

  • 対象
  • アノテーションスキーム(EXACT2を拡張)
    • action:1種
    • entity
      • object-based entity:4種
      • measure-based entity:11種
      • POS-based entity:2種
    • relation
      • action relation (action-entity):7種
      • binary relation (entity-entity):7種

あらゆるactionをひとまとまりにactionとタグ付けしてしまっているのがEXACT2とちょっと違うなと思いました。

EXACT2ではaction自体に様々な種類が存在し、それを表現するdescriptorが紐づいていました。

Wet Lab Protocol Corpusではactionを単にactiontとしてタグ付けし、action-entity間のrelationでどのような種類か表現しています。

ChemDataExtractor

公式サイト

書誌情報

データセット情報

 

論文は閲覧が有料だったため未チェック。

代わりに資料が公開されている。

更新履歴

2018/10/02:SCIERC、EXACT2、Wet lab protocol corpus追加

2019/01/16:ChemDataExtractor追加

コメントを残す