科学論文解析リソースまとめ
生命科学の論文から機械可読な動物実験プロトコルを抽出して、実験の効率化をめざしています。
興味のある方はTwitterでご連絡ください。
ここでは特にライフサイエンスの論文を解析するのに使えそうなデータセットや訓練済みのword vectorなどリソース全般をまとめます。
適宜更新します。
BioNLP
PubMed, PMCの文書を元にしたword vector
公式サイト
論文
Github
SCIERC
科学論文からknowlede graphを作成するモデルSCIIEの開発に使われたデータセット。
500本の論文abstructに対してentityとrelation、corefference(文をまたぐ)がアノテーションされている。
データセットSCIERCおよび情報抽出モデルSCIIEは公式サイトから入手可能。
公式サイト
- Multi-Task Identification of Entities, Relations, and Coreferencefor Scientific Knowledge Graph Construction
- Bitbucket:SCIERC
書誌情報
- Title:Multi-Task Identification of Entities, Relations, and Coreference for Scientific Knowledge Graph Construction
- Author:Yi Luan, Luheng He, Mari Ostendorf, Hannaneh Hajishirzi
- Organization:University of Washington
- Journal:EMNLP, 2018
データセット情報
- 対象
- 科学論文のabstruct 500本
- 入手元:Semantic Scholar
- アノテーションスキーム
- entity:6種
- relation:7種
ざっと眺めてみました。
EXACT2
生命科学実験の再現性担保や自動化のためにプロトコルを機械可読な形式に落とし込むことが目的。
オントロジーファイルのみ公開されている。
後述のwet lab protocol corpusの派生元として紹介。
公式サイト
- Github:EXACT(owlファイルのみ)
書誌情報
- Title:EXACT2: the semantics of biomedical protocols
- Author:Larisa N SoldatovaEmail author, Daniel Nadis, Ross D King, Piyali S Basu, Emma Haddi, Véronique Baumlé, Nigel J Saunders, Wolfgang Marwan and Brian B Rudkin
- Journal:BMC Bioinformatics, 2014
- Date:2014/12/27
データセット情報
- 対象
- 不明
- アノテーションスキーム
- action
- descriptor
- relation
実験プロトコルからまずactionを取得し、詳細な条件descriptorを取得。最後にaction-descriptor間をrelationで結ぶ。
ちょっと詳しくまとめました。
Wet Lab Protocol Corpus
wet labの実験プロトコルをオントロジーに落とし込むためのアノテーションをしたデータセット。
上記EXACT2を拡張。
データセットは公式サイトでメールアドレスを登録することでダウンロード可能。
公式サイト
- デモ:Wet Lab Protocol Corpus and Tagger
- Github:WLP-Parser
書誌情報
- Title:An Annotated Corpus for Machine Reading of Instructions in Wet Lab Protocols
- Author:Chaitanya Kulkarni, Wei Xu, Alan Ritter, Raghu Machiraju
- Journal:NAACL, 2018
- Date:2018/05/01
データセット情報
- 対象
- wet lab protocol 633本
- 入手元:protocols.io、openwetware
- カテゴリー:neurology, epigenetics, metabolomics, cancer/stem cell biology(Appendix Table2)
- アノテーションスキーム(EXACT2を拡張)
- action:1種
- entity
- object-based entity:4種
- measure-based entity:11種
- POS-based entity:2種
- relation
- action relation (action-entity):7種
- binary relation (entity-entity):7種
あらゆるactionをひとまとまりにactionとタグ付けしてしまっているのがEXACT2とちょっと違うなと思いました。
EXACT2ではaction自体に様々な種類が存在し、それを表現するdescriptorが紐づいていました。
Wet Lab Protocol Corpusではactionを単にactiontとしてタグ付けし、action-entity間のrelationでどのような種類か表現しています。
ChemDataExtractor
公式サイト
書誌情報
- Title:ChemDataExtractor: A Toolkit for Automated Extraction of Chemical Information from the Scientific Literature
- Author:Matthew C. Swain and Jacqueline M. Cole
- Journal:Journal of Chemical Information and Modeling, 2016
- Date:2016/09/26
データセット情報
- 対象
- open access journal 50本
- アノテーションスキーム
- 不明
- 公式サイトにて公開
論文は閲覧が有料だったため未チェック。
代わりに資料が公開されている。
更新履歴
2018/10/02:SCIERC、EXACT2、Wet lab protocol corpus追加
2019/01/16:ChemDataExtractor追加