BioCreative IVまとめ
バイオ領域でのNLPをやるにあたってとても参考にしているので、まとめました。
目次
BioCreativeとは
Critical Assessment of Information Extraction systems in BiologyでBioCreAtIvEらしいです。
力押し感がすごいネーミングですが、要するに生物学領域での情報抽出に取り組んでいます。
課題の設定やデータセットの公開など見ていて勉強になります。
主に以下の2つに取り組んでいます。
- 遺伝子やタンパク質の名称(entity)の抽出
- entityとfactの関連付け
これらの手段を発展させることで非構造的な論文や医療文書から有用な情報を抽出することを目指しています。
2004年のBioCreative Iから2017年のBioCreative VIまで様々なタスクが公開されています。
今回は特に僕の関心領域と近いものが含まれていたBioCreative IVについて簡単にまとめました。
BioCreative IV
第4回はTrack 1~5までの5つが議題としてあげられました。
Track 1- BioC: The BioCreative Interoperability Initiative
バイオ領域のテキストをもっと簡単に、いろんなシステムで再利用できるようにしようというプロジェクト。
専用のXMLフォーマットを考案しています。
テキストマイニングで一番時間かかるのは様々なフォーマットに対応することらしいです。
タスクに応じてデータセットの作り方異なるので別のタスクのデータセットを利用しようと思うと手間がかかります。
異なるフォーマットの書き方を吸収する処理をプログラムに埋め込むのは本質的なところではないのであまり時間を使いたくないです。
僕もNERのデータセットで複数のフォーマットがあって面倒臭かったことを覚えています。
BioCに関して詳しくはHPを参照ください。
論文にもなっています。
XMLだと重くない?とは思う。
現状デファクトスタンダードとして使われていない訳で、まだまだ発展途上なんでしょう。
Track 2- CHEMDNER Task: Chemical compound and drug name recognition task
文書(論文、特許、医療文書など)から薬剤の毒性・副作用やタンパク質への作用を読み取るにはまずNER(Named Entity Recognition)が必要です。
ここでは化学物質や薬剤名の抽出タスクをコンペ形式で競っています。
2つのタスクが与えられています。
- Chemical document indexing (CDI): 文書がなんの化学物質に関して述べているものかの予測をランクづけて返す
- Chemical entity mention recognition (CEM): 文書に含まれる化学物質のオフセットを返す
データセットは以下で公開されています。PubMedのtitleとabstructにタグ付けしたものです。
コンペの結果は論文にまとめられています。精度の指標になるかと思います。
CEMの優勝のF1スコアが87.39%でした。
その後Lampleのbi-LSTM-CRFで試したら90%を超えたので技術の進展はすごいなと思います(human annotator 91%)。
本タスクのbi-LSTM-CRFによるテストは以下の記事にまとめました。
他にもデータベースやNERソフトウェアのリストがまとめられていてとても参考になりました。
CEMを公式のevaluateで評価するには以下のフォーマットで出力する必要があります。
8) Prediction format for the CEM subtask:
Please make sure that your predictions are compliant with the formatting
information provided for the –INT option of the evaluation library.(The webpage and the bc-evaluate -h and bc-evaluate -d option provide you
with more details).In short you have to provide a tab separated file with:
1- Article identifier (PMID)
2- Offset string consisting in a triplet joined by the ‘:’ character. You have to provide
the text type (T: Title, A:Abstract), the start offset and the end offset.
3- The rank of the chemical entity returned for this document4- A confidence score
CHEMDNER_SAMPLE_JUNE25/Readme.txtより
エラーとその扱いについては以下のスレッドに参考になるものがあるかもしれません。
Track 3- BioCreative 2013 CTD Track
化学物質や薬剤の生体への作用をまとめたデータベースがあります。
このデータベースのアップデートを自動化することが本タスクの目的です。
以下のデータセットが公開されています。
- Chemicals
- Genes
- Diseases
- Chemical/Gene-Specific Action Terms
上3つはそれぞれの辞書で、最後のは薬剤が遺伝子に及ぼす作用の用語集です。
簡単に説明すると薬剤が遺伝子に及ぼす作用はDegreeとTypeで表現するらしいです。
例えば「Chemical X increases expression of Gene Y mRNA」のexpressionというTypeにincreaseというDegreeで作用するということです。
詳しくは以下に書いてあります。
Track 4- GO Task
GOはGene Ontologyの略です。
日本語で遺伝子オントロジーです。
下の記事を参考にすると、遺伝子の正規化を目的とする作業のようです。
つまり、異なる分野や文脈で一つの遺伝子が別々の名称で呼ばれているので困るということです。
以下の2つのサブタスクがあります。ちょっとGene Ontologyについて理解があやふやなのであとで読み込みます。
- Retrieving GO evidence sentences for relevant genes:
- Predicting GO terms for relevant genes:
データセットは以下で公開されています。
Train、Dev、Testにそれぞれ論文100本、50本、50本のデータが含まれます。
Track 5- User Interactive Task (IAT)
これもTrack 1に近く、コンペではありません。
biocurator(生物学データを人および機械がアクセスできるよう整備する人)の仕事を支援するツールの開発を目的としています。
求める機能などについて詳細はページをみてください。
所感
Track 2のCHEMDNERが自分のやりたいことに近かったので参考にしました。
このようなbiological領域におけるNLPをBioNLPといいます。
BioCreative以外にもいくつかShared Taskとして取り組まれていますし、
ACLでもWorkshopが存在するみたいです。
今後はNLP全般の最新を追いつつ、ここら辺の特定領域の動向もチェックしていきたいです。
BioCreative評価ツール
なおBioCreativeのタスクに使える評価ツールが公式から提供されています。
使い方をこちらにまとめました。