SCIERC:科学論文の情報抽出データセットをbratで眺める
科学論文のテキストにentity, relationをアノテーションしたデータセットです。
coreferenceも考慮しているので複数文をまたがるentityにもリンクが貼られています。
科学論文からknowledge graphを作成することを目的として整備されました。
データが公開されていたので実際にbratで開いてみました。
初めてbratで外部データを読み込むのでそこらへんの方法も備忘録として残します。
目次
Multi-Task Identification of Entities, Relations, and Coreference for Scientific Knowledge Graph Construction
書誌情報です。
科学論文のabstructからknowledge graphを作る手法の発表。
Title:Multi-Task Identification of Entities, Relations, and Coreference for Scientific Knowledge Graph Construction
Author:Yi Luan, Luheng He, Mari Ostendorf, Hannaneh Hajishirzi
Organization:University of Washington
Journal:EMNLP, 2018
Date:2018/08/29
利用データ
Semantic Scholarで公開されている論文のabstructを500本利用。
スキーム
6種のentity、7種のrelationでアノテーション。
さらに同一entityにはcoreference linkを貼る。
- entity
- Task
- Generic
- Metric
- Material
- OtherScientificTerm
- Method
- relation
- COMPARE
- PART-OF
- FEATURE-OF
- USED-FOR
- CONJUNCTION
- HYPONYM-OF
- EVALUATE-FOR
かなりざっくりしたラベルです。
著者らの目的である、knowledge graphを作るのにはこれで良い、のかな。
要約に近いことができるのでしょうね。
僕は実験プロトコルからの情報抽出を行いたいので、粒度が合わないなと感じました。
データセットをダウンロード
公式サイトからraw datasetをダウンロードします。
展開すると、中身はこんな感じ。
1つの論文に対してxml, txt, annの3つのファイルがあります。
txtとannがそれぞれテキストデータ、アノテーションデータです。
bratで開いてみる
以前セットアップしたbratで視覚的に確認します。
Macローカルでbratを使う方法は以下の記事で。
先ほど展開したraw_dataディレクトリをbratの中のdataディレクトリに放り込みます。
わかりやすいように名前をraw_data → sciieに変更しておきます。
ローカルでbratを起動。
ディレクトリ選択画面でsciieが表示されるので選択。
Documentに論文のIDが並びます(A00-1024, …)。
適当なのを選択。
こんな感じ。
おまけ
論文のabstructからknowledge graphを作成する手法でした。複数文にまたがるcoreferenceを取っている点が個人的に着目した点です。
もっと粒度細かく実験条件を解析するような論文を探しています。
以下の論文ではよりドメインを絞って、wet labのプロトコルからの情報抽出を目標としておりより僕の目的に近かったです。次は以下の論文のデータセットを眺めてみます。