がんのin vivo論文アノテーション②アノテーションルール

EXACT2などを参考に独自のルールでがんの論文をアノテーションします。

 

前回まで

Nature CommunicationとScientific Reportsからがんに関連する論文100本を取得。

うち95本を解析対象のin vivo論文(主に移植実験)とそれ以外を振り分けました。

 

95本中48本(50.5%)が解析対象の論文でした。今回はこの48本をアノテーションします。

 

アノテーションツールについて

いくつかの先行研究でも使われているBratを使用します。

設定などについては以下でまとめました。

 

ルール

前回、論文95本のMethodsをざっと流し読みしてわかったのは、がんの動物実験は大体以下の2つに分類できるということでした。

  • Xenograft(異種移植)
  • Bone Marrow Transplantation(造血幹細胞移植)

 

中でもxenograftが大半を占めていたのでひとまずこちらに対応するルールを作ります。

ちなみにざっくりどんな実験か解説すると、ヒトのがん細胞をマウスに移植して発育や致死率を見る実験です。

変動する条件は、がん細胞の種類、移植する部位、マウスの遺伝型、投与する薬剤、などなど。

だいぶ型にはめやすそうだったので幸いです。

 

ではxenograftを構造化するのに必要な情報を洗い出してみます。

  • 動物関連
    • Animal(種)
      • Mouse
      • Rat
    • Inbred(近郊形)
    • Hybrid(交雑子)
    • Generation(世代)
    • Age(週例)
    • Sex(性別)
    • Genotype(遺伝型)
    • Induction(ノックアウト、トランスジェニックなど)もっと良い表現募集中
  • がん細胞関連
    • Cell-Line(細胞種)
    • Disease(疾病)
    • Medium(溶媒)
    • Density(濃度)
    • Dose(投与量)
    • Route(投与経路)
    • Site(投与部位)
    • Time(エンドポイントまでの日数)
  • 薬剤関連
    • Reagent(薬剤)
    • Medium(溶媒)
    • Density(濃度)
    • Dose(投与量)
    • Route(投与経路)
    • Site(投与部位)

 

これをentity, relation, eventに落とし込みます。

wet lab protocol corpusを参考にしました。

(合ってるかわからないのでここは専門の方に相談したいです、特に投与量をどう扱うか)


entities]
Animal
Mouse
Rat
Inbred #近交系
Outbred #非近交系
Generation #世代
Age #週齢
Sex #性別
Genotype #遺伝型
Modification #遺伝子改変手法

Cell-Line #細胞株
Disease #疾病

Reagent #化合物

Medium #溶媒
WeightPerBW #体重あたり重量(mg/kg)
Weight #重量(mg)
Volume #容量(ml)
Concentration #濃度(色々)
Number #数()
Time #時間(day, week, mounth)
Route #投与経路
Location #投与部位

[relations]
Mouse-Property Animal:Mouse|Rat, Property:Inbred|Outbred|Age|Sex|Genotype|Modification|Generation
Hybrid Male:Inbread, Female:Inbred
Cancer-Property Arg1:Cell-Line, Arg2:Disease|Medium|Weight|Volume|Concentration|Number|Time|Route|Location
Reagent-Property Arg1:Reagent, Arg2:Medium|Weight|Volume|Concentration|Number|Time|Route|Location

[events]
Injection Animal:Mouse|Rat, Content+:Cell-Line|Reagent

[attributes]

*実際にアノテーションをしながら追加・修正を行います。

 

アノテーション

ようやく準備が終わったのでアノテーションを行います。

 

こんな感じで48本アノテーションします。

 

おまけ

数日後くらいに完成するはず。

これを正解データとして、ルールベースでアノテーションしてどれくらいの精度が出るか楽しみです。

 

参考

コメントを残す