がんのin vivo論文アノテーション②アノテーションルール
EXACT2などを参考に独自のルールでがんの論文をアノテーションします。
前回まで
Nature CommunicationとScientific Reportsからがんに関連する論文100本を取得。
うち95本を解析対象のin vivo論文(主に移植実験)とそれ以外を振り分けました。
95本中48本(50.5%)が解析対象の論文でした。今回はこの48本をアノテーションします。
アノテーションツールについて
いくつかの先行研究でも使われているBratを使用します。
設定などについては以下でまとめました。
ルール
前回、論文95本のMethodsをざっと流し読みしてわかったのは、がんの動物実験は大体以下の2つに分類できるということでした。
- Xenograft(異種移植)
- Bone Marrow Transplantation(造血幹細胞移植)
中でもxenograftが大半を占めていたのでひとまずこちらに対応するルールを作ります。
ちなみにざっくりどんな実験か解説すると、ヒトのがん細胞をマウスに移植して発育や致死率を見る実験です。
変動する条件は、がん細胞の種類、移植する部位、マウスの遺伝型、投与する薬剤、などなど。
だいぶ型にはめやすそうだったので幸いです。
ではxenograftを構造化するのに必要な情報を洗い出してみます。
- 動物関連
- Animal(種)
- Mouse
- Rat
- Inbred(近郊形)
- Hybrid(交雑子)
- Generation(世代)
- Age(週例)
- Sex(性別)
- Genotype(遺伝型)
- Induction(ノックアウト、トランスジェニックなど)もっと良い表現募集中
- Animal(種)
- がん細胞関連
- Cell-Line(細胞種)
- Disease(疾病)
- Medium(溶媒)
- Density(濃度)
- Dose(投与量)
- Route(投与経路)
- Site(投与部位)
- Time(エンドポイントまでの日数)
- 薬剤関連
- Reagent(薬剤)
- Medium(溶媒)
- Density(濃度)
- Dose(投与量)
- Route(投与経路)
- Site(投与部位)
これをentity, relation, eventに落とし込みます。
wet lab protocol corpusを参考にしました。
(合ってるかわからないのでここは専門の方に相談したいです、特に投与量をどう扱うか)
entities] Animal Mouse Rat Inbred #近交系 Outbred #非近交系 Generation #世代 Age #週齢 Sex #性別 Genotype #遺伝型 Modification #遺伝子改変手法 Cell-Line #細胞株 Disease #疾病 Reagent #化合物 Medium #溶媒 WeightPerBW #体重あたり重量(mg/kg) Weight #重量(mg) Volume #容量(ml) Concentration #濃度(色々) Number #数() Time #時間(day, week, mounth) Route #投与経路 Location #投与部位 [relations] Mouse-Property Animal:Mouse|Rat, Property:Inbred|Outbred|Age|Sex|Genotype|Modification|Generation Hybrid Male:Inbread, Female:Inbred Cancer-Property Arg1:Cell-Line, Arg2:Disease|Medium|Weight|Volume|Concentration|Number|Time|Route|Location Reagent-Property Arg1:Reagent, Arg2:Medium|Weight|Volume|Concentration|Number|Time|Route|Location [events] Injection Animal:Mouse|Rat, Content+:Cell-Line|Reagent [attributes]
*実際にアノテーションをしながら追加・修正を行います。
アノテーション
ようやく準備が終わったのでアノテーションを行います。
こんな感じで48本アノテーションします。
おまけ
数日後くらいに完成するはず。
これを正解データとして、ルールベースでアノテーションしてどれくらいの精度が出るか楽しみです。