マウスの系統表現② 正規表現で系統を検索
正規表現でマウスの系統表現を検索。予想通りC57BL/6、BABL/cが多かったです。
ただし、一筋縄でいかない点もあり。。。
前回まで
マウスの系統の命名規則について調べました。
特別な遺伝的変異や交配を考えない場合、近交系・亜系統・ラボコードで構成されることがわかりました。
今回遺伝的変異についての命名規則を調べる予定でしたが、結構骨が折れそうだったので先に現段階でこれらベースの名前がどの程度抽出できるか試してみました。
方針
正規表現を使います。
先に触れた通り、亜系統やラボコードはベースの近交系の表現に続きます。
つまり、「近交系+任意の文字列」でカバーできるはずです。
検索
まずは前回スクレイピングした近交系をリストアップします。
以下の426種類がMouse Genome Informatioc(MGI)で公開されていた主要なマウス近交系です。
ただし、短い単語「A」や「CL」などの近交系は他の単語の頭文字としてヒットしそうです。
そこで思い切って今回は4文字以上のものだけを使います。
128種類まで減りました。
がん関連で動物実験の記述がありそうな論文48本を対象に上記の条件で走査します。
詳細な対象論文に関しては過去記事を参照ください。
49件ヒットしました。
周囲の表現が気になったので(遺伝子の表現など)前後2単語を表示します。
こんな感じ。ぱっと見でBALB/cとかC57BLが多い。
集計してみる。
結局BALB/cかC57BL/6。
ただし、純粋なものだけでなく、掛け合わせやラボコードがたくさんついていたり。
C57BL6の表記はスラッシュがないので普通に命名規則違反ですね。しっかりして欲しい。
STARという近交系があったのでSTARXLという記述がヒットしていますが、多分関係ないLC/MS/MSの機械の名前っぽいです。
ちなみに3文字にすると101、129、201などの近交系が数値表現を引っかけてしまいます。なぜそんな名前にした。。。
まとめ
元々の予想通りBALB/cとC57BL/6が多いという結果(この2つは近交系と亜系統なので同列に並ぶのは気持ち悪い)。
目で見てたときはマウスの系統情報として免疫不全関連の情報が多かったのでこちらも取得したいです。
nude、NOD、SCIDなどです。NODは近交系のリストにあるので追加したいです。他にもFVBなど3文字でもメジャーな近交系はあるのでマニュアルでリストに追加したい。
やっぱり結局は50本のアノテーションを終わらせてどういう系統表現が多いのか照らし合わせる必要があります。
頑張ってアノテーションするぞ。
明日中に48本分マウスの表現の部分だけアノテーションを終わらせたい。