論文解析

HOME
自然言語処理
論文解析
Biopythonを使ってPMCから論文取得

2019年9月15日 / 最終更新日時 : 2020年7月13日 roy29fuku 論文解析

Biopythonを使ってPMCから論文取得

おさらい

PubMed: 生命医学文書のインデックス
PMC: 生命医学文書フルテキストのアーカイブ
ClinicalTrials.gov: 臨床試験のデータベース

PubMedにはMeSH termやPublication Typeなどのメタデータが付与されていますが、テキストはAbstractしか入手できません。PMCはfull textが取得できますが、PubMedのように複雑な検索ができません。

PubMedで特定の条件に合致する論文を検索、PMCからfull textを入手する一連の流れをまとめました。

1 対象
2 Biopythonインストール
3 PMIDを取得
4 論文を取得
5 PMIDに対応するPMCIDを取得
6 全文を取得
7 参考

対象

課題をRandomized Controlled Trialのテキストを探すことに設定します。

filed Publication TypeにRandomized Controlled Trialを指定して検索します。49万件ヒットしました。

まずはこれらの書誌情報やAbstractを機械的に取得することを目指します。

色々使うので用語を整理します

Entrez Programming Utilities (E-utilities): NCBIのデータベースを操作するためのプログラムの総称
- ESearch: 検索機能
- EFetch: ダウンロード機能
BioPython: Entrezのラッパーとして使えるPythonライブラリ

Biopythonインストール

pipでインストール可能です。

pip install biopython

PMIDを取得

ESearchを使ってまずはダウンロードしたい論文のPMID (PubMed ID)を取得。

from tqdm import tqdm
from Bio import Entrez

Entrez.email = YOUR_EMAIL

pmids = []
term = 'Randomized+Controlled+Trial[pt]'
db='pubmed'
retmax = 1000

handle = Entrez.esearch(db='pubmed',term='Randomized+Controlled+Trial[pt]')
record = Entrez.read(handle)
count = int(record['Count'])

for retstart in tqdm(range(0, count, retmax)):
    handle = Entrez.esearch(db=db, term=term, retmax=retmax, retstart=retstart)
    record = Entrez.read(handle)
    pmids.extend(record['IdList'])

スペースを挟む連語を検索ワードに使うときは+で繋ぎましょう。[pt]はpublication typeです。はじめからfree full textのものだけを取得したければterm = 'Randomized+Controlled+Trial[pt] AND free+full+text[sb]'とします。細かいオプションなどは公式を確認してください。

ESearch

RCTは49万件、そのうちfree full textにアクセス可能なものは13万件あります。

論文を取得

EFetchを使って前項で取得したPMIDの論文を取得します。

retmax = 1000
for i in tqdm(range(0, count, retmax)):
    handle = Entrez.efetch(db='pubmed', id=pmids[i:i+retmax], retmode='xml')
    text = handle.read()
    with open('{}-{}.xml'.format(i, i+retmax), 'w') as f:
        f.write(text)

こんな感じで書誌情報とともにAbstractを取得できます。

https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=11748933,11700088&retmode=xml

詳細は公式。

EFetch

EntrezではEFetchに200より多いIDを渡す場合はPOSTメソッドを使うように言われています。Biopythonでは自動でよしなにしてくれます。ちなみに10,000件一気に取ろうとしたら1リクエスト2分半かかりました。

PMIDに対応するPMCIDを取得

PMCにフルテキストがある論文はLinkOutにPMCへのリンクがあります。

https://www.ncbi.nlm.nih.gov/pubmed/31360445

ただしfree full textの条件を入れたとしても、必ずしもPMCIDが紐づいているとは限りません。以下一例。

https://www.ncbi.nlm.nih.gov/pubmed/31503307

先ほど取得したPubMedの情報からPMCIDを取得することができますXMLのArticleIdListに記述されています。

<ArticleIdList>
    <ArticleId IdType="pubmed">31360445</ArticleId>
    <ArticleId IdType="doi">10.7189/jogh.09.020402</ArticleId>
    <ArticleId IdType="pii">jogh-09-020402</ArticleId>
    <ArticleId IdType="pmc">PMC6657003</ArticleId>
</ArticleIdList>

ID Converter APIを叩いて確認することもできます。1リクエスト200 IDまでという点に注意します。

tool = YOUR_TOOL_NAME
email = YOUR_EMAIL

ids = []
retmax = 200
for i in tqdm(range(0, len(pmids), retmax)):
    url = 'https://www.ncbi.nlm.nih.gov/pmc/utils/idconv/v1.0/?tool={}&email={}&email&ids={}&format=json'.format(tool, email, ','.join(pmids[i:i+retmax]))
    r = requests.get(url)
    j = json.loads(r.text)
    ids.extend(j['records'])

print(sum([1 for id in ids if 'pmcid' in id))

Publication Type: Randomized Controlled Trialでヒットした49万件のうち8.5万件のfull textがPMCで公開されていることがわかりました。

全文を取得

再びEFetchを使ってPMCから全文を取得します。

pmcids = [id['pmcid'] for id in ids if 'pmcid' in id]
retmax = 1000
for i in tqdm(range(0, len(pmcids), retmax)):
    handle = Entrez.efetch(db='pmc', id=pmcids[i:i+retmax], rettype='full', retmode='xml')
    text = handle.read()
    with open('{}-{}_pmc.xml'.format(i, i+retmax), 'w') as f:
        f.write(text)

先ほどのPubMedのデータとマージすればMeSHなどのメタデータと全文を合わせたものが入手できます。

だいたいこんな感じ。ジャーナルや論文自体のメタデータはPubMedのデータとダブりあり。

ただし出版社によってはfull textのダウンロードを禁じている場合があります。その場合は4行目に”The publisher of this article does not allow downloading of the full text in XML form.”とコメントが入ります。

fukuの犬小屋

Biopythonを使ってPMCから論文取得

対象

Biopythonインストール

PMIDを取得

論文を取得

PMIDに対応するPMCIDを取得

全文を取得

参考

関連記事

コメントを残すコメントをキャンセル

対象

Biopythonインストール

PMIDを取得

論文を取得

PMIDに対応するPMCIDを取得

全文を取得

参考

共有:

関連記事

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル