Web

HOME
Web
SeleniumでPhantomJSを使ってスクレイピング

2017年12月22日 / 最終更新日時 : 2018年10月9日 roy29fuku Web

SeleniumでPhantomJSを使ってスクレイピング

【2018/10/9 追記】

PhantomJSは2018年3月に更新が終了しました。

Archiving the project: suspending the development

本記事のコードを実行しても以下のエラーが出るでしょう。

UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead

今後はChromeなどを使うのが良いでしょう。試してみました。

SeleniumでChromeDriverを使ってスクレイピング

【追記終了】

SPAではHTMLをロードした後にJavaScriptがページを生成します。

従って、単純にrequestsなどで取得したhtmlソースでは取得したい情報が得られません。

ここではSeleniumを使ってウェブブラウザを操作することで解決します。

環境

Mac
Python 3.4.1
selenium 3.8.0

SeleniumとPhantomJS

Selenium

Seleniumはウェブブラウザを操作するソフトウェアです。

例えば、ウェブページを開いてIDとパスワードを入力してログインする、ページの下までスクロールして読み込みを待つ、など単純にページを開くだけでなく操作を必要とするような場合に役に立ちます。

Seleniumが操作可能なブラウザはChrome、Firefoxなど多岐に渡ります。

Selenium – Web Browser Automation

PhantomJS

PhantomJSはヘッドレスなWebKitです。つまり画面がないブラウザのようなものです。

Seleniumのウェブドライバーとして選択可能です。

Selenium経由で操作することで、画面のないブラウザでJavascriptの挙動を考慮してウェブページを取り扱うことが可能です。

PhantomJS | PhantomJS

インストール


brew install phantomjs
pip install selenium

PhantomJS経由でウェブページを取得する


from selenium import webdriver

from bs4 import BeautifulSoup


driver = webdriver.PhantomJS()

url = 'http://google.com'

driver.get(url)

html = driver.page_source.encode('utf-8')

soup = BeautifulSoup(html, "html.parser")

これであとはsoupを煮るなり焼くなり処理すれば良いです。

テスト

では、JavascriptでHTMLが書き換えられるウェブサイトを例にテストをします。

PLOS Oneの検索結果画面を例にとります。

cancerで検索してみると、このような画面になります。

論文のタイトルが見えています。

検証ツールを使うと、searchResultsListの中にdt要素として格納されていることがわかります。

しかし、「ページのソースを表示」をしてみると中にはコードらしきものが入っていますが、実際のタイトルは記述されていません。

requests

これを単純にrequestsとBeautifulsoupで取得してみましょう。


import requests

from bs4 import BeautifulSoup


url = 'http://journals.plos.org/plosone/search?q=cancer&amp;filterJournals=PLoSONE'

html = requests.get(url).text

soup = BeautifulSoup(html, "html.parser")

target = soup.find(id='searchResultsList')

targetの中身を見てみます。


print(target) # None

中身は空でした。

Selenium + PhantomJS

ではSeleniumとPhantomJSを使ってみます。


from selenium import webdriver

from bs4 import BeautifulSoup


driver = webdriver.PhantomJS()

url = 'http://journals.plos.org/plosone/search?q=cancer&amp;filterJournals=PLoSONE'

driver.get(url)

html = driver.page_source.encode('utf-8')

soup = BeautifulSoup(html, "html.parser")

target = soup.find(id='searchResultsList')

targetの中身を見てみます。


print(target)

&lt;dl class="search-results-list" id="searchResultsList"&gt;
&lt;dt class="search-results-title" data-doi="10.1371/journal.pmed.1001200&gt;
&lt;a href="/plosmedicine/article?id=10.1371/journal.pmed.1001200"&gt;Ovarian Cancer and Body Size: Individual Participant Meta-Analysis Including 25,157 Women with Ovarian Cancer from 47 Epidemiological Studies&lt;/a&gt;
&lt;/dt&gt;
...

目的の要素が入っていました。

あとは必要に応じて加工してあげれば良いですね。

もっと詳しいことを知りたい方はPythonによるスクレイピング&機械学習がおすすめです。

SeleniumやPhantomJSの専門の話ではないですが、スクレイピング全般や作法、さらに機械学習の触りまで学習できて内容が広く勉強になりました。

参考

Pythonによるスクレイピング&機械学習

Selenium with Python — Selenium Python Bindings 2 documentation

fukuの犬小屋

SeleniumでPhantomJSを使ってスクレイピング

環境

SeleniumとPhantomJS

Selenium

PhantomJS

インストール

PhantomJS経由でウェブページを取得する

テスト

requests

Selenium + PhantomJS

参考

関連記事

コメントを残すコメントをキャンセル

環境

SeleniumとPhantomJS

Selenium

PhantomJS

インストール

PhantomJS経由でウェブページを取得する

テスト

requests

Selenium + PhantomJS

参考

共有:

関連記事

コメントを残すコメントをキャンセル