[Node.js] puppeteerでスクレイピングしてみる

puppeteerとChromeのヘッドレスブラウザを使って、スクレイピングする方法を書いていきます。

puppetter

GoogleのチームによってNode.jsで作成された、ブラウザを操作するためのライブラリです。

https://github.com/GoogleChrome/puppeteer

 

puppeteer VS selenium

これまでブラウザを操作する際に、seleniumを使うと思います。

じゃあ、puppeteerもseleniumもブラウザを使うんやったら、どっちをつかたらいいの??となります。

この問いに、Googleチームは以下のリンク先でちゃんと答えていました。

https://github.com/GoogleChrome/puppeteer#q-is-puppeteer-replacing-seleniumwebdriver

要するに、

  1. puppeteerは、Chromeに特化したライブラリなので、Chromeでしか利用できない。
  2. puppeteerは、設定などがいらないので、簡単に始めることができる。
  3. イベント駆動アーキテクチャを利用しているので、sleep(1000)などのように、処理を待つコードを書かなくてもいい。
  4. ヘッドレスでもヘッドありでも利用できる。

 

Chromeでしか利用できないので、IEなどのブラウザ操作をしたいときは、seleniumを使うべきですね。

 

コード例

 

 

まとめ

簡単にブラウザ操作できるので、便利ですね。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA