外部サイトのHTMLをPHPのGoutteでスクレイピング

最初、curlでHTMLを読込、正規表現でタグの内容を取得しようとしていたがスタイルシートのURLも取得する必要があり、正規表現もめんどうと思い、探してみた。
いろいろなサイトにGoutteでスクレイピングというのがあり、タグの要素などは簡単にとれそうなのでこれを試すことにした。

Goutte

インストールは、composerでインストール。
依存ファイルがあるので、githubからダウンロードしたファイルだけでは動作しない。

いくつかのサイトを見たが、スタイルシートのhref属性を取得するようなサンプルはなかったんでメソッド関連を確認し、取得する方法がわかった。
メソッドは、依存関係にあるsymfonyのCrawlerクラスにあります。
/vendor/symfony/dom-crawler/Crawler.

プロキシを使用する場合

ちなみに、存在しないURLを読み込ませて、タグの内容を取得しようとするとエラーとなるので
try-catchしてます。
URLの読込時点ではエラーとならず、ノードの取得メソッドでエラーとなります。

」ってどう読むんだろうなぁと思い、「グット」とか「ゲット」とか書いてるページがあった。
英語じゃなくフランス語にこの単語があって「グットゥ」と発音するようだ。
フランス語の発音はむずかしいと思う・・・・

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です