「Goutte」で対象ページ中の全リンクURLを取得する
最近GoutteというPHPのスクレイピングライブラリをいじって遊んでる。
いろんなブログをスクレイパーで巡回して、良さそうな記事をピックアップして楽しむのが目的。
以下のコードは、GoutteでHTMLページを読み込んで、その中の全「aタグ」を解析してリンクしてるURLを抽出する処理。
//インスタンス生成 $client = new Goutte\Client(); $crawler = $client->request('GET', 'http://hogehoge.com'); //全リンクを取得 $urls = $crawler->filter('a')->extract('href'); print_r($urls);
え、これだけでいいの・・?実行すると以下のようにページ中の全リンクURLが配列で返却される。
Array ( [0] => http://ero.net/ [1] => http://hentai.com/ [2] => http://oppai-ippai.go.jp/ )
わあ素晴らしい、スクレイピングってこんな簡単にできるのね・・!