読者です 読者をやめる 読者になる 読者になる

やったこと

webサービスを作るときに考えたことを垂れ流します

「Goutte」で対象ページ中の全リンクURLを取得する

プログラミング

最近GoutteというPHPスクレイピングライブラリをいじって遊んでる。
いろんなブログをスクレイパーで巡回して、良さそうな記事をピックアップして楽しむのが目的。

以下のコードは、GoutteでHTMLページを読み込んで、その中の全「aタグ」を解析してリンクしてるURLを抽出する処理。

//インスタンス生成
$client = new Goutte\Client();
$crawler = $client->request('GET', 'http://hogehoge.com');

//全リンクを取得
$urls = $crawler->filter('a')->extract('href');
print_r($urls);


え、これだけでいいの・・?実行すると以下のようにページ中の全リンクURLが配列で返却される。

Array
(
    [0] => http://ero.net/
    [1] => http://hentai.com/
    [2] => http://oppai-ippai.go.jp/
)

わあ素晴らしい、スクレイピングってこんな簡単にできるのね・・!