やったこと

webサービスを作るときに考えたことを垂れ流します

【AWS】スクレイピング中にグーグルのreCAPTCHAが出てきて困った。

AWSサーバーを使ってグーグル関連のページをいろいろスクレイピングをする実験をしてるんだけど、ときどきreCAPTCHAの認証画面が出てくることがある。
「私はロボットではありません」みたいな画面が出てきて、クリックしないと先に進めなくなるアレ。

体感的に3日くらいスクレイピングを続けていると、グーグル側から怪しまれてこの状態になってしまう。キャプチャを外さないとスクレイピングが続行できないので、かなり悩ましい問題・・。

いろいろ考えた末に、苦し紛れの対処法として、下記の記事みたいにスクレイピングサーバーでGUIを利用できるようにして、ブラウザ越しにグーグルを閲覧できる構成にした。
Amazon Linux2(CentOS)をGUI化する - Qiita

もしreCAPTCHA画面が出てきたら、スクレイピングサーバーから自分に向けてメールで通知。自分はサーバーにリモートアクセスして、ブラウザから目視で認証ボタンをクリックして、reCAPTCHAをクリアするというもの。

なんだか手動のダサい方法だけど、これしか思いつかなかった・・。

こういうことをあんましやりすぎるとグーグルに迷惑をかけてしまうかもしれないので、真似をする人はあくまで実験くらいにとどめておいてください・・。