【AWS】スクレイピング中にグーグルのreCAPTCHAが出てきて困った。
AWSサーバーを使ってグーグル関連のページをいろいろスクレイピングをする実験をしてるんだけど、ときどきreCAPTCHAの認証画面が出てくることがある。
「私はロボットではありません」みたいな画面が出てきて、クリックしないと先に進めなくなるアレ。
体感的に3日くらいスクレイピングを続けていると、グーグル側から怪しまれてこの状態になってしまう。キャプチャを外さないとスクレイピングが続行できないので、かなり悩ましい問題・・。
いろいろ考えた末に、苦し紛れの対処法として、下記の記事みたいにスクレイピングサーバーでGUIを利用できるようにして、ブラウザ越しにグーグルを閲覧できる構成にした。
Amazon Linux2(CentOS)をGUI化する - Qiita
もしreCAPTCHA画面が出てきたら、スクレイピングサーバーから自分に向けてメールで通知。自分はサーバーにリモートアクセスして、ブラウザから目視で認証ボタンをクリックして、reCAPTCHAをクリアするというもの。
なんだか手動のダサい方法だけど、これしか思いつかなかった・・。
こういうことをあんましやりすぎるとグーグルに迷惑をかけてしまうかもしれないので、真似をする人はあくまで実験くらいにとどめておいてください・・。