やったこと

webサービスを作るときに考えたことを垂れ流します

ブログ記事をパクるスクレイピングサイトをアクセス遮断する!

ブログ記事を書いてると、他のサイトにそっくり内容をパクられることがあります。

他人の記事を大量に自動収集して、自分のものとして掲載してアフィ収入を荒稼ぎする。こういうサイトをスクレイピングサイトといいます。

パクリサイトにせっかく書いた記事を奪われると腹が立ちますね。なのでこういう悪いサイトはアクセス制限をかけて遮断してしまいましょう。

アクセス遮断方法:

スクレイパーIPアドレスを調べる
httpdアクセスログからスクレイパーIPアドレスを調べます。
→(ログ:/var/log/httpd/access_log)

スクレイパーは、あなたのサイトのRSSを読み込んで記事を盗むことが多いです。なので、自サイトのRSSのURLにアクセスしてるアドレスを抽出しましょう。このアドレスが容疑者です。

スクレイパースクレイピングに使うサーバとパクリサイトのサーバを併用してる場合が多いです。なので抽出したアドレスをwebブラウザに入力してみましょう。パクリサイトが表示されたらそのアドレスはビンゴです。

スクレイピングにするときに独自のアドレスを使い分けてる場合はなかなか対処が難しいですね・・・。ログのアクセス時刻とかユーザーエージェントの情報からあやしい奴を推測するしかなさそうです・・・。

.htaccessでアクセス遮断
犯人のIPアドレスが割れたので.htaccessに書き込んでアクセス遮断してしまいましょう。

Order allow,deny
Allow from all
Deny from x.x.x.x/32
Deny from xx.xx.xx.xx/32
Deny from xxx.xxx.xxx.xxx/32

上記の記述で「x.x.x.x」「xx.xx.xx.xx」「xxx.xxx.xxx.xxx」の三匹のノードのアクセスを遮断しています。

以上で悪いサイトからのアクセスを遮断できているはずです。今夜記事がパクられないかどうか様子を見てみるぞ・・・。

P.S.
ワードプレスでブログを書いてる人は「PubSubHubbub」というプラグインを入れるとパクリ対策になりそうです。このプラグインを入れると即効でグーグルが記事をインデックスしてくれるようになるので、「パクリサイトに検索で負けてしまう」という事態を防止できます。グーグルの開発責任者マッツ・カットさん推奨のプラグインなので、安心して使えそうですね。