ムッシューの日記

2人の子供とのお出かけネタから趣味の釣りネタなど

サーバへのアクセスがgoogleのクローラか判別する方法


立ち上げたWEBサイトへのアクセスログを解析するとき、googleのクローラかどうか判別するための方法のメモ。

googleのウェブマスターツールにサイトを登録すると、googleから度々アクセス(検索に引っ掛けるための情報収取)があり、実際のユーザからのアクセスかどうか判断しずらくなります。

アクセスログのipアドレスのサーバをnslookupコマンドで確認する(Windowsの場合)

nslookupコマンドで、アクセス元のサーバを確認し、googlebot.comとなっていればクローラからのアクセスということになります。
逆にUnknown hostとかほかのプロバイダ系のものであれば、普通のユーザという判断ができます。


C:\Users\xxx>nslookup 66.249.79.16
サーバー: UnKnown
Address: 192.168.0.1

名前: crawl-66-249-79-16.googlebot.com
Address: 66.249.79.16

2015年3月に確認した感じでは「66.249.64.xx」~「66.249.93.xx」がgoogleのクローラになっていました。(xxは任意)

というわけで、解析するときはこのIPからのアクセスは除外すればよいということになります。(他の検索サイトやボットからもアクセスはあると思いますがとりあえず・・・)


次へ 投稿

前へ 投稿

© 2017 ムッシューの日記

テーマの著者 Anders Norén