アクセスしてくる bot
Web サイトに対する bot に行儀がいい boto と行儀の悪い bot がいるかどうかわかりませんが、
- クロールの頻度がそれほど高くない。(web サーバに負荷をかけない)
- ユーザーエージェントに bot への説明リンクがある。
- robot.txt に従う。(robot.txt で拒否できる)
- 存在しないページをクロールしない。
- リモートホストで bot かどうか判断できる。
このあたりを判断の基準にしています。
Webalizer の出力で、応答コードごとのヒット数を見ると、404 エラーがあれば、ほぼ、頭の悪い(性格の良くない)bot の可能性があります。この数が多ければ、頭の悪い bot が多くアクセスしているのだと思います。
このサイトでユーザーエージェントや、リモートサイトで確認できる bot は以下のとおりです。
- googlebot.com
- search.msn.com
- mj12bot.com
- semrush.com
- webmeup.com
サーチエンジンの bot と思われる googlebot.com とsearch.msn.com は別として、簡単に見つけられるこれらの bot はまだマシな方だと思います。
応答コードを見ると、先月の 404 は全体の 2 % 弱でした。それほどではありませんが高めだとは感じています。幸いにも、mj12bot.com、semrush.com、webmeup.com は、robot.txt で拒否できるようなので、もっと高くなったら拒否してみます。
気になる応答コードは、「Code 401 – Unauthorized」です。これは先月 12 ありました。うーん、数は多くないけれど、多分これは、WordPress のダッシュボードにかけているベーシック認証に引っかかっているのだと思います。まあ、ベーシック認証でもかけておいてよかったということでしょうか。
ディスカッション
コメント一覧
まだ、コメントがありません