アクセスしてくる bot

 Web サイトに対する bot に行儀がいい boto と行儀の悪い bot がいるかどうかわかりませんが、

  • クロールの頻度がそれほど高くない。(web サーバに負荷をかけない)
  • ユーザーエージェントに bot への説明リンクがある。
  • robot.txt に従う。(robot.txt で拒否できる)
  • 存在しないページをクロールしない。
  • リモートホストで bot かどうか判断できる。

このあたりを判断の基準にしています。

Webalizer の出力で、応答コードごとのヒット数を見ると、404 エラーがあれば、ほぼ、頭の悪い(性格の良くない)bot の可能性があります。この数が多ければ、頭の悪い bot が多くアクセスしているのだと思います。

 このサイトでユーザーエージェントや、リモートサイトで確認できる bot は以下のとおりです。

  • googlebot.com
  • search.msn.com
  • mj12bot.com
  • semrush.com
  • webmeup.com

 サーチエンジンの bot と思われる googlebot.com とsearch.msn.com は別として、簡単に見つけられるこれらの bot はまだマシな方だと思います。

 応答コードを見ると、先月の 404 は全体の 2 % 弱でした。それほどではありませんが高めだとは感じています。幸いにも、mj12bot.com、semrush.com、webmeup.com は、robot.txt で拒否できるようなので、もっと高くなったら拒否してみます。

 気になる応答コードは、「Code 401 – Unauthorized」です。これは先月 12 ありました。うーん、数は多くないけれど、多分これは、WordPress のダッシュボードにかけているベーシック認証に引っかかっているのだと思います。まあ、ベーシック認証でもかけておいてよかったということでしょうか。

web サイト

Posted by sirius