10 月のアクセスログ(CCBOT)
10 月の Webalizer のレポートを見ました。
時々レポートを見ていたので、新たに対処が必要なものはなさそうです。404 エアラーも 2 % 以下になりました。
気になった bot が有ったので、調べてみました。UA が CCBot/2.0 (https://commoncrawl.org/faq/) です。
CCBot は非営利組織が運用しているようです。問題はなさそうなので、https://commoncrawl.org/ を開いてみました。
What to do with the crawled content?
http://commoncrawl.org/big-picture/frequently-asked-questions/
The crawl data is stored on Amazon’s S3 service, allowing it to be bulk downloaded as well as directly accessed for map-reduce processing in EC2.
Google さんにお願いして日本語にしてもらいます。
クロールされたコンテンツをどうするか?
クロールデータはAmazonのS3サービスに保存されるため、一括ダウンロードしたり、EC2でのmap-reduce処理のために直接アクセスしたりできます。
初めの方では次のように書いてあります。
What is Common Crawl?
http://commoncrawl.org/big-picture/frequently-asked-questions/
Common Crawl is a 501(c)(3) non-profit organization dedicated to providing a copy of the internet to internet researchers, companies and individuals at no cost for the purpose of research and analysis.
コモンクロールとは何ですか?
Common Crawlは、501(c)(3)の非営利団体であり、調査と分析を目的として、インターネットのコピーをインターネットの研究者、企業、個人に無料で提供することを目的としています。
コピーをインターネットの研究者、企業、個人に無料で提供
うん。スパマーやハッカーにデータが渡りますね。SHODAN と同じ感じです。全部のページに © マーク付けてるんですけどね。
まあ、「Web 魚拓」や 「Wayback Machine」なんかもあるので Web のコピーを保存すること自体は防げないし、仕様がないと思っています。しかし、これは絨毯爆撃のようにデータを収集し、まるごとデータを提供します。うん、迷惑です。
幸い、robots.txt に対応しているようなので、次を追加しました。
User-agent: CCBot
Disallow: /
後は特に気になるものはないようです。
ディスカッション
コメント一覧
まだ、コメントがありません