2005年01月15日
ロボ避けを仕掛けてみる
◆◆ robots.txt ◆◆
他の場所(他ドメイン・他鯖)で、robots.txt による
ディレクトリ単位丸ごと目隠しはやったことあるのだが
(例)
User-agent: *
Disallow: /xx/
今の本鯖(6890.net)は可能な限り
手間暇かけて鍵掛けたって裏口から入り込んでくる奴は必ず居る
↓
ネットに置いたものは誰に覗かれてもしゃーない
というポリシーでやっていこうと思ってるので、
そもそも robots.txt やら .htacces やらに凝る気はなかった訳だ。
でも、どうも挙動不審(一日に3桁くらいのアクセス回数がある)な
しかも有名どころのロボットの存在を目の当たりにして、
折角自由にCGI置ける場所を確保しているのだから
それなりに自己防衛せねばな、と思った次第。
従って、今回の目的は部外者全般を制限する訳ではなく
特定の格別迷惑な(=余計な鯖負荷を増やす)ロボットのみを追い返す
ことにあるので、そういう robots.txt のための情報を漁って
自分なりにまとめてみた。
- User-agent: hoge[改行] Disallow: /[改行] ←の型を列挙すれば複数ロボットを拒否可。
- Disallow: *.JPG$ とすると『拡張子JPGのファイルは見せない』指定となる。
- Yahoo!→slurp、Google→Googlebot、MSN→msnbot、Naver→NaverBot*、archive.org→ia_archiver
- robot.txt にアクセスするロボットも居るので、robots.txt と robot.txt 両方用意すべし。
- http://〜 として、外部から見てトップに当たる場所に置くこと。
◆◆ .htaccess ◆◆
IPやドメイン単位ではじきたい時はこっちを使う。
例)
Order Allow,Deny
Allow from all
deny from ppp01.aaa.ne.jp ←特定のアドレス
deny from .bbb.co.jp ←特定のドメイン
deny from 125.99. ←特定のIP 125.99.*.*
order deny,allow
deny from all
order deny,allow
allow from all
こんな感じで、今から実際にやってみようと思う。
====
◆過去記事参照:やはりロボット対策は要るのか(-_-)
Trackback on "ロボ避けを仕掛けてみる"
このエントリーのトラックバックURL:
"ロボ避けを仕掛けてみる"へのトラックバックはまだありません。
"ロボ避けを仕掛けてみる"へのコメントはまだありません。