2005年01月15日

ロボ避けを仕掛けてみる

◆◆ robots.txt ◆◆

他の場所(他ドメイン・他鯖)で、robots.txt による
ディレクトリ単位丸ごと目隠しはやったことあるのだが

(例)
  User-agent: *
  Disallow: /xx/

今の本鯖(6890.net)は可能な限り

手間暇かけて鍵掛けたって裏口から入り込んでくる奴は必ず居る
   ↓
ネットに置いたものは誰に覗かれてもしゃーない

というポリシーでやっていこうと思ってるので、
そもそも robots.txt やら .htacces やらに凝る気はなかった訳だ。

でも、どうも挙動不審(一日に3桁くらいのアクセス回数がある)な
しかも有名どころのロボットの存在を目の当たりにして、
折角自由にCGI置ける場所を確保しているのだから
それなりに自己防衛せねばな、と思った次第。

従って、今回の目的は部外者全般を制限する訳ではなく
特定の格別迷惑な(=余計な鯖負荷を増やす)ロボットのみを追い返す
ことにあるので、そういう robots.txt のための情報を漁って
自分なりにまとめてみた。


  • User-agent: hoge[改行] Disallow: /[改行] ←の型を列挙すれば複数ロボットを拒否可。
  • Disallow: *.JPG$ とすると『拡張子JPGのファイルは見せない』指定となる。
  • Yahoo!→slurp、Google→Googlebot、MSN→msnbot、Naver→NaverBot*、archive.org→ia_archiver
  • robot.txt にアクセスするロボットも居るので、robots.txt と robot.txt 両方用意すべし。
  • http://〜 として、外部から見てトップに当たる場所に置くこと。

◆◆ .htaccess ◆◆

IPやドメイン単位ではじきたい時はこっちを使う。

例)
  Order Allow,Deny
  Allow from all
  deny from ppp01.aaa.ne.jp ←特定のアドレス
  deny from .bbb.co.jp ←特定のドメイン
  deny from 125.99. ←特定のIP 125.99.*.*
  
  order deny,allow
  deny from all
  

  
  order deny,allow
  allow from all
  


こんな感じで、今から実際にやってみようと思う。

====
◆過去記事参照:やはりロボット対策は要るのか(-_-)

Trackback on "ロボ避けを仕掛けてみる"

このエントリーのトラックバックURL: 

"ロボ避けを仕掛けてみる"へのトラックバックはまだありません。

Comment on "ロボ避けを仕掛けてみる"

"ロボ避けを仕掛けてみる"へのコメントはまだありません。

Post a Comment

コメントする
(HTMLタグは使用できません)
ブラウザに投稿者情報を登録しますか?(Cookieを使用します。次回書き込み時に便利です。)
  •  
  •