- ジャンル:
- Diary, Rental Records
- シリーズ:
- 種類:
- 読みもの
- 最終更新:
- 2007年04月19日 21時17分
- シリアル:
- 2007-04-18-04
(2007年4月18日)
httpdのaccess_logがやけに太っているので調べてみたら、Googlebotが狂ったURIに対するGET要求を何万という単位で発行していらっしゃった。
"GET /2007-01-20-02.html%3C/Game/g_diary/GM/upbbs/CC/SidGame/civ4techinfo.html HTTP/1.1"なんてのが延々来てます。IPアドレスはGoogleの本物で、うちのサイトの場合、どうやらメニューバーに記載されたリンクの解釈に問題があるみたいだ。さてGoogleの中の人はいつ気付くのか。それともこっち側の問題? ……違うよなあ。
ほかのロボットからも変なリクエストが来た
(2007年4月19日)Googlebot以外のロボットからも、ぽつぽつ変なリクエストが来るようになった。たとえば、Yahoo! Slurpが、
- "GET /2005-12-14-07.htmlhttp://b.hatena.ne.jp/roe/GM/RR/Bookmarks/ HTTP/1.0"
- "GET /2005-12-14-07.htmlhttp://b.hatena.ne.jp/roe/CC/SimCity/spore_info.html HTTP/1.0"
なんて要求を出している。"http://〜"ではじまるはてなのURIが挟まっているのが、"%3C"ではじまっていたGooglebotの場合と異なるけれど、stack-style.orgのメニューバーに記載されたサイト内のURIを一部だけ切り出して連結したところはそっくりだ。
思いついたシナリオは:
- うちのサイトのどこかがバグっている
- はてなのURIが入っているのではてな絡み
- どこかの誰かが無限増殖系のコンテンツを作成しようとして失敗し、誤ったURIを大量に含むページがWebのどこかに誕生。ロボットがそれらのURIを逐一追いかけたせいで、爆撃に近い状況になっている
の3つ。
Web用スクリプトは一切変更していないのに突然エラーが増えたのと、URIの一部に、いままでリンクを張ったことがないはてなブックマークへのリンクが含まれているので、うちのサイトがバグっている線は薄そう。3. がいちばんありそうな気がするけど、ロボットはどこのリンクを辿ってきたのかリファラを残さないから、こちらとしては手の打ちようがない。どうしたらいいんだろう。