(死ねじゃないよ!シャインだよ!)
先日の事もあるので定期的にサーバー(coreserver)の負荷率を調べてるわけですが
うぉっ!2000ptこえてる。これはshareにならん!(シェアじゃないよ!シャレだよ!)
っていうかよく注意されないな、うち。同じサーバーの人ごめんなさい。これから改心します。
で、相変わらずgooglebotはナゾの単語でサイト内検索をかけておるようなんですが、最近は日に数件程度。
さすがにそれではここまでの負荷かからねーだろ、という事で休日だしアクセス履歴をよーく見てみると
Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
とかいうユーザーエージェントの人が
数分に一回、色んなページを見てまわってる。
なんと!読むのが早い人だね!shine!(死ねじゃないよ!シャインだよ!)
うちの場合、個別エントリーはアクセスがある度に毎回サーバーが作り出しているので、そんなほいほい次から次へ読み込まれると大変なんだよ!!
(実際にはキャッシュがあるので「毎回」というには語弊があるが。)
で
Baiduspider - Wikipedia
過去には非常に短い間隔で次々とリクエストを行うなどの問題によって、ウェブサーバを不安定に陥れる可能性があることからアクセス拒否を行うサイトも見られた。
これに対し、百度は日本向けウェブサイトにおいてBaiduspiderが過剰な負荷をかけたことを謝罪するとともにクローリングの頻度管理を統一するなどの対処策を発表している。
とかいう事で
ヘルプセンター - 検索全般について(利用環境について)
複数のBaiduspiderが巡回する際、1台のサーバへのリクエスト数は制限しています。
しかし、1台のサーバに複数のIPアドレスが割り当てられていると、複数のサーバと認識され、リクエスト数が増加する場合があります。
へー、そうなんだ………ってなんと!一日に767件もページ取得しといて「制限しています」とな!?(AA略
んで、本来でいうと、Robot.txtっていうファイルを置いて
-''":::::::::::::`''> もうちょっと優しくアクセスしてね! <
ヽ::::::::::::::::::::: ̄^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^ ̄
|::::::;ノ´ ̄\:::::::::::\_,. -‐ァ __ _____ ______
|::::ノ ヽ、ヽr-r'"´ (.__ ,´ _,, '-´ ̄ ̄`-ゝ 、_ イ、
_,.!イ_ _,.ヘーァ'二ハ二ヽ、へ,_7 'r ´ ヽ、ン、
::::::rー''7コ-‐'"´ ; ', `ヽ/`7 ,'==─- -─==', i
r-'ァ'"´/ /! ハ ハ ! iヾ_ノ i イ iゝ、イ人レ/_ルヽイ i |
!イ´ ,' | /__,.!/ V 、!__ハ ,' ,ゝ レリイi (ヒ_] ヒ_ン ).| .|、i .||
`! !/レi' (ヒ_] ヒ_ン レ'i ノ !Y!"" ,___, "" 「 !ノ i |
,' ノ !'" ,___, "' i .レ' L.',. ヽ _ン L」 ノ| .|
( ,ハ ヽ _ン 人! | ||ヽ、 ,イ| ||イ| /
,.ヘ,)、 )>,、 _____, ,.イ ハ レ ル` ー--─ ´ルレ レ´
とbot達に指示を出すらしいんですが、なんかチラッとログ見たらBaiduspiderったらRobot.txt読みに来てないし。
え?待って?それって意味なくね?
という事で、さらにアクセスログとにらめっこして、各検索エンジンのBOTがRobot.txt読んでるのかどうかまとめてみました。
|
日付 |
ユーザーエージェント |
Robot.txt読んでる? |
アクセス数 |
|
3月21日 |
Baiduspider+ |
× |
715 |
|
Naverbot |
○ |
74 |
|
|
Googlebot |
○ |
10 |
|
|
Yahoo! Slurp |
○ |
23 |
|
|
YodaoBot |
○ |
9 |
|
|
YodaoBot-Image |
× |
274 |
|
|
msnbot-media |
○ |
14 |
|
|
3月20日 |
Baiduspider+ |
× |
808 |
|
Naverbot |
○ |
68 |
|
|
Googlebot |
○ |
39 |
|
|
YodaoBot |
○ |
21 |
|
|
YodaoBot-Image |
× |
259 |
|
|
3月19日 |
Baiduspider+ |
× |
503 |
|
Naverbot |
○ |
64 |
|
|
Googlebot |
○ |
44 |
|
|
Yahoo! Slurp |
○ |
23 |
|
|
YodaoBot |
○ |
8 |
|
|
YodaoBot-Image |
○ |
327 |
|
|
msnbot-media |
○ |
2 |
|
|
3月18日 |
Baiduspider+ |
× |
473 |
|
YodaoBot-Image |
○ |
87 |
|
|
3月17日 |
Baiduspider+ |
× |
446 |
|
3月16日 |
Baiduspider+ |
× |
463 |
大手どころは日に一回ちゃんと読んでる様子。
あとチェックしてて気付いたのは、Baiduspiderと似たよーな事をしているYodaoBot-ImageというBOTの存在。
ただこちらは毎日ではないながらも、一応Robot.txtへのアクセスが有り。
対して、ちっともRobot.txtにアクセスしてこないBaiduspider+
まぁ、たった6日分まとめただけなのであてにならないかもしれないけれども、だ。
/ ヽ
// ', 他社にできない事を
| { _____ | 平然とやってのけるッ!
(⌒ヽ7´ ``ヒニ¨ヽ
ヽ、..二二二二二二二. -r‐''′ そこにシビれる!
/´ 〉'">、、,,.ィ二¨' {. ヽ _ _ あこがれるゥ!
`r、| ゙._(9,)Y´_(9_l′ ) ( , -'′ `¨¨´ ̄`ヽ、
{(,| `'''7、,. 、 ⌒ |/ニY { \
ヾ| ^'^ ′-、 ,ノr')リ ,ゝ、ー`――-'- ∠,_ ノ
| 「匸匸匚| '"|ィ'( (,ノ,r'゙へ. ̄ ̄,二ニ、゙}了
, ヘー‐- 、 l | /^''⌒| | | ,ゝ )、,>(_9,`!i!}i!ィ_9,) |人
-‐ノ .ヘー‐-ィ ヽ !‐}__,..ノ || /-‐ヽ| -イ,__,.>‐ ハ }
''"//ヽー、 ノヽ∧ `ー一'´ / |′ 丿! , -===- 、 }くー- ..._
//^\ ヾ-、 :| ハ  ̄ / ノ |. { {ハ. V'二'二ソ ノ| | `ヽ
,ノ ヽ,_ ヽノヽ_)ノ:l 'ーー<. / |. ヽヽヽ._ `二¨´ /ノ ノ
/ <^_,.イ `r‐'゙ :::ヽ \ `丶、 |、 \\'ー--‐''"//
\___,/| ! ::::::l、 \ \| \ \ヽ / ノ
いや、待て。もしかしたらRobot.txt置いてないことを超能力的に察知して、だから敢えてアクセスないようにしているのかも。
なるほど!だとするといちいち確認しに来るBOTのほうが迷惑だね!ファイルがあるかどうか、超能力で察知するべきだね!うんうん!shine!!(死ねじゃないy(略
で、ついカッとなってarchivesフォルダ(と、念のためmtフォルダにも(サイト内検索よけ))に.htaccessで制限をかけてしまいましたとさ。
###Access deny###
SetEnvIf User-Agent "Baiduspider+" deny_ua
SetEnvIf User-Agent "YodaoBot-Image" deny_ua
order allow,deny
allow from all
deny from env=deny_ua
YodaoBot-imageも巻き添え。だって、Yodaoなんて国内では誰も使ってないでしょ。



コメントする