<< 厄日だ || 営農サンバー ≫

百度(baidu)shine!!

| | コメント(0) | トラックバック(0) |[] 1357  

(死ねじゃないよ!シャインだよ!)

 

先日の事もあるので定期的にサーバー(coreserver)の負荷率を調べてるわけですが

08032201.jpg

うぉっ!2000ptこえてる。これはshareにならん!(シェアじゃないよ!シャレだよ!)

っていうかよく注意されないな、うち。同じサーバーの人ごめんなさい。これから改心します。

で、相変わらずgooglebotはナゾの単語でサイト内検索をかけておるようなんですが、最近は日に数件程度。

さすがにそれではここまでの負荷かからねーだろ、という事で休日だしアクセス履歴をよーく見てみると

Baiduspider+(+http://www.baidu.com/search/spider_jp.html)

とかいうユーザーエージェントの人が

08032202.jpg

数分に一回、色んなページを見てまわってる。

なんと!読むのが早い人だね!shine!(死ねじゃないよ!シャインだよ!)

うちの場合、個別エントリーはアクセスがある度に毎回サーバーが作り出しているので、そんなほいほい次から次へ読み込まれると大変なんだよ!!
(実際にはキャッシュがあるので「毎回」というには語弊があるが。)

Baiduspider - Wikipedia
 
過去には非常に短い間隔で次々とリクエストを行うなどの問題によって、ウェブサーバを不安定に陥れる可能性があることからアクセス拒否を行うサイトも見られた。
これに対し、百度は日本向けウェブサイトにおいてBaiduspiderが過剰な負荷をかけたことを謝罪するとともにクローリングの頻度管理を統一するなどの対処策を発表している。

とかいう事で

ヘルプセンター - 検索全般について(利用環境について)
 
複数のBaiduspiderが巡回する際、1台のサーバへのリクエスト数は制限しています。
しかし、1台のサーバに複数のIPアドレスが割り当てられていると、複数のサーバと認識され、リクエスト数が増加する場合があります。

へー、そうなんだ………ってなんと!一日に767件もページ取得しといて「制限しています」とな!?(AA略

んで、本来でいうと、Robot.txtっていうファイルを置いて

   _,,....,,_  _人人人人人人人人人人人人人人人_
-''":::::::::::::`''> もうちょっと優しくアクセスしてね! <
ヽ::::::::::::::::::::: ̄^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^ ̄
 |::::::;ノ´ ̄\:::::::::::\_,. -‐ァ     __   _____   ______
 |::::ノ   ヽ、ヽr-r'"´  (.__    ,´ _,, '-´ ̄ ̄`-ゝ 、_ イ、
_,.!イ_  _,.ヘーァ'二ハ二ヽ、へ,_7   'r ´          ヽ、ン、
::::::rー''7コ-‐'"´    ;  ', `ヽ/`7 ,'==─-      -─==', i
r-'ァ'"´/  /! ハ  ハ  !  iヾ_ノ i イ iゝ、イ人レ/_ルヽイ i |
!イ´ ,' | /__,.!/ V 、!__ハ  ,' ,ゝ レリイi (ヒ_]     ヒ_ン ).| .|、i .||
`!  !/レi' (ヒ_]     ヒ_ン レ'i ノ   !Y!""  ,___,   "" 「 !ノ i |
,'  ノ   !'"    ,___,  "' i .レ'    L.',.   ヽ _ン    L」 ノ| .|
 (  ,ハ    ヽ _ン   人!      | ||ヽ、       ,イ| ||イ| /
,.ヘ,)、  )>,、 _____, ,.イ  ハ    レ ル` ー--─ ´ルレ レ´

とbot達に指示を出すらしいんですが、なんかチラッとログ見たらBaiduspiderったらRobot.txt読みに来てないし。

え?待って?それって意味なくね?

 

という事で、さらにアクセスログとにらめっこして、各検索エンジンのBOTがRobot.txt読んでるのかどうかまとめてみました。

日付

ユーザーエージェント

Robot.txt読んでる?

アクセス数 

3月21日 

Baiduspider+

×

715 

Naverbot

74 

Googlebot

10 

Yahoo! Slurp

23 

YodaoBot

9 

YodaoBot-Image

×

274 

msnbot-media

14 

3月20日 

Baiduspider+

×

808 

Naverbot

68 

Googlebot

39 

YodaoBot

21 

YodaoBot-Image

×

259 

3月19日 

Baiduspider+

×

503 

Naverbot

64 

Googlebot

44 

Yahoo! Slurp

23 

YodaoBot

8 

YodaoBot-Image

327 

msnbot-media

2 

3月18日 

Baiduspider+

×

473 

YodaoBot-Image

87 

3月17日 

Baiduspider+

×

446 

3月16日 

Baiduspider+

×

463 


大手どころは日に一回ちゃんと読んでる様子。

あとチェックしてて気付いたのは、Baiduspiderと似たよーな事をしているYodaoBot-ImageというBOTの存在。

ただこちらは毎日ではないながらも、一応Robot.txtへのアクセスが有り。

対して、ちっともRobot.txtにアクセスしてこないBaiduspider+

まぁ、たった6日分まとめただけなのであてにならないかもしれないけれども、だ。

 

               . -―- .      さすが○○○!!」(ピーーー)
             /       ヽ
          //         ',      他社にできない事を
            | { _____  |        平然とやってのけるッ!
        (⌒ヽ7´        ``ヒニ¨ヽ
        ヽ、..二二二二二二二. -r‐''′     そこにシビれる!
        /´ 〉'">、、,,.ィ二¨' {.  ヽ     _ _      あこがれるゥ!
         `r、| ゙._(9,)Y´_(9_l′ )  (  , -'′ `¨¨´ ̄`ヽ、
         {(,| `'''7、,. 、 ⌒  |/ニY {               \
           ヾ|   ^'^ ′-、 ,ノr')リ  ,ゝ、ー`――-'- ∠,_  ノ
           |   「匸匸匚| '"|ィ'( (,ノ,r'゙へ. ̄ ̄,二ニ、゙}了
    , ヘー‐- 、 l  | /^''⌒|  | | ,ゝ )、,>(_9,`!i!}i!ィ_9,) |人
  -‐ノ .ヘー‐-ィ ヽ  !‐}__,..ノ  || /-‐ヽ|   -イ,__,.>‐  ハ }
 ''"//ヽー、  ノヽ∧ `ー一'´ / |′ 丿!  , -===- 、  }くー- ..._
  //^\  ヾ-、 :| ハ   ̄ / ノ |.  { {ハ.  V'二'二ソ  ノ| |    `ヽ
,ノ   ヽ,_ ヽノヽ_)ノ:l 'ーー<.  /  |.  ヽヽヽ._ `二¨´ /ノ ノ
/    <^_,.イ `r‐'゙ :::ヽ  \ `丶、  |、   \\'ー--‐''"//
\___,/|  !  ::::::l、  \  \| \   \ヽ   / ノ

 

いや、待て。もしかしたらRobot.txt置いてないことを超能力的に察知して、だから敢えてアクセスないようにしているのかも。

なるほど!だとするといちいち確認しに来るBOTのほうが迷惑だね!ファイルがあるかどうか、超能力で察知するべきだね!うんうん!shine!!(死ねじゃないy(略

で、ついカッとなってarchivesフォルダ(と、念のためmtフォルダにも(サイト内検索よけ))に.htaccessで制限をかけてしまいましたとさ。

###Access deny###
SetEnvIf User-Agent "Baiduspider+" deny_ua
SetEnvIf User-Agent "YodaoBot-Image" deny_ua
order allow,deny
allow from all
deny from env=deny_ua

YodaoBot-imageも巻き添え。だって、Yodaoなんて国内では誰も使ってないでしょ。

トラックバック(0)

このブログ記事を参照しているブログ一覧: 百度(baidu)shine!!

このブログ記事に対するトラックバックURL: http://www.smilebanana.com/mt/mt-tbx.cgi/1356

コメントする

このブログについて

  • 管理人はbananaです。
  • 連絡その他は

    まで。