ウェブクローラ・Googlebotがサイトを巡回する時に、サーバ負荷が高いと判断した場合は巡回を控えるようにしている。Google社員のJohn Muller氏(Webmaster Trends Analyst)がコメントした。
レスポンスが遅く、クロールする前にすでにサーバ負荷が高い場合は、巡回することで更にサーバ負荷をかけてしまうことになるため、巡回しないとのこと。この問題は無料や激安サーバを利用している場合や、負荷が掛かるプログラムを動作させている場合に発生しがちである。解決するためには高性能なサーバへ移転する、サーバサイドのコードを最適化して高速化するなどの対応が求められる。
もっとも、本当にこの問題に対処しなければならないケースは、サイトが巨大で数千ページ以上ものコンテンツを提供しているにもかかわらず十分なページがインデックスされていない状況で、かつ、その根本的原因がサーバのレスポンスの悪さにあると判断できる場合に限る。なぜなら、ページ数がそう多くない、更新性がそれほど高くないのでれば頻繁なクローラ巡回を受け入れる必要はないからだ。また、豊富なコンテンツを持つ大規模なサイトの場合は、サーバが原因ではなく、そのサイトがGoogleから受ける重要度や人気度の評価が低いためにGoogleが巡回の必要なしと判断している可能性もあるからだ。つまり、実務上、サーバが問題になりうるケースは、個人運営のアフィリエイターや少人数企業が細々と運営する小さなサイトが大半になるのではないだろうか。
Hi Stuart Looking at your site, I do see that we'd like to crawl more from the server, but we're holding back because we think the server might not be able to handle the load. This is the reason why the Fetch as Google requests aren't making it through. In particular, we're seeing a fairly high response-time for URLs from the server, which often signals that the server is pretty busy even without us crawling. On the one hand, this is something you could work to resolve by seeing if you could speed up your site's hosting (perhaps optimizing your server-side code or moving to a slightly faster server). On the other hand, your website currently isn't that large & not constantly changing, so it's not really necessary for crawl 1000's of URLs every day from there. From that point of view, while we'd like to crawl more, I don't see it as being a critical problem for your site in particular. If users are happy with the speed of your site, then we can definitely live with it too :). Cheers John [John Mueller, Webmaster Trends Analyst at Google Switzerland, Google, Unable to crawl site. Not appearing in searches. Completely confused. Please help, 23 December 2013]
なお、Googleウェブマスターツール内で提供されているFetch as Googleを利用すると、自分のサイトがクロール可能な状態にあるか確認できる。Fetch as Google を利用してエラーが表示されるようなら、サーバ高負荷が原因で巡回が中止されている可能性を考えて良いだろう。
cf.
Googleウェブマスターツール、Fetch as Googlebotを提供開始、URL申請可能に
#
普通の企業でも激安のサーバ利用していて日中アクセスすると重たいことありますけどね。それでも、一般的に上記の事象は激安サーバや無料サーバを使っているケースが大半になると思います。この情報は、一般企業のSEO担当者が気にするお話ではありません。
クローラ性能が十分に高まってきたことで、数千万ページ以上規模のようなメガサイトでないと、普通は気にする必要がない事柄ですので、逆に何かトラブルが発生した時に、クローラ周りの可能性を考慮できないことがありますよね。「実は robots.txt でブロックしてました」とか「実は全ページに noindex nofollow 入れたままでした」みたいな(笑い)話を聞きますが…。