クローリングのフェーズと構成要素を徹底解説

クローリング、スパイダー、ボット——これらはSEO担当者なら誰もが日常的に扱う用語であり、ランキング戦略において欠かせない重みを持っています。なぜなら、このフェーズが失敗すれば、その後のすべても失敗するからです。
ウェブクローリングプロセスが何で構成されているか、詳しく見ていきましょう。
ウェブサイトをクロールするとはどういう意味か?
先に進む前に、Googleの検索結果に表示されるためのあらゆる試みの中でこのプロセスがどれほど重要かを示しながら、ウェブサイトをクロールするプロセスを定義しましょう。
ウェブサイトをクロールするとは、スパイダーやクローラーがウェブサイトのさまざまなページを巡回し、アクセス可能なすべての情報を集めて、保存し、処理し、後で分類するプロセスを指します。
今述べた定義の中の重要な用語をいくつか強調しておきましょう:
-
巡回:実際にスパイダー(クモ)を思い浮かべてください。この親しみやすい昆虫は、できるだけ多くの情報を抽出するために、できるだけ多くのページを通過しなければなりません。あるページから別のページへ移動するために、それらをつなぐ内部リンクを通じて移動します。だからこそ、これらのスパイダーが——全部とは言わないまでも——少なくとも私たちにとって最も関連性の高いページを「発見」できる正しい内部リンクを持つことが重要なのです。
-
アクセシビリティ:情報はこれらのスパイダーにとってアクセス可能でなければなりません。つまり、何らかの形で意図的または誤ってアクセスを制限していると、スパイダーがすべてのコンテンツを処理できないことになり、したがって理解し、最終的に分類することもできなくなります。
このページコンテンツのブロックや制限はさまざまな形で発生する可能性があり、この記事の後半で詳しく説明します。
クローラー
スパイダー、別名クローラーまたはボットについて話してきました。これらは、ウェブサイトのドキュメントを分析するプログラム、つまり**「司書」のようなもの**で、検索、分類、整理を行います。彼らの主な機能はデータベースを構築することです。収集する情報の種類によっていくつかのタイプがあります。最も一般的なものをいくつか挙げましょう。
Googlebot:私たちのコンテンツをクロールし、自然検索結果(SERP)の中で分類するスパイダーです。SEO担当者にとって最も重要なものです。
このタイプの中でいくつかのサブタイプを区別できます:
-
Googlebot(スマートフォン):モバイル版
-
Googlebot(デスクトップ版):デスクトップ版
-
Googlebot Images:画像のクロール担当
-
Googlebot News:ニュース用
-
Googlebot Video:動画用
ログで識別されたボットの例:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
これらだけではありません。Adsbot、Adsenseなど他にもあります。SEO業界に関連するものについてはすでに触れましたが、それらを区別することはこの記事の焦点ではありません。追加情報は次の**Google公式リンク**で確認できます。
Googleのクローリングとインデックスのプロセスのフェーズ
クローリングとは何か、誰がその機能を担当しているかを理解し、プロセスについて議論したので、より具体的に詳細を見ていきましょう。
第一フェーズ:クローリングと分類
私たちのページがGoogleの結果に表示されるプロセスは、すでに見たように、最初のクローリングフェーズを経て、スパイダー(クローラー)によって行われ、コンテンツを読み、解釈し、インデックスし、分類します。
詳しく分析したい新しい言葉が**「分類」**です。Googleは私たちのコンテンツを完全に、シンプルかつ素早く理解しなければなりません。なぜなら、後で見るように、Googleは私たちのウェブサイトに特定の時間を費やし、その時間内に私たちのコンテンツを「理解」し、ユーザーのさまざまな検索意図と結びつけなければならないからです。
だからこそ、現代のSEOでは**「検索意図(Search Intent)」**という言葉がよく聞かれるのです。Googleはその分類で検索意図を考慮し、それがSERPランキングで私たちのページが占める位置を定義するからです。
そのため、クローリングプロセスはきれいで、シンプルで、速く、障害物がない必要があります。すべてが明確で、私たちが正しく分類されるようにするためです。
第二フェーズ:インデックス
インデックスフェーズを忘れてはいけません。これは分類の前段階であり、根本的な役割も果たします。なぜなら、Googleがコンテンツをデータベースに追加するステップ、つまりインデックスする段階だからです。

Googleのロボットをブロックする
これらのスパイダーがコンテンツにアクセスするのを制限する方法があると先ほど触れました。これには、SEOにおいて非常に重要な要素であるrobots.txtがあります。
robots.txtファイルはテキストファイルで、サーバーにアップロードし、各種スパイダーに対して、サイト内のURLのクロールを許可するか、ブロックするかの正確な指示を与えます。このブロックは以下に適用できます:
-
ドメイン全体に
-
特定のパスに
-
特定のURLに
-
または特定のパターンに一致するURLのセットに
このファイルの設定例を見てみましょう:
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
ご覧のように、最初の行でユーザーエージェントを指定します(前述のクローラーのうち、ブロックまたは許可したいクローラーの名前)。その後に、入場を禁止する「disallow」または許可する「allow」の命令が続きます。
ここで見る具体的な例では、*で示すことで「すべてのクローラー」を例外なく指しています。/wp-admin/パスへの侵入を禁止していますが、そのパス内では/admin-ajax.phpへの侵入を許可したいと言っています。
このファイルの設定が正しくないと、コンテンツの重要な部分をブロックしてしまう可能性があります。ウェブサイトを開発中はサイト全体をブロックしておき、本番運用に移した後にそのブロックを外すのを忘れてしまい、Googleがアクセスできない状態にしてしまうのは、よくあるミスです。
Googleのスパイダーがコンテンツをクロールする際に遭遇する可能性のあるもう一つの問題は、ウェブサイト上の内部リンクをたどれないため、他のURLにアクセスできないことです。これはリンクで「href」の代わりにJavaScript要素を使用している場合に起こります。この手法は非常に一般的です。なぜなら、JSの使用にはユーザーレベルで多くの利点があるからです。しかし、正しく使用されず、内部リンクに加えられると、Googleがそれらをたどれない場合があります。
SEO業界では、これは**「リンク難読化(link obfuscation)」**として知られています。今日現在、GoogleがJSで作られたページを正しくクロールしてレンダリングできるかどうかは、議論が続いている問題です。
サーバーレスポンスコード
このプロセスをよく理解し続けるために、SEO担当者が日常的に対処する必要のある概念であるサーバーレスポンスコードを見過ごすことはできません。
先ほど、Googleが私たちを見つけるサイクルを見ましたが、これはどのように起こるのでしょうか? ユーザーがGoogleで検索(クエリ)を実行します。検索エンジンはデータベースに行き、その検索に対して行われた分類に従って、最も関連性の高い結果(SERP)を表示します。
ユーザーがさまざまな結果(インプレッション)を見たら、判断で最もニーズに合うと思うものをクリックします。その瞬間、ウェブサイトがホストされているサーバーへのGoogleのリクエストが発生し、コンテンツを「提供」します。
これが起こるとき、対応するコードを通じてサーバーレスポンスが生成されます。SEO担当者として考慮すべき最も重要なものを挙げてみましょう:
-
200:このレスポンスコードは、ページが存在し、コンテンツがあり、表示するのに問題がないことをGoogleに伝えるものです。SEO担当者にとって最も望ましいもので、コード200のページのコンテンツが最適である限り、最高です。
-
30x:30x系ステータスコードはリダイレクトに対応します。最も注目すべきは301(恒久的)、302、307(一時的)です。基本的にGoogleに「ねえ、君がリクエストしたURL Aはもうこれじゃない、別のURL Bだよ」と伝えます。他にもありますが、今展開している概念の焦点ではありません。SEO担当者として知っておくべきは、好まれるのはオーソリティをすべて引き継ぐ301であるということです。
おすすめの読み物:301リダイレクトのチュートリアル
-
40X:エラーコード。SEO担当者にとって最も望まれないものです。最も一般的なのは有名な404です。このコードが現れたとき、私たちはGoogleに対してURLのリクエストへの応答として、「もう存在しない、つまりエラーだ」と伝えていることになります。
-
410:そのSEO的価値から、40x系から特別に取り上げました。このコードを使用するときは、GoogleのサーバーからのURLのリクエストへの応答として、「永遠になくなった」と伝えています。404と異なり、Googleはそれが二度とそこにないことを理解し、クロールしようとするのをやめるため、興味深いです。一方、404の場合、私たちが修正したいかもしれないと考えて再びクロールします。
-
50x:このタイプのレスポンスはサーバーエラーに関連しています。何らかの理由で機械が故障し、GoogleがあるURLのコンテンツをリクエストしようとして、サーバーが故障している場合、505ステータスコードを返します。
クロールバジェット
ここまできて、SEO業界でここ数年人気になった「クロールバジェット」という用語を扱う必要があります。
クロールバジェットとは、GoogleのスパイダーがウェブサイトとそのすべてのURLをクロールするのに費やす時間を指します。先ほど述べたように、それは有限の時間です。だからこそ、その時間内にサイトの最も関連性の高いページを見せやすくするために、ウェブサイトを最適化することが重要です。
クローラーが私たちのウェブサイトを巡回するこの時間は固定値ではなく、コンテンツを更新する頻度、ドメインのオーソリティ(人気)などの側面によって増減します。
ウェブサイトの品質が高く、オーソリティが大きく、新鮮なコンテンツが多いほど、Googleは私たちをより関連性が高いと見なし、クロールにより多くのバジェットを割り当てます。
Screaming Frogなどのクローリングプログラムでは、ウェブサイトの理想的にシミュレートされたクロールを行います。つまり、スパイダーが私たちのすべてのURLを巡回するのに無限の時間があるかのようにです。
しかし、Googlebotについて話すとき、これは実際の動作とは違います。むしろ、Googleが私たちのウェブサイトを訪れるたびに、特定のURLを他のものよりも多く訪れます。実際、まったく訪れないものもあるかもしれません。これはサーバーログ(GoogleがどのURLをクロールしたか、どれくらいの頻度で、特定の期間内に何回行ったかの記録)として知られているもので分析します。
ここまでが、クローリングとは何かを理解することと、Googleのクローリングシステムを構成するさまざまな要素に関するすべての分析です。
質問や提案はありますか?いつものように…ぜひお知らせください!
著者: David Kaufmann

私はこの10年以上、SEOに完全に夢中になって過ごしてきました。正直なところ、他の生き方は考えられません。
私のキャリアが新たな次元に到達したのは、Chess.com でシニアSEOスペシャリストとして働いたときでした。Chess.com はインターネット全体で最も訪問数の多い上位100サイトの1つです。数百万ページ、数十言語、そして最も競争の激しい SERPs の1つという規模で仕事をした経験は、どんなコースや資格でも得られないことを教えてくれました。あの経験は、本当に優れたSEOとは何かという私の視点を一変させ、それ以降に私が築いてきたすべての土台となりました。
その経験から、私は SEO Alive を創業しました。オーガニック成長に本気で取り組むブランドのためのエージェンシーです。私たちは dashboards や月次レポートを売るためにここにいるのではありません。本当に成果を動かす戦略を構築するためにここにいます。クラシカルなSEOの最良の部分と、Generative Engine Optimization (GEO) というエキサイティングな新しい世界を組み合わせ、あなたのブランドが Google の青いリンクだけでなく、ChatGPT、Perplexity、Google AI Overviews が毎日何百万人もの人々に届けている AI 生成の回答の中にも確実に表示されるようにします。
そして、この両方の世界をきちんと扱えるツールが見つからなかったので、自分で作りました。それが SEOcrawl です。rankings、テクニカル監査、backlinks モニタリング、crawl ヘルス、そして AI ブランド可視性トラッキングを1つの場所に統合した、エンタープライズ向けのSEOインテリジェンスプラットフォームです。まさに、ずっと存在してほしいと願っていたプラットフォームです。
この著者の他のコンテンツをご覧ください

