クローラーとは？仕組み・種類・SEOで重要な理由をわかりやすく解説

クローラーとは、Webページを自動的に巡回して情報を収集するロボット（プログラム）のことです。

Googleの検索結果にページが表示されるには、まずクローラーにページを発見してもらう必要があります。クローラーが来なければ、どんなに良いコンテンツを作ってもGoogle検索には表示されません。

「クローラーってそもそも何？」「Googlebotにはどんな種類がある？」「巡回を促すにはどうすればいい？」という疑問をお持ちの方に向けて、クローラーの仕組みから実務で使える対策方法まで詳しく解説します。

クローラーとは？Webページを自動で巡回するロボット

クローラーは、インターネット上のWebページを自動的に巡回し、ページの内容を収集するプログラムです。「ボット」「スパイダー」「ロボット」と呼ばれることもあります。

Googleの検索エンジンでは、あなたのページが検索結果に表示されるまでに3つのステップを踏みます。

検索結果に表示されるまでの3ステップ

クロール
クローラーがWebページを巡回してHTMLやリンク情報を収集する
インデックス
収集したデータを解析し、Googleのデータベース（インデックス）に登録する
ランキング
ユーザーの検索クエリに対して最適な順序でページを表示する

クローラーに来てもらうことが、検索結果表示の第一歩です。

クロールとインデックスの違い

クロールとインデックスは混同されやすいですが、役割が異なります。

項目	クロール	インデックス
やること	ページのデータを収集する	収集データをGoogleのDBに登録する
主体	Googlebot（クローラー）	Googleのインデクサー
結果	ページの存在をGoogleが認識する	検索結果に表示される候補になる

クロールされたからといって、必ずインデックスされるわけではありません。コンテンツの品質が低い場合や、重複コンテンツと判断された場合、noindexが設定されている場合は、クロールされてもインデックスを見送られることがあります。

「クロールはされたがインデックスされない」という問題については、以下の記事で詳しく解説しています。

インデックスカバレッジの全ステータスを把握したい方はこちらもあわせてどうぞ。

関連記事インデックスカバレッジとは？全18ステータスの対処優先度と確認方法 →

クローラーとスクレイピングの違い

クローラーとスクレイピングは、どちらもWebページのデータを自動収集する技術ですが、目的と範囲が異なります。

項目	クローラー（検索エンジン用）	スクレイピング
目的	検索エンジンのインデックス構築	特定のデータを抽出・収集
対象	Web全体を広く巡回	特定のサイト・ページに限定
動作	リンクをたどって次々とページを発見	決められたページから決められた情報を取得
例	Googlebot、Bingbot	価格比較サイトの商品データ収集、ECサイトの在庫監視
サイトへの影響	robots.txtを尊重し負荷を制御する	制御しないものもあり、サーバー負荷になることがある

SEOの文脈で「クローラー」と言えば、主にGooglebotなどの検索エンジンが運用するクローラーを指します。本記事でもこの意味で解説を進めます。

HTMLのクロール制限（2MB）

意外と知られていませんが、Googlebotがクロールできるのは非圧縮で約2MBまでのHTMLです。2MBを超えた部分は読み取られません。

一般的なWebページであれば2MBを超えることはほとんどありませんが、巨大なテーブルやインラインCSSを大量に含むページでは注意が必要です。

2MB制限で気をつけること

metaタグ（title、description、robots）は<head>の上部に配置する
canonicalタグも<head>の早い位置に書く
構造化データ（JSON-LD）もHTMLの上部が安全
不要なインラインCSS・JavaScriptは外部ファイル化して軽量化する

重要なタグがHTML下部にあると、巨大なページの場合クローラーに読み取られない可能性があります。

Googleのクローラー（Googlebot）の種類

Googleは1種類のクローラーだけでWebを巡回しているわけではありません。用途に応じて複数のクローラーを使い分けています。

クローラー名	用途	備考
Googlebot（モバイル）	Webページのクロール	メインクローラー。モバイルファーストインデックスの基準
Googlebot（デスクトップ）	Webページのクロール	モバイル版で取得できない情報を補完
Googlebot-Image	画像のクロール	Google画像検索用
Googlebot-Video	動画のクロール	動画検索・動画スニペット用
Googlebot-News	ニュース記事のクロール	Googleニュース掲載用
AdsBot	広告のランディングページ品質チェック	Google広告出稿時に自動でチェック
Storebot-Google	Google Merchant Center	商品ページの情報取得

2024年以降、Googleはモバイル版Googlebotをメインクローラーとして使用しています。これは「モバイルファーストインデックス（MFI）」と呼ばれる方針で、あなたのサイトのモバイル版ページがGoogleの評価基準になるということです。

モバイルSEOの詳しい対策については以下の記事をご覧ください。

AIクローラーの登場（GPTBot、ClaudeBot等）

2024年から2025年にかけて、AI企業が運用するクローラーが急増しています。これらはGoogleの検索インデックス構築ではなく、AIモデルの学習やAI検索の回答生成を目的としています。

主なAIクローラー

GPTBot
OpenAI（ChatGPT）のクローラー。AI学習データの収集に使用
ClaudeBot
Anthropic（Claude）のクローラー。Web検索機能に使用
PerplexityBot
Perplexity AIのクローラー。AI検索エンジンの回答生成に使用
CCBot
Common Crawlのクローラー。多くのAI学習データの基盤になっている

AIクローラーはrobots.txtで制御できますが、一部のクローラーがrobots.txtの指示を無視するケースも報告されています。robots.txtに加えて、AI向けの許可・拒否を明示するllms.txtファイルを設置するサイトも増えてきました。

AIクローラーは検索エンジンのクローラーとは別物です。AIクローラーをブロックしても、Google検索のインデックスには影響しません。逆に、Googlebotをブロックしても、AIクローラーには影響しません。それぞれ個別に制御する必要があります。

AIクローラーの具体的なブロック方法を含めたrobots.txtの設定方法は、以下の記事で詳しく解説しています。

クローラビリティとは？SEOでクローラーが重要な理由

クローラビリティとは、クローラーがサイト内のページをどれだけ効率よく巡回できるかの度合いです。

クローラビリティが低いと、重要なページがクロールされず、検索結果に表示されません。SEO施策の効果を最大化するには、まずクローラーが問題なくサイトを巡回できる状態を作ることが大前提です。

クローラビリティが低い場合に起きる問題の連鎖（クロールされない→インデックスされない→検索流入ゼロ）

クローラーが好むサイトの特徴

クローラビリティが高いサイトの条件

サーバーの応答速度が速い（TTFB 200ms以下が理想）
内部リンクが整理されていて、全ページに3クリック以内で到達できる
robots.txt、noindex、canonicalが正しく設定されている
XMLサイトマップが最新の状態でGSCに送信されている
HTMLが軽量で、重要なメタ情報がソースコード上部にある
lastmod（最終更新日時）が正確に設定されている

特に内部リンク構造はクローラビリティに大きく影響します。クローラーはリンクをたどってページを発見するため、どこからもリンクされていない「孤立ページ」は発見されにくくなります。

クローラーが嫌うサイトの特徴

クローラビリティを下げる5つの要因

サーバーの応答が遅い
Googlebotは応答速度に応じてクロール量を自動調整する。遅いサーバーでは1回の訪問でクロールできるURL数が大幅に減る
重複コンテンツが大量にある
パラメータURL、wwwあり/なし、スラッシュ有無などで同じ内容のURLが複数存在すると、クローラーが同じ内容を何度もクロールして無駄にバジェットを消費する
サイトの階層が深すぎる
トップページから5クリック以上かかるページは、クローラーが到達しにくい。重要なページは2〜3クリックで到達できる構造にする
JavaScriptに依存した表示
JavaScriptで動的に生成されるコンテンツは、クローラーのレンダリング負荷が高い。通常のHTMLクロールに比べてインデックスまでに時間がかかる場合がある
孤立ページがある
サイト内のどこからもリンクされていないページは、クローラーが発見できない。XMLサイトマップに含まれていても、内部リンクがないとクロール優先度は低くなる

重複コンテンツの問題については、以下の記事で対策方法を詳しく解説しています。

関連記事重複コンテンツとは？SEOへの影響と対策方法をわかりやすく解説 →

クロールバジェットとの関係

Googlebotはサイトごとにクロールする量の上限（クロールバジェット）を設けています。クローラビリティが低いと、限られたバジェットが不要なページに消費され、本当にクロールしてほしい重要なページに手が回らなくなります。

ただし、数千ページ以下の小〜中規模サイトではクロールバジェットが問題になることはほとんどありません。

クローラーの巡回を促進する8つの方法

ここからは、クローラーにサイトを効率よく巡回してもらうための具体的な対策を紹介します。効果が大きい順に並べています。

1. XMLサイトマップを送信する

XMLサイトマップは、クローラーに「このURLをクロールしてほしい」と伝えるためのファイルです。新規サイトや大規模サイトでは特に効果的で、ページの発見速度が大幅に向上します。

サーチコンソールからサイトマップを送信しておくと、新しいページや更新されたページの発見が早まります。lastmod（最終更新日時）を正確に設定しておくと、更新されたページを優先的にクロールしてもらえます。

2. 内部リンクを最適化する

クローラーはリンクをたどってページを発見します。重要なページには、サイト内の複数のページからリンクを張っておきましょう。

理想的なサイト構造は、全ページがトップページから3クリック以内で到達できる状態です。「トップ→カテゴリ→記事」のような階層構造を意識し、関連記事間の相互リンクも設置しておくと、クローラーの巡回効率が上がります。

逆に、どこからもリンクされていない「孤立ページ」はクローラーに発見されにくくなります。サイトリニューアルやURL変更の際には、リンク切れが発生していないかの確認も重要です。

3. robots.txtを正しく設定する

robots.txtは、クローラーに「このページはクロールしないでください」と伝えるファイルです。

管理画面、テスト環境、検索結果ページ、フィルタ結果ページなどクロール不要なページをブロックすることで、Googlebotが重要なページにクロールを集中させられます。

ただし、robots.txtでブロックしたページにnoindexを設定しても、クローラーがページにアクセスできないためnoindexが読み取れません。noindexを使いたいページはrobots.txtのDisallowから除外する必要があります。

4. ページの表示速度を改善する

サーバーの応答速度は、Googlebotがクロールする量に直接影響します。

Googlebotはサーバーの応答速度を常にモニタリングしており、応答が速ければ1回の訪問でより多くのページをクロールします。逆に応答が遅いと、サーバーに負荷をかけないよう自動的にクロール量を制限します。

TTFB（Time to First Byte）の改善、画像の最適化、CDNの活用、キャッシュ設定の見直しなどが有効です。

5. GSCの「URL検査」でインデックス登録をリクエストする

新しいページを公開した直後や、既存ページを大幅に更新した場合は、サーチコンソールのURL検査ツールから「インデックス登録をリクエスト」を実行しましょう。Googlebotに再クロールを促すことができます。

ただし、これは「お願い」であって強制力はありません。リクエストしても必ずしもすぐにクロールされるとは限らないため、サイトマップや内部リンクの整備と併用することが大切です。

6. 外部リンク（被リンク）を獲得する

外部サイトからのリンクも、クローラーがページを発見するきっかけになります。

Googlebotは外部サイトのリンクをたどって新しいページを発見します。被リンクが多いページほどクローラーの訪問頻度が高くなる傾向があり、リンク元サイトの権威性が高いほどその効果は大きくなります。

関連記事被リンクとは？SEO効果と自分でできる獲得方法を実務者目線で解説 →

7. 定期的にコンテンツを更新する

更新頻度が高いサイトは、Googlebotが「このサイトは新しい情報がありそうだ」と判断し、クロール頻度が上がる傾向にあります。

古い記事のリライトや最新情報の追記、新規記事の追加を定期的に行いましょう。更新の際はXMLサイトマップのlastmodも正確に更新しておくと、クローラーが更新を素早く検知してくれます。

8. リダイレクトチェーンを解消する

A → B → C → D のようにリダイレクトが複数回連鎖している「リダイレクトチェーン」は、クローラーの巡回効率を落とします。Googlebotはリダイレクトを最大5回まで追跡しますが、それを超えるとクロールを中断します。

最終URLへの直接リダイレクトに修正し、不要な中間リダイレクトを削除しましょう。

関連記事リダイレクトチェーンとは？SEOへの影響と確認・解消方法を徹底解説 →

クローラーを拒否・制御する方法

特定のページにクローラーを来させたくない場合の制御方法を解説します。方法は2つあり、目的によって使い分けます。

robots.txtでクロールをブロックする

robots.txtにDisallowルールを追加すると、Googlebotのクロール自体をブロックできます。管理画面やテスト環境、フィルタ結果ページなど、そもそもクローラーにアクセスさせたくないページに設定します。

ただし、robots.txtでブロックしたページも、外部からリンクされていると「URLは知っているがコンテンツは不明」という状態でインデックスされることがあります。

noindexでインデックスだけ除外する

noindexは、クロールは許可しつつインデックスだけを拒否する方法です。「ページの内容はGoogleに認識させたいが、検索結果には表示したくない」という場合に使います。

方法	クロール	インデックス	主な用途
robots.txt Disallow	ブロック	されない	管理画面、テスト環境、フィルタページ
noindex	許可	拒否	サンクスページ、低品質ページ、重複ページ

関連記事 noindexとは？書き方・設定方法・確認方法をわかりやすく解説 →

クロールされているか確認する方法

クローラー対策を行ったら、効果を確認しましょう。

inSiteで全ページのクロール状態を一括確認

サーチコンソールのURL検査は1ページずつしか確認できません。100ページあるサイトなら100回URLを入力する必要があり、大規模サイトでは現実的ではないでしょう。

サイト管理ツールinSite（インサイト）なら、全ページのクロール日・インデックス状態を自動で取得し、一覧で確認できます。

inSiteでできるクロール状態の確認

最終クロール日の一覧表示
全ページのクロール日を一覧で確認。クロールされていないページや、クロール日が古いまま放置されているページを即座に発見できる
インデックス状態の自動チェック
「インデックス登録済み」「noindexで除外」「クロール済みだがインデックス未登録」など、各ページのステータスを自動で分類・表示
変化の検知
前回チェック時からインデックス状態が変わったページを自動で検知。突然インデックスから外れたページに素早く気づける

サーチコンソールの手動確認では「気づいたときには手遅れ」になりがちですが、inSiteなら日常的にモニタリングできるため、問題の早期発見・早期対応が可能です。

手動でのURL検査が面倒な方は、inSiteで全ページを一括チェックできます。 inSiteを無料で試してみる ↗

GSCの「クロールの統計情報」で確認

サーチコンソールの「設定」→「クロールの統計情報」→「レポートを開く」で、Googlebotのクロール状況をグラフで確認できます。

サーチコンソール「設定」→「クロールの統計情報」

クロールの統計情報レポート（クロールリクエスト数の推移）

確認すべき指標

クロールリクエストの合計数
1日あたりのクロール数。急激に減少している場合は、robots.txtの誤設定やサーバーエラーの可能性がある
平均応答時間
サーバーの応答速度。増加傾向ならサーバー改善が必要。200ms以下が理想
クロールリクエストの内訳
ステータスコード別の割合。404や5xxが多い場合はリンク切れやサーバーエラーの対応が必要

GSCの「URL検査」で個別ページを確認

特定のページがクロールされているかを確認したい場合は、URL検査ツールにURLを入力します。「最終クロール日時」が表示されるので、重要なページのクロール日が古すぎないかチェックしましょう。

サーチコンソールのURL検査結果。前回のクロール日時やインデックス登録状況を確認できる

URL検査の結果画面（クロール日時・インデックス状態が確認できる）

複数ページを一括で確認したい場合は、以下のツールが便利です。

サイト全体のインデックス数を確認する方法は以下で解説しています。

関連記事インデックス数の調べ方3選｜精度の違いと増えないときの原因・対処法 →

Screaming Frog等のツールでクロールシミュレーション

より詳細にクローラビリティを分析したい場合は、Screaming FrogやSitebulbなどの専用ツールが便利です。Googlebotと同じようにサイトを巡回し、リンク切れ、リダイレクトチェーン、孤立ページ、ステータスコードの問題などを網羅的に検出できます。

大規模サイトでは、定期的にクロールシミュレーションを実行して問題を早期発見することをおすすめします。

よくある質問

クローラーはどのくらいの頻度で来ますか？

サイトによって大きく異なります。更新頻度が高いニュースサイトや大規模ECサイトでは1日に数千回クロールされることもありますが、更新が少ない小規模サイトでは数週間に1回程度のこともあります。サーチコンソールの「クロールの統計情報」で自分のサイトの実態を確認しましょう。

新規サイトにクローラーが来ない場合はどうすればいいですか？

まずサーチコンソールにサイトを登録し、XMLサイトマップを送信しましょう。次に、URL検査ツールからトップページのインデックス登録をリクエストします。それでもクロールされない場合は、SNSや外部サイトからリンクを獲得することで、クローラーがそのリンクを経由してサイトを発見してくれます。Googleがまだそのサイトの存在を知らない状態では、外部からのリンクがクロールのきっかけになります。

クローラーがサーバーに負荷をかけることはありますか？

あります。ただし、Googlebotはサーバーの応答速度を常に監視しており、負荷が高くなると自動的にクロール量を減らす仕組みがあります。それでもサーバー負荷が問題になる場合は、サーチコンソールの「クロール頻度の制限」設定でクロール量の上限を下げることができます。また、不要なページをrobots.txtでブロックすることで、無駄なクロールを減らすのも有効です。

JavaScriptで生成されたコンテンツもクロールされますか？

Googlebotはレンダリングを行うため、JavaScriptで生成されたコンテンツもクロール・インデックスの対象になります。ただし、レンダリングには追加のリソースが必要で、通常のHTMLクロールに比べてインデックスまでに数日〜数週間の遅延が発生する場合があります。重要なコンテンツやmeta情報はサーバーサイドレンダリング（SSR）で出力するのが確実です。

まとめ

クローラーの仕組みとSEOにおける重要性を解説しました。

この記事のポイント

クローラーはWebページを自動で巡回し情報を収集するロボット
Googlebotにはモバイル版・デスクトップ版など複数の種類がある
クローラビリティを高めることでインデックスされやすくなる
robots.txt・サイトマップ・内部リンクの最適化が基本の対策
GSCの「クロールの統計情報」でクロール状況を確認できる

クローラーに来てもらえなければ、そのページは検索結果に表示されません。まずはサーチコンソールの「クロールの統計情報」で現状を確認し、クロール数や応答時間に異常がないかチェックすることから始めてみてください。

クローラーとは？仕組み・種類・SEOで重要な理由をわかりやすく解説