inSite robots.txt テスター&ジェネレーター
robots.txtの取得・解析・URLテスト・生成をワンストップで。
robots.txtをチェックするURLを入力
サイトのトップURLを入力してください。自動的に /robots.txt を取得・解析します。
使い方
URLを入力
チェックしたいサイトのトップURLを入力
テストを実行
robots.txtの取得・解析やURLブロック判定を実行
結果を確認
ルール一覧・問題点・Sitemap情報を確認
robots.txtとは
robots.txtとは、Webサイトのルートディレクトリ(例: https://example.com/robots.txt)に設置するテキストファイルです。検索エンジンのクローラー(Googlebot、Bingbotなど)に対して、「このページはクロールしてよい」「このページはクロールしないでほしい」といった指示を出すために使用します。
robots.txtはクロール制御のための仕組みであり、インデックス制御とは異なります。Disallowでクロールをブロックしても、外部リンクなどからURLが発見されればインデックスに登録されることがあります。インデックスを確実に制御したい場合は、noindexタグまたはX-Robots-Tagヘッダーを使用してください。
robots.txtの設定ミスは、サイト全体がクロールされなくなるなど深刻な影響を及ぼす可能性があります。本ツールを使って、robots.txtによるブロックが意図した通りになっているか確認しましょう。
robots.txtの書き方
robots.txtは、「User-agent」と「Disallow」「Allow」を組み合わせたシンプルな構文で記述します。以下が主要なディレクティブです。
| ディレクティブ | 説明 | 例 |
|---|---|---|
| User-agent | 対象のクローラーを指定。*は全クローラー | User-agent: Googlebot |
| Disallow | クロールを禁止するパス | Disallow: /admin/ |
| Allow | Disallow内の例外として許可するパス | Allow: /admin/public/ |
| Sitemap | XMLサイトマップのURL | Sitemap: https://example.com/sitemap.xml |
| Crawl-delay | クロール間隔(秒)※Googleは非対応 | Crawl-delay: 10 |
基本的な記述例:
User-agent: * Disallow: /admin/ Disallow: /private/ Allow: /admin/public/ Sitemap: https://example.com/sitemap.xml
パスにはワイルドカード(*)とアンカー($)が使えます。たとえば Disallow: /*.pdf$ はすべてのPDFファイルへのクロールをブロックします。本ツールの「URLテスト」タブで、ワイルドカードパターンが意図通りにマッチしているか確認できます。
robots.txtのよくある設定パターン
WordPress向け
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /?s= Disallow: /author/ Disallow: /tag/ Sitemap: https://example.com/sitemap.xml
ECサイト向け
User-agent: * Disallow: /cart/ Disallow: /checkout/ Disallow: /account/ Disallow: /search? Disallow: /*?sort= Disallow: /*?page= Sitemap: https://example.com/sitemap.xml
SPA(シングルページアプリ)向け
User-agent: * Disallow: /api/ Disallow: /_next/ Allow: /_next/static/ Sitemap: https://example.com/sitemap.xml
※ 本ツールの「ジェネレーター」タブからワンクリックでテンプレートを生成できます。
robots.txtでよくある問題と対処法
全体をブロックしてしまっている(Disallow: /)
User-agent: * / Disallow: / の設定は、すべてのクローラーによるサイト全体のクロールをブロックします。ステージング環境の設定がそのまま本番に残っているケースが多く、Search Consoleで「robots.txtによりブロックされました」が大量発生します。本ツールでチェックし、意図しないブロックがないか確認してください。
Sitemapが指定されていない
robots.txtにSitemapディレクティブを記述しておくと、クローラーが効率的にサイト構造を把握できます。特に新しいサイトやページ数の多いサイトでは、Sitemapの指定を強く推奨します。
構文エラー(大文字小文字・スペース)
ディレクティブ名(User-agent、Disallow等)は大文字小文字を区別しませんが、パスは区別します。また、コロン(:)の後にスペースを入れ忘れるとパースエラーになる場合があります。
ブロックしているのにインデックスされている
robots.txtでDisallowしてもインデックスから除外されるとは限りません。外部リンクからURLが発見された場合、クロールせずにインデックスに追加されることがあります。詳しくは「robots.txtによりブロックされましたが、インデックスに登録しました」を参照してください。
robots.txtとnoindexの違い
robots.txt・meta robots・X-Robots-Tagはいずれもクローラーへの指示ですが、それぞれ役割が異なります。
| 方法 | 制御対象 | インデックス除外 | 対象リソース |
|---|---|---|---|
| robots.txt | クロール | ✗ 保証しない | サイト全体 / パス単位 |
| meta robots | インデックス | ✓ 保証する | HTMLページのみ |
| X-Robots-Tag | インデックス | ✓ 保証する | 全リソース(PDF・画像含む) |
重要なポイントは、robots.txtでDisallowしたページにnoindexを設定しても効果がないということです。クローラーがページにアクセスできないとnoindexタグを読み取れないため、インデックスから除外されません。noindexでインデックスを制御したいページは、robots.txtでブロックしないようにしてください。X-Robots-Tagの設定はHTTPヘッダーチェッカーで確認できます。
Search Consoleとrobots.txtの関係
Google Search Consoleのインデックスカバレッジレポートでは、robots.txtに関連する以下のステータスが報告されます。
「robots.txtによりブロックされました」
robots.txtのDisallowルールによってクロールがブロックされている状態。意図的な設定であれば問題ありませんが、重要なページがブロックされている場合は設定を見直してください。詳しくはこちらの記事を参照。
「robots.txtによりブロックされましたが、インデックスに登録しました」
robots.txtでブロックされているにもかかわらず、外部リンク等からURLが発見されてインデックスされた状態。意図しないインデックスを防ぐには、robots.txtのブロックを解除した上でnoindexを設定してください。詳しくはこちらの記事を参照。
以前はSearch Console内に「robots.txtテスター」がありましたが、現在は廃止されています。本ツールはその代替として、robots.txtの取得・解析・URLテストを提供しています。クロール済みインデックス未登録の原因調査にもご活用ください。
よくある質問
robots.txtとは何ですか?
robots.txtは、Webサイトのルートディレクトリに設置するテキストファイルで、検索エンジンのクローラーにどのページをクロールしてよいか(または禁止するか)を指示します。URLは「https://example.com/robots.txt」の形式で、すべての主要な検索エンジンがこのファイルを参照します。
robots.txtはSEOに影響しますか?
はい、間接的に影響します。robots.txtでクロールを制御することで、クロールバジェットを重要なページに集中させたり、重複コンテンツのクロールを防いだりできます。ただし、Disallowはインデックス除外を保証しません。インデックスから確実に除外するにはnoindexを使用してください。
robots.txtのDisallowでページをnoindexにできますか?
いいえ、Disallowはクロールを制御するだけで、インデックスを直接制御しません。外部リンク等でURLが発見された場合、robots.txtでブロックされていてもインデックスに登録されることがあります。確実にインデックスから除外するには、meta robotsのnoindexタグまたはX-Robots-Tagヘッダーを使用してください。
robots.txtのテスト方法は?
本ツールの「テスト」タブでサイトURLを入力すると、robots.txtを自動取得して構文チェック・問題検出を行います。「URLテスト」タブでは、特定のURLパスが特定のUser-Agentでブロックされるかどうかを判定できます。以前はGoogle Search Consoleにrobots.txtテスターがありましたが、現在は廃止されています。
robots.txtの変更はすぐに反映されますか?
Googleはrobots.txtを通常24時間以内にキャッシュを更新しますが、反映に数日かかることもあります。Search Consoleの「robots.txtテスター」(現在はURL検査ツール)で最新の状態を確認できます。急ぎの場合はSearch Consoleからクロールをリクエストしてください。
robots.txtが存在しない場合どうなりますか?
robots.txtが存在しない(404を返す)場合、検索エンジンはサイト全体のクロールが許可されていると解釈します。特にクロール制限が不要であれば問題ありませんが、SitemapのURLを指定するためにrobots.txtを作成することを推奨します。
関連記事
サイト全体のSEO状態を把握したい方へ
inSiteなら、サイト全体のインデックス状況・内部リンク構造を一元管理。SEOの改善サイクルを効率化できます。
14日間無料トライアルを始めるカード登録不要 / 自動課金なし