Robots.txt最適化とは?|SEO関連用語集

読み方: ロボッツテキストさいてきか(Robots.txt Optimization)
目次
概要
robots.txtファイルを最適化し、検索エンジンクローラーのアクセスを適切に制御してクロールバジェットを効率化する手法。
詳細説明
Robots.txt最適化(Robots.txt Optimization)とは、サイトのルートディレクトリ(https://example.com/robots.txt)に配置するテキストファイルを最適化し、検索エンジンクローラー(Googlebot、Bingbot等)に対してクロールを許可または禁止するURLパターンを指定する技術的SEO施策です。重要でないページ(管理画面、ログインページ、検索結果ページ、カート、重複コンテンツ、プライベートファイル等)をDisallowディレクティブでブロックすることで、クロールバジェットを節約し、重要ページに集中的にクロールしてもらえます。また、Allowディレクティブで例外を指定したり、User-agentで特定のクローラー(例: Googlebotのみ許可)を制御できます。Sitemapディレクティブで XMLサイトマップのURLを記載することも推奨されます。ただし、robots.txtは「推奨」であり「強制」ではないため、悪意のあるボットは無視する可能性があります。
重要性
Robots.txt最適化が重要な理由は以下の通りです。
- クロールバジェットの効率化。大規模サイト(数万ページ以上)では、Googlebotのクロール回数に上限があり、不要なページをブロックすることで重要ページのクロール頻度が向上
- 致命的な誤設定の回避。robots.txtで重要なページを誤ってDisallowすると、インデックスから完全に除外され、SEOトラフィックが失われる(過去に多くの企業サイトで事故発生)
- 重複コンテンツの除外。検索結果ページ(`/search?q=`)、フィルタリングページ(`/products?filter=`)、ページネーション(`/page/2/`)等をブロックし、クロール効率を改善
- セキュリティとプライバシー。管理画面(`/admin/`, `/wp-admin/`)、プライベートファイル(`/private/`, `/backup/`)をブロックし、クローラーによる発見を防ぐ(完全な保護にはサーバー側認証が必要)
- サーバー負荷軽減。無駄なクロールを減らすことで、サーバーリソース消費を削減し、実際のユーザー体験を改善
具体例・実践方法
Robots.txt最適化の実践手順
- 基本的なrobots.txt構成
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Disallow: /*?search=
Disallow: /*?filter=
Disallow: /cart/
Disallow: /checkout/
Allow: /
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap_images.xml
- WordPress向けrobots.txt最適化
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */tag/*
Disallow: /?s=
Disallow: /*?
Sitemap: https://example.com/sitemap_index.xml
- 特定のクローラー制御
# Googlebot向け
User-agent: Googlebot
Disallow: /private/
Crawl-delay: 10
# AIクローラーをブロック(2025年重要)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
# 画像クローラー
User-agent: Googlebot-Image
Allow: /images/
Disallow: /private-images/
- Allowディレクティブで例外指定
User-agent: *
Disallow: /admin/
Allow: /admin/public/ # /admin/以下で/admin/public/のみ許可
Disallow: *.pdf$
Allow: /whitepapers/*.pdf$ # PDFは基本ブロックだが、ホワイトペーパーのみ許可
- Google Search Consoleでrobots.txtテスト
- Search Console → 設定 → robots.txt テスター
- 重要なURL(トップページ、商品ページ等)を入力し、「テスト」クリック
- ブロックされていないか確認
- 修正後、「送信」をクリック
- 動的robots.txt生成(高度)
関連用語
- クロールバジェット
- Googlebot
- noindex
- サイトマップ
- User-agent
- Disallow
- Allow
- クロール最適化
- インデックス制御
- Crawl-delay
注意点・補足
Robots.txt最適化の注意点は以下の通りです。
- robots.txtは推奨であり強制ではない。善良なクローラー(Googlebot等)は従うが、悪意のあるボット、スクレイピングツールは無視する。完全なブロックにはサーバー認証やIPブロックが必要
- Disallowしてもインデックスされる場合がある。robots.txtでブロックしたページでも、外部リンクがあればタイトル・URLのみインデックスされる可能性。完全なブロックには``が必須
- 重要ページの誤ブロック。`Disallow: /`は全ページブロックを意味し、過去に大手企業サイトで誤設定により全ページがインデックス除外される事故が発生
- CSSとJavaScriptはブロックしない。GooglebotはJavaScript実行のためにCSS/JSファイルが必要。`Disallow: /.css$`や`Disallow: /.js$`は設定しない
- キャッシュ問題。robots.txtの変更は反映に時間がかかる(数時間〜1日)。Google Search Consoleで即座に再送信可能
最新トレンド(2025年)
2025年現在のRobots.txt最適化に関する最新トレンドは以下の通りです。
- AIクローラー制御の標準化: ChatGPT(GPTBot)、Claude(ClaudeBot)、Bard(Google-Extended)等のAIクローラーをrobots.txtでブロックする企業が増加(コンテンツ無断学習防止)
- Crawl-delayの再評価: サーバー負荷軽減のため、クロール速度制限(Crawl-delay: 10秒等)を設定するサイトが増加
- 動的robots.txt生成の普及: CMSやフレームワーク(Next.js、WordPress)で、環境(本番/ステージング)に応じて自動生成
- IndexNowとの統合: robots.txtにIndexNow APIキーを記載し、リアルタイムインデックス通知と組み合わせる手法が標準化

