Robots.txt最適化とは?|SEO関連用語集

読み方: ロボッツテキストさいてきか(Robots.txt Optimization)

目次

概要

robots.txtファイルを最適化し、検索エンジンクローラーのアクセスを適切に制御してクロールバジェットを効率化する手法。

詳細説明

Robots.txt最適化(Robots.txt Optimization)とは、サイトのルートディレクトリ(https://example.com/robots.txt)に配置するテキストファイルを最適化し、検索エンジンクローラー(Googlebot、Bingbot等)に対してクロールを許可または禁止するURLパターンを指定する技術的SEO施策です。重要でないページ(管理画面、ログインページ、検索結果ページ、カート、重複コンテンツ、プライベートファイル等)をDisallowディレクティブでブロックすることで、クロールバジェットを節約し、重要ページに集中的にクロールしてもらえます。また、Allowディレクティブで例外を指定したり、User-agentで特定のクローラー(例: Googlebotのみ許可)を制御できます。Sitemapディレクティブで XMLサイトマップのURLを記載することも推奨されます。ただし、robots.txtは「推奨」であり「強制」ではないため、悪意のあるボットは無視する可能性があります。

重要性

Robots.txt最適化が重要な理由は以下の通りです。

  • クロールバジェットの効率化。大規模サイト(数万ページ以上)では、Googlebotのクロール回数に上限があり、不要なページをブロックすることで重要ページのクロール頻度が向上
  • 致命的な誤設定の回避。robots.txtで重要なページを誤ってDisallowすると、インデックスから完全に除外され、SEOトラフィックが失われる(過去に多くの企業サイトで事故発生)
  • 重複コンテンツの除外。検索結果ページ(`/search?q=`)、フィルタリングページ(`/products?filter=`)、ページネーション(`/page/2/`)等をブロックし、クロール効率を改善
  • セキュリティとプライバシー。管理画面(`/admin/`, `/wp-admin/`)、プライベートファイル(`/private/`, `/backup/`)をブロックし、クローラーによる発見を防ぐ(完全な保護にはサーバー側認証が必要)
  • サーバー負荷軽減。無駄なクロールを減らすことで、サーバーリソース消費を削減し、実際のユーザー体験を改善

具体例・実践方法

Robots.txt最適化の実践手順

  1. 基本的なrobots.txt構成
   User-agent: *
   Disallow: /admin/
   Disallow: /cgi-bin/
   Disallow: /tmp/
   Disallow: /private/
   Disallow: /*?search=
   Disallow: /*?filter=
   Disallow: /cart/
   Disallow: /checkout/
   Allow: /
   
   Sitemap: https://example.com/sitemap.xml
   Sitemap: https://example.com/sitemap_images.xml
  1. WordPress向けrobots.txt最適化
   User-agent: *
   Disallow: /wp-admin/
   Allow: /wp-admin/admin-ajax.php
   Disallow: /wp-includes/
   Disallow: /wp-content/plugins/
   Disallow: /wp-content/themes/
   Disallow: /trackback/
   Disallow: /feed/
   Disallow: /comments/
   Disallow: /category/*/*
   Disallow: */tag/*
   Disallow: /?s=
   Disallow: /*?
   
   Sitemap: https://example.com/sitemap_index.xml
  1. 特定のクローラー制御
   # Googlebot向け
   User-agent: Googlebot
   Disallow: /private/
   Crawl-delay: 10
   
   # AIクローラーをブロック(2025年重要)
   User-agent: GPTBot
   Disallow: /
   
   User-agent: ClaudeBot
   Disallow: /
   
   User-agent: anthropic-ai
   Disallow: /
   
   # 画像クローラー
   User-agent: Googlebot-Image
   Allow: /images/
   Disallow: /private-images/
  1. Allowディレクティブで例外指定
   User-agent: *
   Disallow: /admin/
   Allow: /admin/public/  # /admin/以下で/admin/public/のみ許可
   
   Disallow: *.pdf$
   Allow: /whitepapers/*.pdf$  # PDFは基本ブロックだが、ホワイトペーパーのみ許可
  1. Google Search Consoleでrobots.txtテスト
  • Search Console → 設定 → robots.txt テスター
  • 重要なURL(トップページ、商品ページ等)を入力し、「テスト」クリック
  • ブロックされていないか確認
  • 修正後、「送信」をクリック
  1. 動的robots.txt生成(高度)
   

関連用語

  • クロールバジェット
  • Googlebot
  • noindex
  • サイトマップ
  • User-agent
  • Disallow
  • Allow
  • クロール最適化
  • インデックス制御
  • Crawl-delay

注意点・補足

Robots.txt最適化の注意点は以下の通りです。

  • robots.txtは推奨であり強制ではない。善良なクローラー(Googlebot等)は従うが、悪意のあるボット、スクレイピングツールは無視する。完全なブロックにはサーバー認証やIPブロックが必要
  • Disallowしてもインデックスされる場合がある。robots.txtでブロックしたページでも、外部リンクがあればタイトル・URLのみインデックスされる可能性。完全なブロックには``が必須
  • 重要ページの誤ブロック。`Disallow: /`は全ページブロックを意味し、過去に大手企業サイトで誤設定により全ページがインデックス除外される事故が発生
  • CSSとJavaScriptはブロックしない。GooglebotはJavaScript実行のためにCSS/JSファイルが必要。`Disallow: /.css$`や`Disallow: /.js$`は設定しない
  • キャッシュ問題。robots.txtの変更は反映に時間がかかる(数時間〜1日)。Google Search Consoleで即座に再送信可能

最新トレンド(2025年)

2025年現在のRobots.txt最適化に関する最新トレンドは以下の通りです。

  • AIクローラー制御の標準化: ChatGPT(GPTBot)、Claude(ClaudeBot)、Bard(Google-Extended)等のAIクローラーをrobots.txtでブロックする企業が増加(コンテンツ無断学習防止)
  • Crawl-delayの再評価: サーバー負荷軽減のため、クロール速度制限(Crawl-delay: 10秒等)を設定するサイトが増加
  • 動的robots.txt生成の普及: CMSやフレームワーク(Next.js、WordPress)で、環境(本番/ステージング)に応じて自動生成
  • IndexNowとの統合: robots.txtにIndexNow APIキーを記載し、リアルタイムインデックス通知と組み合わせる手法が標準化

参考リンク・引用元

  1. Google - Robots.txtの概要
  2. Google Search Console - robots.txtテスター
  3. Moz - Robots.txt Guide
  4. Robots Exclusion Protocol - 公式仕様

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
目次