robots.txtとは?|SEO関連用語集

読み方: ロボッツテキスト
目次
概要
robots.txtとは、検索エンジンのクローラーに対して、サイト内のどのページをクロールして良いか指示するテキストファイルです。
詳細説明
robots.txtは、Webサイトのルートディレクトリ(https://example.com/robots.txt)に設置するテキストファイルで、検索エンジンのクローラーに対してクロールの許可・禁止を指示します。REP(Robots Exclusion Protocol)とも呼ばれます。
robots.txtの基本的な記述例は以下の通りです。
User-agent: *
Disallow: /admin/
Disallow: /cart/
Allow: /
Sitemap: https://example.com/sitemap.xml
主な役割は以下の通りです。
- クロール制御:管理画面など、クロールさせたくないページを指定
- クロールバジェットの最適化:重要なページに クローラーのリソースを集中
- サイトマップの指定:XMLサイトマップの場所をクローラーに伝える
- クロール頻度の調整:過剰なクロールを防ぐ
重要性
robots.txtが重要な理由は以下の通りです。
- クロール効率の向上:不要なページへのクロールを防ぎ、重要ページを優先的にクロール
- サーバー負荷の軽減:クローラーのアクセスを制限して負荷を軽減
- プライバシー保護:管理画面や個人情報ページへのアクセスを制限
- 重複コンテンツ対策:フィルタや検索結果ページなどをクロールから除外
具体例・実践方法
基本的な記述例
すべてのクローラーを許可
User-agent: *
Disallow:
特定ディレクトリを禁止
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /cgi-bin/
特定クローラーのみ制御
User-agent: Googlebot
Disallow: /private/
User-agent: Bingbot
Disallow: /
サイトマップを指定
User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xml
robots.txtを使うべきケース
- 管理画面やログインページ
- 検索結果ページやフィルタページ
- カートや決済プロセスページ
- テスト環境やステージング環境
関連用語
- クローラー
- Googlebot
- クローリング
- User-agent
- Disallow
- Allow
- XMLサイトマップ
- クロールバジェット
- noindex
- REP(Robots Exclusion Protocol)
注意点・補足
robots.txtの注意点は以下の通りです。
- robots.txtでブロックしてもインデックスを完全に防ぐことはできない(noindexタグが必要)
- robots.txtは公開情報なので、セキュリティには使えない
- 記述ミスでサイト全体をブロックする事故が多い(定期的に確認)
- Google Search Consoleのrobots.txtテスターで検証する
最新トレンド(2025年)
robots.txtの最新トレンドは以下の通りです。
- robots.txtの記述ミスを検出するツールが充実
- クロールバジェットの重要性が増し、robots.txtの最適化が必須
- モバイルファーストインデックスでは、モバイル版robots.txtが優先
- 大規模サイトでは、細かい制御が必要

