robots.txtとは?|SEO関連用語集

読み方: ロボッツテキスト
目次
概要
robots.txtとは、検索エンジンのクローラーに対して、サイト内のどのページをクロールして良いか指示するテキストファイルです。
詳細説明
robots.txtは、Webサイトのルートディレクトリ(https://example.com/robots.txt)に設置するテキストファイルで、検索エンジンのクローラーに対してクロールの許可・禁止を指示します。REP(Robots Exclusion Protocol)とも呼ばれます。
robots.txtの基本的な記述例は以下の通りです。
User-agent: *
Disallow: /admin/
Disallow: /cart/
Allow: /
Sitemap: https://example.com/sitemap.xml
主な役割は以下の通りです。
- クロール制御:管理画面など、クロールさせたくないページを指定
 - クロールバジェットの最適化:重要なページに クローラーのリソースを集中
 - サイトマップの指定:XMLサイトマップの場所をクローラーに伝える
 - クロール頻度の調整:過剰なクロールを防ぐ
 
重要性
robots.txtが重要な理由は以下の通りです。
- クロール効率の向上:不要なページへのクロールを防ぎ、重要ページを優先的にクロール
 - サーバー負荷の軽減:クローラーのアクセスを制限して負荷を軽減
 - プライバシー保護:管理画面や個人情報ページへのアクセスを制限
 - 重複コンテンツ対策:フィルタや検索結果ページなどをクロールから除外
 
具体例・実践方法
基本的な記述例
すべてのクローラーを許可
User-agent: *
Disallow:
特定ディレクトリを禁止
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /cgi-bin/
特定クローラーのみ制御
User-agent: Googlebot
Disallow: /private/
User-agent: Bingbot
Disallow: /
サイトマップを指定
User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xml
robots.txtを使うべきケース
- 管理画面やログインページ
 - 検索結果ページやフィルタページ
 - カートや決済プロセスページ
 - テスト環境やステージング環境
 
関連用語
- クローラー
 - Googlebot
 - クローリング
 - User-agent
 - Disallow
 - Allow
 - XMLサイトマップ
 - クロールバジェット
 - noindex
 - REP(Robots Exclusion Protocol)
 
注意点・補足
robots.txtの注意点は以下の通りです。
- robots.txtでブロックしてもインデックスを完全に防ぐことはできない(noindexタグが必要)
 - robots.txtは公開情報なので、セキュリティには使えない
 - 記述ミスでサイト全体をブロックする事故が多い(定期的に確認)
 - Google Search Consoleのrobots.txtテスターで検証する
 
最新トレンド(2025年)
robots.txtの最新トレンドは以下の通りです。
- robots.txtの記述ミスを検出するツールが充実
 - クロールバジェットの重要性が増し、robots.txtの最適化が必須
 - モバイルファーストインデックスでは、モバイル版robots.txtが優先
 - 大規模サイトでは、細かい制御が必要
 

