Glossary用語集

robots.txt

ろぼっつてきすと

robots.txtとは?

検索エンジンのクローラーに対して、ウェブサイト内のアクセス制御を行うためのファイルです。
特定のページやディレクトリをクロールさせないよう設定することで、情報の収集やインデックス登録を制御できます。
新しいページではインデックスされず、既にインデックスされたページでは更新が反映されなくなります。

仕組み

robots.txtファイルはウェブサイトのルートディレクトリに配置されます。
ユーザーエージェント(クローラー)ごとにアクセス制御ルールを設定でき、指定したページやディレクトリへのクロールを禁止できます。
主に会員限定ページや非公開ページ、テストページなど、検索結果に表示させたくないコンテンツに利用されます。

特徴

  • クローラーのアクセスを制御できるため、不要なページのインデックスを防げます。
  • アクセス制御はページ単位やディレクトリ単位で設定可能です。
  • 簡単なテキストファイルで管理でき、設定が容易です。
  • 検索エンジンによってクロールルールが尊重されます。
  • 会員限定や非公開ページの管理に有効です。

メリット

  • 検索結果に不要なページを表示させず、SEOに影響を与えません。
  • 機密性のあるページや準備中ページを保護できます。
  • サイト構造の管理やクロール最適化に役立ちます。
  • 設定がテキストファイルなので変更や追加が簡単です。
  • クローラーによるサーバー負荷を軽減できます。

デメリット・注意点

  • 完全なアクセス制御ではなく、悪意のあるクローラーには無効な場合があります。
  • 設定ミスにより重要ページがクロールされない場合があります。
  • robots.txtに書かれた内容は第三者が閲覧可能です。
  • クロールを禁止してもインデックスされる可能性があるページもあります。
  • 検索エンジンによって解釈や優先度が異なる場合があります。

まとめ

robots.txtは、ウェブサイト内のクローラーアクセスを制御するための重要なファイルです。
検索エンジンにインデックスさせたくないページを管理したり、クロール負荷を軽減する際に活用されます。