Glossary用語集

クローリング

くろーりんぐ

クローリングとは?

クローリングとは、検索エンジンなどのクローラー(自動巡回プログラム)がインターネット上のWebサイトを巡回し、ページの情報を収集する一連のプロセスのことです。
Web上のページにあるリンクをたどりながら、次々に新しいページを発見し、内容を読み取って検索エンジンのデータベース(インデックス)に登録するための準備段階となります。
たとえば、Googleの検索結果に表示されるページは、すべてクローリングによって収集された情報をもとに表示されています。

仕組み(使い方)

クローリングは次のような手順で行われます:

  1. 出発点(シードURL)の設定:最初に巡回を始めるURLを設定します。
  2. リンクの追跡:そのページ内にあるリンクを読み取り、次に訪れるページをリスト化します。
  3. コンテンツの取得:HTMLやテキスト、画像などの情報を収集します。
  4. 再クロールのスケジュール:更新頻度の高いページは定期的に再訪問して、最新の情報を取得します。
  5. クロール制御:robots.txtやmetaタグにより、クロール可否や対象範囲が制限されることがあります。

このようにして、検索エンジンはインターネット上の膨大な情報を効率よく収集・整理しています。

特徴

  • 自動的に実行され、人手を介さずに大量のWebページを巡回できます。
  • クロール範囲や頻度は、検索エンジンや設定によって変化します。
  • Web上の「公開された情報」のみが対象で、パスワード付きページや非公開データは基本的に対象外です。
  • Webマーケティング、価格比較、研究開発などさまざまな分野で活用されています。

メリット

  • インターネット上の最新情報を迅速に集めることができます。
  • 検索エンジンにサイトを認識させ、検索結果に表示させるための第一ステップになります。
  • サイト構造や更新状況を把握する手段としても利用されます。
  • Web上のデータ収集・分析を効率化できます。

デメリット・注意点

  • クロール頻度が高すぎると、Webサーバーに負荷がかかる可能性があります。
  • 不適切な設定によって、重要なページがクローリング対象外になることがあります。
  • JavaScriptで生成されるコンテンツは正しくクロールされない場合があります。
  • 著作権や利用規約に反する形での情報収集(スクレイピング)は法的トラブルにつながるおそれがあります。

まとめ

クローリングとは、検索エンジンのクローラーがWebページを巡回して情報を収集するプロセスです。
この作業によって得られた情報がインデックスに登録され、検索結果に反映されます。検索エンジンからの流入を得るためには、適切にクローリングされるようサイト構造や設定を整えておくことが重要です。