Google検索の仕組み「クロール」と「インデックス」の違い

こんにちは。koyamaです。
「検索上位化」を狙う皆さん、そもそも“検索の仕組み”をきちんと理解していますか?
GoogleでもYahoo!でも、検索の仕組みは同じです。
重要なキーワードは2つ。

  1. クロール
  2. インデックス

今回は、Google検索の仕組みである「クロール」「インデックス」について、それぞれの概要や検索表示に与える影響についてまとめます。

クロールとは何か

まずクロールとは、“crawler(クローラー)と呼ばれるインターネットの上にあるWeb サイトやホームページの情報をかき集めるロボットが、自分のサイトに来ること”です。

「検索」はクローラーのおかげ

検索エンジンは、クローラーというロボットを大量に抱えており、それらをインターネット中に分散させています。
そしてクローラーは、リンクとリンクで繋がったホームページ上を縦横無尽に駆け回ることによって、そのWeb サイトの情報をGoogleに通知します。

クローラーが集める情報とは?

クローラーがかき集める情報は多岐にわたります。

  • ウェブサイトの住所になるドメインやカテゴリ
  • タグはどのような種類があるのか
  • 文章は思うように書かれているのか
  • 他のサイトとの違いはどのような部分があるのか
  • どのような画像が掲載されているか
  • どのようなコードが記載されているか

などなど、様々な情報を全てクローラーがかき集めてくるのです。
そして、このクローラーが持ってきた情報がなければ、Googleにインデックスされることはありません。

インデックスとは何か

次にインデックスとは、簡単に言うと“クローラーが持ってきたWeb サイトやホームページの情報をGoogle に登録すること”です。
クローラーが持ってきた、Web サイトの様々な情報を全てかき集め、登録を行うのです。

インデックスされたものが「検索結果」


つまり、クローラーが自分のWeb サイトに来ることがなければ、インデックスされることもありません。
上手くクロールされなければ、自分の狙い通りのインデックスをされないのです。
クローラーによってかき集められた情報はGoogle にインデックスされ、初めて「検索結果」として現れます。
自分のサイトをクロールされたとき、インデックスとクロールを混同して使うことが多いのですがクロールとインデックスは全く別物であるということを認識しなくてはなりません。

「no Index」に注意しよう

よく見かける「no Index」ですが、これはインデックスされないためのタグです。
もっと具体的に言うと、“クローラーに自分のサイトを巡回させないためのタグ”です。
インデックスされるためには、クローラーにクロールされる必要がありますが、「no Index」というタグを見たクローラーは、そのホームページには行かないようになってしまいます。
そして、結果としてインデックスはされません。
初歩的なことではありますが、「no Index」には注意が必要です。

似て非なる「クロール」と「インデックス」

以上が、「クロール」と「インデックス」についてです。
…私、想像以上に全然分かっていませんでした!(反省)
今まで、「インデックス」という言葉はなんとなく聞いたことがありましたが、“Google の検索結果に出ること”みたいな捉え方をしていました。
正確には…

  • クロール:クローラーというロボットが自分のホームページをまんべんなく調べ尽くすこと
  • インデックス:その情報を元にGoogle のサーバーに登録されること

ということですね。
両者の働きをきちんと理解することで初めて、的確なSEO対策が行えるのです!勉強になりました。
次回は、「適切なクロール・インデックスのために必要な対策」について調べようかと思います。お楽しみに―。