robots.txt(ロボッツテキスト)とは? SEOにおける役割と正しい設定方法

あなたはウェブサイトを運営していて、「robots.txt」というファイル名を目にしたことはありませんか? これは、Googleの検索エンジンをはじめとするウェブクローラーに、あなたのサイトのどのページをクロールしてよいか、どのページをクロールしてはいけないかを伝えるための重要なファイルです。

robots.txtは、サイト運営者と検索エンジンが円滑にコミュニケーションを取るための、いわば「交通整理のルールブック」。このファイルを適切に設定することで、サイトのSEOパフォーマンスを向上させることができます。

この記事では、robots.txtの基本的な役割から、なぜSEOにおいて重要なのか、そして正しい設定方法と注意点まで、初心者にもわかりやすく徹底的に解説します。あなたのサイトをGoogleに効率よくクロールしてもらうためのヒントを見つけていきましょう。

robots.txt(ロボッツテキスト)とは

robots.txtは、ウェブサイトのルートディレクトリ(最上位の階層)に配置されるテキストファイルです。このファイルは、Googleのクローラー(Googlebot)などの検索エンジンロボットに対して、サイト内のどのページやディレクトリにアクセスしてよいかを指示するために使われます。

robots.txtの基本的な役割

robots.txtは、以下の2つの主要な役割を果たします。

  • クローラーへの指示:
    • robots.txtは、クローラーがサイトをクロールする際に、最初に参照するファイルです。
    • このファイルに書かれた指示に従って、クローラーはクロールを進めます。例えば、「このディレクトリにはアクセスしないでください」という指示があれば、クローラーはその指示に従います。
  • サーバーへの負荷軽減:
    • クローラーは、サイト内の全てのページを巡回しようとしますが、その際にサーバーに大きな負荷がかかることがあります。
    • robots.txtでクロール不要なページ(例えば、ログインページ、管理画面など)を指定することで、クローラーのアクセスを制限し、サーバーへの負荷を軽減することができます。

robots.txtは「クロール」を制御するもの

ここで重要なのは、robots.txtはあくまで「クロール」を制御するためのものであり、「インデックス」を制御するものではないということです。

  • クロール(Crawl): クローラーがサイトのページを訪れ、内容を読み込むこと。
  • インデックス(Index): クロールした内容を、Googleのデータベースに登録すること。

つまり、robots.txtで「このページをクロールしないでください」と指示しても、他のページからのリンクなどでそのページの存在がGoogleに知られている場合、検索結果に表示されてしまう可能性があります。

検索結果に表示させたくないページは、noindexタグという別の方法で制御する必要があります。

robots.txtの正しい設定方法

robots.txtは、非常にシンプルで、いくつかの命令を記述するだけで設定できます。

基本的な命令

robots.txtは、以下の2つの基本的な命令で構成されています。

  • User-agent: 誰(どのクローラー)に対して指示を出すかを指定します。
    • User-agent: は「すべてのクローラー」を意味します。
    • User-agent: Googlebot は「Googleのクローラーのみ」を意味します。
  • Disallow: クロールを禁止するディレクトリやページを指定します。
    • Disallow: / は「サイト全体をクロールしないでください」という指示です。
    • Disallow: /private/ は「/private/ ディレクトリ以下をクロールしないでください」という指示です。

設定例

以下は、一般的なrobots.txtの記述例です。

例1:サイト全体をクロールしてほしい場合

User-agent: 
Disallow:

Disallow: の後に何も記述しないことで、すべてのクローラーに対してクロールを許可します。

例2:特定のディレクトリのクロールを禁止したい場合

User-agent: 
Disallow: /wp-admin/
Disallow: /private-area/

すべてのクローラーに対して、/wp-admin//private-area/ ディレクトリ以下のクロールを禁止します。

例3:Googlebotのみ特定のディレクトリを禁止したい場合

User-agent: Googlebot
Disallow: /private/

GoogleのクローラーであるGooglebotのみ、/private/ ディレクトリ以下のクロールを禁止します。

Sitemapの記述

robots.txtには、XMLサイトマップの場所を記述しておくことが推奨されています。

User-agent: 
Disallow:
Sitemap: https://www.your-site.com/sitemap.xml

これにより、クローラーは効率的にサイトマップを見つけ、サイト内のページをインデックスしやすくなります。

robots.txt設定時の注意点

robots.txtは、設定を誤ると、SEOの評価に悪影響を及ぼす可能性があります。以下の点に注意しましょう。

1. 重要なページをDisallowにしない

最も重要な注意点です。

  • 問題: サイトの主要なコンテンツや、検索結果に表示させたいページをDisallowにすると、クローラーがそのページをクロールできなくなり、検索結果に表示されなくなります
  • 確認方法: 設定後、Google Search Consoleの「robots.txtテスター」で、正しく設定できているか必ず確認しましょう。

2. robots.txtはクロールを「抑制」するだけ

前述の通り、robots.txtはインデックスを制御するものではありません。

  • 問題: Disallowで指定したページでも、他のサイトからリンクが張られている場合、Googleはそのページの存在を知ることができ、検索結果に表示されてしまうことがあります。
  • 解決策: 検索結果に絶対に表示させたくないページは、Disallowではなく、<head>セクション内に<meta name="robots" content="noindex">を記述して、noindexタグを設定しましょう。

3. robots.txtのファイル名は正確に

ファイル名は必ず「robots.txt」とし、サイトのルートディレクトリに配置しましょう。ファイル名が異なっていたり、別の場所に配置されていたりすると、クローラーはファイルを認識できません。

まとめ

robots.txtは、ウェブサイトのクローラーに対して、クロールの許可・禁止を指示するためのテキストファイルです。

robots.txtを正しく設定することで、サーバーへの負荷を軽減し、クローラーがサイト内の重要なページを効率よく巡回できるようになります。これにより、サイトのインデックスを促進し、SEOの評価を向上させることができます。

しかし、設定を誤ると、重要なページが検索結果に表示されなくなるなど、SEOに悪影響を及ぼす可能性があります。この記事でご紹介した設定方法と注意点を参考に、robots.txtを正しく活用し、サイトのSEOパフォーマンスを改善していきましょう。