検索エンジンとの紳士協定「robots.txt」の書き方と使い方

robotx.txtとは、サイトを巡回する検索エンジンの情報収集を制御するためのテキストファイルです。

主に、次の3つの用途で使われます。

（1）検索結果ページに表示したくないディレクトリを指定する

（2）（1）のディレクトリから例外として検索結果に加えたいページを指定する

（3）サイトマップの位置を指定する

これだけではわかりにくいかもしれませんね。

以下、具体的な例でご説明していきます。

robots.txtの最も重要な役割は、検索エンジンに「見てほしくない部分」（検索結果ページに表示させたくない部分）を指定することです。

【robots.txtの記載例1】

User-agent: *
Disallow: /見てほしくない部分

※User-agentは、サイトを巡回する検索エンジンのロボットを指定する項目です。

「User-agent: *」で、すべてのロボットに対して以下を指定する」の意味となります。

例えば、楽天市場のrobots.txtでは、画像やCGI・バックアップなどのデータの入ったディレクトリがDisallow指定されています。

※楽天市場のrobots.txt

「見てほしくない部分」と指定したディレクトリの中にも、その指定を除外したいファイルが存在することがあります。

その場合、以下のように記載し例外的に「見てほしい部分」を指定することが可能です。

【robots.txtの記載例2】

User-agent: *
Disallow: /見てほしくない部分
Allow: /見てほしい部分

Amazonのrobots.txtを見てみると「ほしい物リスト」関連のデータが入っていると思われるディレクトリ/wishlist/が「見てほしくない部分」に指定されています。

しかし、そのディレクトリに含まれる「ほしい物リストの作り方のページ」や「ブラウザに『ほしい物リストに追加』ボタンを追加するためのアドオン説明ページ」は「見てほしい部分」として例外指定されています。

※Amazonのrobots.txt

robots.txtには、XMLサイトマップの場所を記載することもできます。

GoogleウェブマスターツールにはXMLサイトマップの送信機能がありますが、サイトマップURLをrobots.txtに記載しておけば、Google以外の検索エンジンにも、サイトマップの位置を通知することができます。

【robots.txtの記載例3】

User-agent: *
Disallow: /見てほしくない部分
Allow: /見てほしい部分
Sitemap: サイトマップURL

検索結果から除外したい情報がなければ必須ではありませんが、XMLサイトマップの位置を記載したrobots.txtがあれば、Google以外の検索エンジンもサイトの更新情報や新しいページの情報を効率的に収集することができます。

大きな手間ではありませんので、設置しておいてはいかがでしょうか。

※参考

Googleウェブマスターツールヘルプ

「robots.txt ファイルを使用してページをブロックまたは削除する」

「サイトマップの送信」

Yahoo!JAPAN検索

「サイトマップによる効率的な巡回」

簡単出品王子