MENU
はっち
30代の2児のパパ。上場企業のWebマーケティング部署にて累計1,000以上のSEO施策を実行。SEO対策のセカンドオピニオンとして、躍動中。伴走型のコンサルも並行しています。

robots.txtの概要とSEOの効果!正しく設定しないと評価されない可能性あり

robots.txtの取り扱いには要注意

SEOだけではなくWebサイト公開・修正をする際に、重要となるrobots.txtは取扱に注意が必要です。

特に、リニューアル公開直前のrobots.txtファイルはアクセス制御しているケースが多いのですが、そのまま削除・修正をしないまま公開後も残っているせいで、せっかくリニューアルしても一切各種ボット(クローラー)に認識されないこともあります。

例えば、SEOにおいては検索結果に表示されない、新しい情報に更新されない=評価されないという事象に直面します。

正しい理解をして対策しましょう。

SEOの基礎や概念から知りたい人は、こちらもどうぞ!
【全てのWebサイトに共通】SEOの概念と基本的な理解を言えますか?

書いてあること

robots.txtとは

robots.txtとは、検索エンジン(Googleだけではない!)や各種クローラーボットに、「発見(アクセス)しても良いページやファイル」を指定することができます。

主に、サイトでのリクエストのオーバーロードを避けるために使用され、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex を使用してインデックス登録をブロックするか、ページをパスワードで保護します。

Google検索セントラル

robots.txtの書き方とルール

robots.txt ファイルの作成には、ほぼ全てのテキストエディタを使用して作成できるので簡単です!

User-agent: *
Allow: /

Sitemap: http://www.hogehoge.com/sitemap.xml

作成できるツールは、下記のようなものです。

  • メモ帳
  • テキストエディター
  • vi
  • Emacs

ファイルの保存名を「robots.txt」にすればOKです。
ただし、Googleに読み込んで欲しい場合は、UTF-8でエンコードされたテキストファイルにする必要があります。

※良く分からなかったら、とりあえずUTF-8のテキストファイルで保存しておけばOKです!

簡単に作成できるので、メモ帳やテキストエディターで作成することが多いです。ワープロソフトは使用しないように注意しましょう。

理由は、保存する際に独自の形式でファイルを保存することが多いため機械の中では読み込めない事象が発生するからです。

ファイルを保存する際にダイアログで選択を求められたら、必ず UTF-8 エンコードを指定します。

Google検索セントラル

Webサイトへ設置する方法

大まかな流れは下記の通りで、アクアセル許可するURLやファイルの指定します。

STEP
ユーザーエージェントの指定

「User-agent:」のあとに指定します。特に指定しない場合は省略でも可。

STEP
アクセスを許可するURLやファイルの指定

「allow: ●●(←URLやパス)」もしくは「disallow: ●●(←URLやパス)」で指定。

STEP
検索エンジン向けのサイトマップの指定

「Sitemap: ●●(←sitemap.xmlの絶対パス)」を指定。

それぞれに向けた記述指定が用意されているので、正しく理解したうえで活用しよう。

正しく理解しないまま、うっかり更新を忘れていた、ということがあると検索結果に表示されないことが続くケースも散見します。

User-agent

User-agentは、GoogleやYahooのような検索エンジンだけではなく調査ツールも含めた自動的なクロール処理をするボット(クローラー)全般に対するアクセスの許可有無を促すものです。

User-agent: ●●(ここに対象ボット(クローラー)名を記載)

全てに許可する場合は、

User-agent: *

と表記します。

allow

allowは直訳したままの通り、「許可」となります。

許可をしたいファイルへのURLを記載します。その際、相対パスでの記述でも構いません。

allow: /hogehoge-ok/

全てに対して許可する場合は

allow: /

と表記することもOKですが、そもそも記述を省略することもできます。

disallow

disallowは直訳したままの通り、「許可しない」となります。

アクセスをさせないファイルへのURLを記載します。その際、相対パスでの記述でも構いません。

disallow: /hogehoge-ng/

全てのボット(クローラー)に対してアクセスを拒否する場合は

disallow: /

と記述します。

ちなみに、サイトリニューアル時の状態に良く使われますが、公開時にrobots.txtの記載を修正することを忘れる方が多いです。

サイト全体へのアクセスを拒否すると、ボット(クローラー)が訪れてくれないため新しいページを認識してくれません。

Sitemap

用意したsitemap.xmlの記述を行うことによって、URL一覧が記載されたsitemap.xmlへとボット(クローラー)を誘導できます。

記述する際は、絶対パスでなければいけません。

Sitemap: https://www.hogehoge.com/sitemap.xml

相対パスだと読み取れない可能性もあるので、絶対パスを心がけましょう。

複数のボット(クローラー)への記述指定もできる

robots.txtは複数の記述を行うことで、「もし●●だったら〜」のような分岐を作ることも可能です。

User-agent: Googlebot
Disallow: /noaccess/

User-agent: *
Allow: /

Sitemap: https://www.hogehoge.com/sitemap.xml

上記の場合は、

  1. まずGoogleに/noaccess/ディレトリ配下へのアクセスを全て拒否する
  2. Google以外の全てのクローラーには全ページへのアクセスを許可する
  3. sitemap.xmlファイルへのアクセスを許可する

という意味になります。このように、複数のボット(クローラー)への記述指定もできるので適材適所に変更すると良いでしょう。

まとめ

Webサイトを運営するからには避けては通れないrobot.txtの注意点と書き方の説明でした。

新規サイト公開、リニューアル中から公開の際に、disallow: / の記述削除を怠るといつまで経っても各種ボット(クローラー)に認識されません。

そのようなことがないように、正しく理解した上でチェックしましょう。

よかったらシェアしてね!
  • URLをコピーしました!
書いてあること