SEOだけではなくWebサイト公開・修正をする際に、重要となるrobots.txtは取扱に注意が必要です。
特に、リニューアル公開直前のrobots.txtファイルはアクセス制御しているケースが多いのですが、そのまま削除・修正をしないまま公開後も残っているせいで、せっかくリニューアルしても一切各種ボット(クローラー)に認識されないこともあります。
例えば、SEOにおいては検索結果に表示されない、新しい情報に更新されない=評価されないという事象に直面します。
正しい理解をして対策しましょう。
SEOの基礎や概念から知りたい人は、こちらもどうぞ!
【全てのWebサイトに共通】SEOの概念と基本的な理解を言えますか?
robots.txtとは
robots.txtとは、検索エンジン(Googleだけではない!)や各種クローラーボットに、「発見(アクセス)しても良いページやファイル」を指定することができます。
主に、サイトでのリクエストのオーバーロードを避けるために使用され、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、
Google検索セントラルnoindex
を使用してインデックス登録をブロックするか、ページをパスワードで保護します。
robots.txtの書き方とルール
robots.txt ファイルの作成には、ほぼ全てのテキストエディタを使用して作成できるので簡単です!
User-agent: *
Allow: /
Sitemap: http://www.hogehoge.com/sitemap.xml
作成できるツールは、下記のようなものです。
- メモ帳
- テキストエディター
- vi
- Emacs
ファイルの保存名を「robots.txt」にすればOKです。
ただし、Googleに読み込んで欲しい場合は、UTF-8でエンコードされたテキストファイルにする必要があります。
※良く分からなかったら、とりあえずUTF-8のテキストファイルで保存しておけばOKです!
簡単に作成できるので、メモ帳やテキストエディターで作成することが多いです。ワープロソフトは使用しないように注意しましょう。
理由は、保存する際に独自の形式でファイルを保存することが多いため機械の中では読み込めない事象が発生するからです。
ファイルを保存する際にダイアログで選択を求められたら、必ず UTF-8 エンコードを指定します。
Google検索セントラル
Webサイトへ設置する方法
大まかな流れは下記の通りで、アクアセル許可するURLやファイルの指定します。
「User-agent:」のあとに指定します。特に指定しない場合は省略でも可。
「allow: ●●(←URLやパス)」もしくは「disallow: ●●(←URLやパス)」で指定。
「Sitemap: ●●(←sitemap.xmlの絶対パス)」を指定。
それぞれに向けた記述指定が用意されているので、正しく理解したうえで活用しよう。
正しく理解しないまま、うっかり更新を忘れていた、ということがあると検索結果に表示されないことが続くケースも散見します。
User-agent
User-agentは、GoogleやYahooのような検索エンジンだけではなく調査ツールも含めた自動的なクロール処理をするボット(クローラー)全般に対するアクセスの許可有無を促すものです。
User-agent: ●●(ここに対象ボット(クローラー)名を記載)
全てに許可する場合は、
User-agent: *
と表記します。
allow
allowは直訳したままの通り、「許可」となります。
許可をしたいファイルへのURLを記載します。その際、相対パスでの記述でも構いません。
allow: /hogehoge-ok/
全てに対して許可する場合は
allow: /
と表記することもOKですが、そもそも記述を省略することもできます。
disallow
disallowは直訳したままの通り、「許可しない」となります。
アクセスをさせないファイルへのURLを記載します。その際、相対パスでの記述でも構いません。
disallow: /hogehoge-ng/
全てのボット(クローラー)に対してアクセスを拒否する場合は
disallow: /
と記述します。
ちなみに、サイトリニューアル時の状態に良く使われますが、公開時にrobots.txtの記載を修正することを忘れる方が多いです。
サイト全体へのアクセスを拒否すると、ボット(クローラー)が訪れてくれないため新しいページを認識してくれません。
Sitemap
用意したsitemap.xmlの記述を行うことによって、URL一覧が記載されたsitemap.xmlへとボット(クローラー)を誘導できます。
記述する際は、絶対パスでなければいけません。
Sitemap: https://www.hogehoge.com/sitemap.xml
相対パスだと読み取れない可能性もあるので、絶対パスを心がけましょう。
複数のボット(クローラー)への記述指定もできる
robots.txtは複数の記述を行うことで、「もし●●だったら〜」のような分岐を作ることも可能です。
User-agent: Googlebot
Disallow: /noaccess/
User-agent: *
Allow: /
Sitemap: https://www.hogehoge.com/sitemap.xml
上記の場合は、
- まずGoogleに/noaccess/ディレトリ配下へのアクセスを全て拒否する
- Google以外の全てのクローラーには全ページへのアクセスを許可する
- sitemap.xmlファイルへのアクセスを許可する
という意味になります。このように、複数のボット(クローラー)への記述指定もできるので適材適所に変更すると良いでしょう。
まとめ
Webサイトを運営するからには避けては通れないrobot.txtの注意点と書き方の説明でした。
新規サイト公開、リニューアル中から公開の際に、disallow: / の記述削除を怠るといつまで経っても各種ボット(クローラー)に認識されません。
そのようなことがないように、正しく理解した上でチェックしましょう。