このページ、インデックスから削除したいんだけど、disallowとnoindexはどう違うのか混乱してきたぞ
そう思っている方いらっしゃいませんか??
結論は下記の通り。
- disallow
-
Googleにクロール(アクセス)させないようにする
- noindex
-
Googleにインデックス(登録)させないようにする
項目 | noindex | disallow |
検索結果 | 表示されない | 表示されない |
クロール | クロールされる | クロールされない |
似て非なる内容ですが、基本はクロールするかしないかです。
SEOの基礎や概念から知りたい人は、こちらもどうぞ!
【全てのWebサイトに共通】SEOの概念と基本的な理解を言えますか?
disallowとは
disallowとは、クローラーに対して『アクセス制限をする意味合い』を持ちます。
簡単な言葉で言い換えると『アクセス許可の有無』です。
主な使い方としては、robots.txtに記述します。
User-Agent: *
Disallow: /hogehoge.html
上記例だと、「hogehoge.htmlにはアクセスしないでね」という命令文となります。
つまり、Googleに登録(インデックス)されるかどうかのスタートとなる、クローラーがURLに巡回する際に案内をするかどうかの起点となるのがdisallow処理となります。
※反対に許可する場合はAllow処理です
『disallow=アクセス制限』ということになりますね。
disallowの見落としがちな点!noindexとの併用はダメ
見落としがちな点は、disallowで制限されたページに何が書いてあるのかをクローラーも知ることができないということです。
良くある間違いが、インデックスされてしまっているURLを削除(noindex)したいけど、各URLに記述するのは面倒くさいから、robots.txtにまとめてアクセス制限しちゃえ!という発想。
結論をいうと、このやり方は間違いで、登録(インデックス)されてしまっているURLにdisallow処理を施してもインデックスは残っています。
なぜなら、アクセス制御をrobots.txtに記載してしまうと、指定されたURLにnoindexが書いてあるかどうかも分からないからです。
そうするとクローラーが訪れないので、更新されないだけなので登録(インデックス)はされ続けます。
noindex ディレクティブを有効にするためには、robots.txt ファイルでページやリソースをブロックせず、クローラがページにアクセスできるようにする必要があります。robots.txt ファイルでページがブロックされている場合、またはクローラがページにアクセスできない場合、クローラは noindex ルールを認識しません。そのため、たとえばそのページが他のページからリンクされていれば、検索結果に引き続き表示される可能性があります。
Google検索セントラル
完全に該当URLやディレクトリをインデックス処理させないようにするには、サーチコンソールから削除申請を出した後にrobots.txtに該当URLを記述してください。
noindexとは
noindexとは、検索結果に表示させないようにする記述方法です。
no(否定)index(index)なので『indexさせない(しない)』ということになります。
ここで注意してほしいのは、登録(インデックス)はしないということです。
disallowはrobots.txtに記述しましたが、noindexは<head>内に記述をすればOKです。
<meta name="robots" content="noindex">
disallowとnoindexの決定的な違いとは
コンテンツが弱いのにindexされてしまっていたり、Googleにアクセスしないで欲しい時や重複してしまっているページに対して使用するのが「disallow」と「noindex」。
disallowとnoindexは親戚みたいな関係ですけど、イコールではありません。
結論から言うと下記の違いがあります。
- disallow
-
Googleにクロール(アクセス)させないようにする
- noindex
-
Googleにインデックス(登録)させないようにする
整理すると下記となります。
項目 | noindex | disallow |
検索結果 | 表示されない | 表示されない |
クロール | クロールされる | クロールされない |
ちなみに、Googleの基本のおさらいですが、ランキングまでの順序は下記の通り。
disallowが効くのはココ
noindexが効くのはココ
検索結果に表示
Googleを始めとする検索エンジンは、数多くのURLをいつでも引き出せるように、一時的に情報として保存しているんですね。
そこにラベルとか索引のような形でいつでも引き出せるような形にしておいて、
誰かが「みかんについて」と調べたら「みかんについて」に関連がありそうなURLを物凄い勢いで情報を引っ張り出してきています。
言い換えると、「登録(インデックス)」されないと検索結果に表示されません。
そのためインデックスされるところから全ては始まります。
現実世界に置き換えましょう。
本屋に行って受付の美人なお姉さんに、「みかんについて」の情報が知りたいんですけどと言ったら「これとこれとこれと、あとこれもありますね」ってほぼ瞬時に何万件も教えてくれるとイメージできますか?笑
予め検索されるキーワードに関連しそうなページに目印をつけて倉庫(データベース)に情報を保管しておく必要があるんです。
これが「登録(インデックス)」の仕組みです。
まとめ
disallowとnoindexの違いを紹介しましたが、理解できたでしょうか?
どちらも、とても便利な設定ですが、内容に誤りがあるとWebサイトに大きな影響を及ぼすので注意が必要です!