MENU
はっち
30代の2児のパパ。上場企業のWebマーケティング部署にて累計1,000以上のSEO施策を実行。SEO対策のセカンドオピニオンとして、躍動中。伴走型のコンサルも並行しています。

【日本語】ScreamingFrogのスパイダークロールタブの詳細<国内初>

【日本語】ScreamingFrogのスパイダークロールタブの詳細

このページでは、ScreamingFrogのスパイダークロールタブの英語ページを日本語で紹介しています。

Configration > Spiderタブの機能説明
Configration > Spiderタブの機能説明です。

詳細は原文を確認してください。

2023年2月現在において、日本初となる『Screaming Frog SEO Spider』の日本語訳です。

書いてあること

Crawlタブ

上記「Crawl」タブの説明
「Crawl」タブの説明

設定内にある「Crawl」タブの機能およびチェック有無の効果の違いを説明します。

画像

Configuration > Spider > Crawl > Images
(設定 > スパイダー > クロール > 画像)

画像の保存とクロールを別々に選択することができます。

「store(保存)」の設定を解除すると、img要素内の画像ファイルは保存されず、SEOスパイダーにも表示されなくなります。

<img src="image.jpg">

「crawl(クロール)」の設定を解除すると、img要素内の画像ファイルは、レスポンスコードを確認するためにクロールされなくなります。

その他の方法でリンクされた画像は、アンカータグを使用するなどして保存され、クロールされます。

アンカータグでリンクされた画像には、「exclude(除外)」または「custom robots.txt(カスタムrobots.txt)」を使用することができます。

Altテキストを表示する方法と、見つからないAltテキストを探す方法」をお読みください。

CSS

Configuration > Spider > Crawl > CSS
(設定 > スパイダー > クロール > CSS)

これにより、CSSファイルの保存とクロールを独立して行うことができます。

「store(保存)」の設定を解除すると、CSSファイルが保存されなくなり、SEOスパイダーに表示されなくなります。

「crawl(クロール)」設定を解除すると、CSSをクロールしてレスポンスコードを確認することはありません。

JavaScript

Configuration > Spider > Crawl > JavaScript
(設定 > スパイダー > クロール > JavaScript)

JavaScriptファイルの保存とクロールを別々に選択することができます。

「store(保存)」設定を解除すると、JavaScriptファイルが保存されず、SEOスパイダーに表示されなくなります。

「crawl(クロール)」設定を解除すると、JavaScriptファイルをクロールしてレスポンスコードを確認することができなくなります。

SWF

 Configuration > Spider > Crawl > SWF
(設定>スパイダー>クロール>SWF)

SWF(Adobe Flash File形式)ファイルの保存とクローリングを別々に選択することができます。

「store(保存)」設定を解除すると、SWFファイルは保存されず、SEOスパイダーにも表示されなくなります。

「crawl(クロール)」設定を解除すると、SWFファイルをクロールしてレスポンスコードを確認することができなくなります。

内部リンク

Configuration > Spider > Crawl > Internal Hyperlinks
(設定 > スパイダー > クロール > 内部ハイパーリンク)

初期設定では、SEOスパイダーは内部リンクをクロールして保存します。

ここで言う内部リンクとは、SEOスパイダーに入力されたものと同じサブドメインまで含めたURLのことを指します。ハイパーリンクとは、HTMLのアンカータグに含まれるURLのことです。

「crawl(クロール)」を無効にすることで、アンカータグに含まれるURLのうち、開始URLと同じサブドメインにあるURLは、追跡・クロールされなくなります。

「store(ストア)」と「crawl(クロール)」の両方を無効にすることは、リストモードクロールの深さを削除する際に便利です。これは、SEOスパイダーがアップロードされたURLと選択された他のリソースやページリンクをクロールすることを可能にしますが、内部リンクはもうありません。

例えば、リストモードでURLのリストを提供し、それらとhreflangリンクのみをクロールすることができます。

あるいは、デスクトップ用URLのリストを提供し、そのAMPバージョンのみを監査することもできます。URLのリストをアップロードし、その中の画像や外部リンクなどを監査することも可能です。

外部リンク

Configuration > Spider > Crawl > External Links
(設定 > スパイダー > クロール > 外部リンク)

外部リンクの保存とクロールを別々に選択することができます。
外部リンクとは、クロール中に発見した、クロールを開始したドメインとは異なるドメインのURLのことです。

「store(保存)」設定を解除すると、外部リンクは保存されず、SEOスパイダーにも表示されなくなります。

「crawl(クロール)」設定を解除すると、外部リンクがクロールされて応答コードが確認されなくなります。

なお、これには画像、CSS、JS、hreflang属性、canonicals(外部の場合)が含まれることがあります。

Caonical(正規化)

Configuration > Spider > Crawl > Canonicals(設定 > スパイダー > クロール > カノニカル)

初期設定では、SEOスパイダーはcanonical(canonical link elementまたはHTTPヘッダー)を保存してクロールし、その中に含まれるリンクを発見に使用します。

「store(保存)」設定を解除すると、canonicalが保存されず、SEOスパイダーに表示されなくなります。

「crawl(クロール)」設定を解除すると、正規化されたURLはクロールされなくなります。「store」 のみを選択した場合、それらはインターフェイスで報告され続けますが、発見には使用されないだけです。

canonicalを監査する方法については、こちらのガイドをご覧ください。

ページネーション(rel next/prev)

Configuration > Spider > Crawl > Pagination (Rel Next/Prev)
(設定 > スパイダー > クロール > ページネーション(Rel Next/Prev))

初期設定では、SEOスパイダー は rel=”next” と rel=”prev” 属性をクロールせず、その中に含まれるリンクを発見するために使用することはありません。

「store(保存)」設定を解除すると、rel=”next” と rel=”prev” の属性が保存されず、SEOスパイダーに表示されなくなります。

「crawl(クロール)」の設定を解除すると、rel=”next” と rel=”prev” で検出されたURLはクロールされなくなります。

rel=”next “とrel=”prev “のページネーション属性の監査方法については、こちらのガイドをご覧ください。

Hreflang

Configuration > Spider > Crawl > Hreflang(設定 > スパイダー > クロール > Hreflang)

SEOスパイダーは初期設定でhreflang属性を抽出し、hreflangの言語・地域コードとURLをhreflangタブに表示します。

ただし、「Crawl hreflang(hreflangをクロール)」にチェックされていない限り、hreflang属性で見つかったURLはクロールされず、発見に使用されません。
この設定を有効にすると、リストモードでアップロードされたXMLサイトマップからhreflang URLが抽出されるようになります。

「store(保存)」の設定を解除すると、hreflang属性が保存されず、SEOスパイダーに表示されなくなります。

「crawl(クロール)」の設定を解除すると、hreflangで発見されたURLはクロールされなくなります。

Hreflangを監査する方法については、こちらのガイドをご覧ください。

Configuration > Spider > Crawl > AMP(設定 > スパイダー > クロール > AMP)

初期設定では、SEOスパイダーはrel=”amphtml “リンクタグに含まれるAMP URLの詳細を抽出せず、その後AMPタブの下に表示されます。

「store(保存)」の設定を解除すると、rel=”amphtml” リンクタグに含まれるURLは保存されず、SEOスパイダーに表示されなくなります。

「crawl(クロール)」の設定を解除すると、rel=”amphtml “のリンクタグに含まれるURLはクロールされなくなります。

AMPを監査する際には、両方の設定オプションを有効にすることをお勧めします。Accelerated Mobile Pages (AMP)の監査と検証の方法については、こちらのガイドをご覧ください。

メタリフレッシュ

Configuration > Spider > Crawl > Meta Refresh
(設定 > スパイダー > クロール > メタリフレッシュ)

初期設定では、SEOスパイダーはmeta refreshに含まれるURLを保存し、クロールします。

<meta http-equiv="refresh" content="4; URL='www.screamingfrog.co.uk/meta-refresh-url'"/>。

「sotre(ストア)」設定を解除すると、meta refreshの詳細が保存されず、SEOスパイダー内に表示されなくなります。

「crawl(クロール)」の設定を解除すると、meta refreshで発見されたURLはクロールされなくなります。

iframe

Configuration > Spider > Crawl > iframes(設定 > スパイダー > クロール > iframes)

初期設定では、SEOスパイダーはiframe内に含まれるURLを保存し、クロールします。

<iframe src="https://www.screamingfrog.co.uk/iframe/"></iframe>

「store(保存)」設定を解除すると、iframeの詳細が保存されず、SEOスパイダー内に表示されなくなります。

「crawl(クロール)」の設定を解除すると、iframe内で発見されたURLはクロールされなくなります。

Configuration > Spider > Crawl > Check Links Outside of Start Folder
(設定 > スパイダー > クロール > 開始フォルダ外のリンクをチェックする)

開始するサブフォルダ外のリンクをクロールしない場合は、このボックスのチェックを外してください。このオプションを使用すると、開始サブフォルダ内をクロールしても、それらのURLのリンク先が開始フォルダの外にある場合は、そのリンクをクロールする機能が提供されます。

開始フォルダ外をクロールする

Configuration > Spider > Crawl > Crawl Outside of Start Folder
(設定 > スパイダー > クロール > 開始フォルダ外をクロールする)

初期設定では、SEOスパイダーはクロールするサブフォルダ(またはサブディレクトリ)だけを前方からクロールします。しかし、特定のサブフォルダからクロールを開始し、Webサイト全体をクロールしたい場合は、このオプションを使用します。

すべてのサブドメインをクロールする

Configuration > Spider > Crawl > Crawl All Subdomains
(設定 > スパイダー > クロール > すべてのサブドメインをクロールする)

初期設定では、SEOスパイダーはあなたがクロールを指示したサブドメインのみをクロールし、それ以外のサブドメインは外部サイトとして扱います。これらは1つのレベルまでしかクロールされず、「外部」タブに表示されます。

例えば、開始URLとして「https://www.screamingfrog.co.uk」を入力した場合、「https://cdn.screamingfrog.co.uk」や「https://images.screamingfrog.co.uk」などのクロールで発見された他のサブドメインは、www.google.co.uk などの他のドメインと同様に「外部」として扱われることになります。

ルートドメイン(https://cdn.screamingfrog.co.uk や https://images.screamingfrog.co.uk など)のすべてのサブドメインをクロールするには、この設定を有効にする必要があります。

CDNs設定オプションを使用すると、外部URLを内部URLとして扱うことができます。

ルートドメインからクロールを開始し、最初にサブドメインを指定しない場合(たとえば、https://screamingfrog.co.uk からクロールを開始する場合)、初期設定ですべてのサブドメインがクロールされます。これは、Google検索におけるsite:クエリの挙動に似ています。

内部または外部の「nofollow」をフォローする

Configuration > Spider > Crawl > Follow Internal/External “Nofollow”
(設定 > スパイダー > クロール > 内部/外部 “Nofollow “をフォローする)

初期設定では、SEOスパイダーは「nofollow」「sponsored」「ugc」属性を持つ内部リンクや外部リンク、meta nofollowタグやX-Robots-Tag HTTP Headerにnofollowを持つページからのリンクはクロールしません。

SEOスパイダーにクロールさせたい場合は、この設定オプションを有効にするだけです。

クロールリンクされたXMLサイトマップ

Configuration > Spider > Crawl > Crawl Linked XML Sitemaps
(設定 > スパイダー > クロール > リンクされたXMLサイトマップをクロールする)

SEOスパイダーは初期設定でXML Sitemapsをクロールしません(通常の「Spider」モードの場合)。XML Sitemapsをクロールし、Sitemapsタブのフィルタに情報を入力するには、この設定を有効にする必要があります。

「Crawl Linked XML Sitemaps(XML Sitemaps内のリンクをクロールする)」の設定を有効にすると、「Auto Discover XML Sitemaps via robots.txt」を選択するか、「Crawl These Sitemaps」にチェックを入れてXML Sitemapのリストを提供し、表示されるフィールドに貼り付けることができます。

注意:クロールが完了したら、サイトマップフィルタに入力するために「クロール分析」を実行する必要があります。「XMLサイトマップの監査方法」についてのガイドをお読みください。

Extractionタブ

設定内にある「Extraction」タブの機能およびチェック有無の効果の違いを説明します。

ページ詳細

Configuration > Spider > Extraction > Page Details
(設定 > スパイダー > 抽出 > ページ詳細)

SEOスパイダーに格納するページ上の要素は、以下のものが設定可能です。

  • ページタイトル
  • メタディスクリプション
  • メタ・キーワード
  • H1
  • H2
  • インデクサビリティ(&インデクサビリティステータス)
  • 単語数
  • 読みやすさ
  • テキストとコードの比率
  • ハッシュ値
  • ページサイズ
  • フォーム

上記のオプションを無効にすると、SEOスパイダーのインターフェースで、それぞれのタブ、カラム、フィルターに表示されなくなります。

いくつかのフィルタやレポートは、無効にすると明らかに機能しなくなります。例えば、「ハッシュ値」を無効にすると、「URL > Duplicate」フィルタが入力されなくなります。これは、ハッシュ値を使用してURLの完全な重複をアルゴリズムでチェックするためです。

各要素のデータを保存しない分、少量のメモリを節約することができます。

URLの詳細

Configuration > Spider > Extraction > URL Details
(設定 > スパイダー > 抽出 > URLの詳細)

SEOスパイダーに保存されるURLの詳細として、以下の設定が可能です。

応答時間:URLをダウンロードするのにかかる時間(秒)です。より詳細な情報は、FAQをご覧ください。

最終更新日:サーバーのHTTPレスポンスにあるLast-Modifiedヘッダーから読み取ります。サーバーがこれを提供しない場合、この値は空になります。

HTTPヘッダー:下部の「HTTPヘッダー」タブで見ることができる、完全なHTTPリクエストとレスポンスヘッダーが保存されます。完全なレスポンスヘッダは、クロールデータと一緒にクエリできるように内部タブにも含まれています。これらは、「Bulk Export > Web > All HTTP Headers」(一括エクスポート > Web > 全てのHTTPヘッダー)で一括エクスポートできます。「Reports > HTTP Header > HTTP Headers Summary(レポート > HTTPヘッダー > HTTPヘッダーサマリー)」で集約レポートをエクスポートすることが可能です。

クッキー :クロール中に見つかったクッキーを下部の「クッキー」タブに保存します。JavaScriptまたはピクセル画像タグを使用してページにロードされたクッキーの正確なビューを取得するために、JavaScriptレンダリングモードを使用する必要があります。クッキーは「Bulk Export > Web > All Cookies(一括エクスポート > Web > 全てのクッキー)」で一括エクスポートでき、「Reports > Cookies > Cookie Summary(レポート > HTTPヘッダー > HTTPヘッダーサマリー)」で集計レポートをエクスポートすることができます。Cookieの保存を選択した場合、発行されたすべてのCookieを正確に表示するために、SEOスパイダーがGoogle Analyticsのトラッキングタグに対して行う自動排除は無効になりますので、ご注意ください。つまり、除外設定(Config > Exclude(設定 > 除外))を使用してトラッキングスクリプトを発火から除外するか、PSIを除外するのと同様に「Screaming Frog SEOスパイダー」のユーザーエージェントをフィルタリングしない限り、分析レポートに影響を与えることになります。

上記のオプションを無効にすると、SEOスパイダーのインターフェイスで、それぞれのタブやカラムに表示されなくなります。

各要素のデータを保存しない分、少量のメモリを節約することができます。

ディレクティブ

Configuration > Spider > Extraction > Directives
(設定 > Spider > 抽出 > ディレクティブ)

SEOスパイダーに格納するディレクティブは、以下のものが設定可能です。

  • メタロボット
  • XRobotsタグ

上記のオプションを無効にすると、SEOスパイダーのインターフェイスで、それぞれのタブ、カラム、フィルターに表示されなくなります。

データを保存しない分、少量のメモリが節約されます。

構造化データ

Configuration > Spider > Extraction > Structured Data
(設定 > スパイダー > 抽出 > 構造化データ)

構造化データはSEOスパイダーに保存されるように完全に設定することができます。構造化データのテストと検証方法についての詳細なガイドをご覧いただくか、以下の設定オプションをご参照ください。

初期設定では、SEOスパイダーは構造化データを抽出してレポートすることはありません。「Structured Data(構造化データ)」タブに表示される異なる構造化データ形式を有効にするには、以下の設定オプションが必要です。

JSON-LD:この設定オプションは、SEOスパイダーがJSON-LD構造化データを抽出し、「Structured Data(構造化データ)」タブの下に表示されるようにします。

Microdata:この設定オプションは、SEOスパイダーがMicrodata構造化データを抽出し、「Structured Data(構造化データ)」タブの下に表示されるようにします。

RDFa:この設定オプションは、SEOスパイダーがRDFa構造化データを抽出し、「Structured Data(構造化データ)」タブの下に表示されるようにします。

また、Schema.orgやGoogleのリッチリザルト機能に対して、構造化データの検証を選択することができます。

Schema.orgの検証・確認

この設定オプションは、1つ以上の構造化データ形式が抽出可能な場合にのみ利用可能です。

この機能を有効にすると、SEOスパイダーは構造化データをSchema.orgの仕様に照らして検証することができます。タイプやプロパティが存在するかどうかをチェックし、問題が発生した場合は「エラー」を表示します。

例えば、プロパティとして 「http://schema.org/author」 が存在するかどうか、型として 「http://schema.org/Book」 が存在するかどうかをチェックする。メインスキーマとペンディングスキーマの語彙を最新バージョンで検証します。構造化データタブとフィルターには、検証エラーの詳細が表示されます。

さらに、この検証では、DataVocabulary.orgの古いスキーマが使われていないかをチェックできます。

Google リッチリザルト機能の検証

この設定オプションは、1つ以上の構造化データ形式が抽出可能な場合にのみ利用可能です。

この機能を有効にすると、SEOスパイダーはGoogleのリッチリザルト機能の要件に照らして、Googleのドキュメントに従って構造化データの検証を行います。必須のプロパティの検証問題はエラーとして分類され、推奨プロパティに関する問題は、Google独自の構造化データテストツールと同じように、警告として分類されます。

Structured Dataタブとフィルターには、Google機能の検証エラーと警告の詳細が表示されます。

SEOスパイダーが検証できるGoogleのリッチリザルト機能の全リストは、構造化データのテストと検証方法についてのガイドで見ることができます。

HTML

Configuration > Spider > Extraction > Store HTML / Rendered HTML
(設定 > スパイダー > 抽出 > HTMLの保存/レンダリング)

HTMLの保存

これにより、SEOスパイダーがクロールしたすべてのURLの静的HTMLをディスクに保存し、「View Source(ソースの表示)」下部ウィンドウペイン(左側の「Original HTML(オリジナルHTML)」下)で表示することができます。また、「Bulk Export > Web > All Page Source(一括エクスポート > Web > 全てのソース)」で一括エクスポートすることができます。

これにより、ブラウザの右クリックによる「ソースの表示」と同じように、JavaScriptが動作する前のオリジナルのHTMLを表示することができます。これは、デバッグや、レンダリングされたHTMLとの比較に最適です。

レンダリングされたHTMLを保存する

これにより、SEOスパイダーがクロールしたすべてのURLのレンダリングHTMLをディスクに保存し、「View Source(ソースの表示)」ウィンドウの下部ペイン(右側の「レンダリングHTML」)で表示することができます。また、「Bulk Export > Web > All Page Source(一括エクスポート > Web > 全てのソース)」で一括エクスポートすることができます。

これにより、JavaScriptが処理された後のDOMを「inspect element(Chromeのデベロッパーツール)」のように表示することができます。

このオプションは、JavaScriptのレンダリングが有効な場合にのみ機能することに注意してください。

PDF

Configuration > Spider > Extraction > PDF
(設定 > スパイダー > 抽出 > PDF)

PDFの保存

この機能により、クロール中にPDFを保存することができます。「Bulk Export > Web > All PDF Documents(一括エクスポート > ウェブ > すべての PDF ドキュメント)」で一括エクスポートすることもできますし、「Bulk Export > Web > All PDF Content(一括エクスポート > ウェブ > すべての PDF コンテンツ)」でコンテンツのみを .txt ファイルとしてエクスポートすることもできます。

PDFが保存されている場合、PDFは「レンダリングページ」タブで、PDFのテキスト内容は「ソース表示」タブと「可視コンテンツ」フィルターで確認することが可能です。

PDFのプロパティを抽出する

初期設定では、PDFのタイトルとキーワードが抽出されます。これらはSEOスパイダーの内部タブの「Title(タイトル)」と「Meta Keywords(メタキーワード)」カラムに表示されます。

GoogleはPDFをHTMLに変換し、PDFのタイトルをtitle要素、キーワードをmeta keywordsとして使用しますが、meta keywordsは順位決めの要素に使用しません。

「Extract PDF properties(PDFのプロパティを抽出する)」を有効にすることで、以下の追加プロパティも抽出されます。

  • 課題
  • 著者名
  • 作成日
  • 修正日
  • ページ数
  • 単語数

これらの新しい列は、「内部」タブに表示されます。

Limitsタブ

「Limits」タブの機能の詳細

設定内にある「Limits」タブの機能およびチェック有無の効果の違いを説明します。

クロールの合計を制限する

Configuration > Spider > Limits > Limit Crawl Total
(設定 > スパイダー > 制限 > クロールの合計を制限する)

無料版では、500URLのクロール制限があります。ライセンス版のツールの場合、これは500万URLに置き換わりますが、ここに任意の数を入れることで、クロールしたいページ数をより細かく制御することができます。

クロールの深さを制限する

Configuration > Spider > Limits > Limit Crawl Depth
(設定 > スパイダー > 制限 > クロールの深さを制限する)

SEOスパイダーがどの程度深くサイトをクロールするかを選択できます(選択した開始点からのリンク数で)。

クロール深度ごとのURL制限

Configuration > Spider > Limits > Limit URLs Per Crawl Depth
(設定 > スパイダー > 制限 > クロールの深さごとにURLを制限する)

各クロール深度でクロールされるURLの数を制御します。

最大フォルダ深度の制限

Configuration > Spider > Limits > Limit Max Folder Depth
(設定 > スパイダー > 制限 > 最大フォルダ深度の制限)

SEOスパイダーがクロールするフォルダー(またはサブディレクトリ)の数を制御します。

Spiderは、ドメイン以降のURLパスの一部で、末尾にスラッシュがあるフォルダを分類しています。

  • https://www.screamingfrog.co.uk/ ← フォルダの深さ 0
  • https://www.screamingfrog.co.uk/seo-spider/  ← フォルダの深さ 1
  • https://www.screamingfrog.co.uk/seo-spider/#download  ← フォルダの深さ 1
  • https://www.screamingfrog.co.uk/seo-spider/fake-page.html  ← フォルダの深さ 1
  • https://www.screamingfrog.co.uk/seo-spider/user-guide/  ← フォルダの深さ 2

クエリ文字列の数量を制限する

Configuration > Spider > Limits > Limit Number of Query Strings
(設定 > スパイダー > 制限 > クエリ文字列の数量を制限)

SEOスパイダーがクロールするクエリ文字列パラメータ(?x=)の数を制御します。

クロールするURLの最大長を制限する

Configuration > Spider > Limits > Limit Max URL Length
(設定 > スパイダー > 制限 > URLの最大長を制限)

SEOスパイダーがクロールするURLの長さを制御します。

データベースストレージの制限により、初期設定の最大URL長は2,000となっています。

最大限のリダイレクトを実現

Configuration > Spider > Limits > Limit Max Redirects to Follow
(設定 > スパイダー > 誠意源 > 最大限のリダイレクトを制限)

このオプションは、SEOスパイダーがたどるリダイレクトの数を制御する機能を提供します。

URLパスで制限する

Configuration > Spider > Limits > Limit by URL Path
(設定 > スパイダー > 制限 > URLパスで制限)

URLパスでクロールするURLの数を制御します。URLパターンのリストと、それぞれについてクロールする最大ページ数を入力します。

Renderringタブ

「Renderring」タブの機能の詳細

設定内にある「Renderring」タブの機能およびチェック有無の効果の違いを説明します。

レンダリング

Configuration > Spider > Rendering
(設定 > スパイダー > レンダリング)

この設定では、クロールのレンダリングモードを設定することができます。

テキストのみ:SEOスパイダーは生のHTMLのみをクロールし、抽出します。AJAXクローリングスキームやクライアントサイドのJavaScriptは無視されます。

古いAJAXクローリングスキーム:SEOスパイダーは、Googleの現在では非推奨のAJAXクロールスキームが発見された場合、それに従います。もし存在しなければ、初期設定の’テキストのみ’モードのように生のHTMLをクロールします。

JavaScriptの使用:SEOスパイダーは、ヘッドレスChromeブラウザでページをレンダリングし、レンダリングされたHTMLからコンテンツやリンクをクロールして抽出することで、クライアントサイドのJavaScriptを実行します。

注意:Googlebotを可能な限りエミュレートするために、当社のレンダリングエンジンはChromiumプロジェクトを使用しています。次のオペレーティングシステムに対応しています。

  • Windows 10
  • Windows 8 & 8.1
  • Windows Server 2008 R2
  • Windows Server 2012
  • Windows Server 2016
  • Ubuntu 14.04+ (64ビットのみ)
  • Mac OS X 10.9以上

注意:サポートされているOSを使用しているにもかかわらず、レンダリングが使用できない場合は、互換モードで動作している可能性があります。

確認方法は、インストール先のディレクトリ(c:\Program Files (x86)↪Screaming Frog SEOスパイダーに移動し、ScreamingFrogSEOSpider.exeを右クリックして「プロパティ」→「互換性」タブを選択し、「互換モード」セクションに何もチェックが入っていないことを確認してください。

レンダリングページのスクリーンショット

Configuration > Spider > Rendering > JavaScript > Rendered Page Screenshots
(設定 > スパイダー > レンダリング > JavaScript > レンダリングページのスクリーンショット)

この設定は、JavaScriptレンダリングを選択すると初期設定で有効になり、レンダリングされたページのスクリーンショットがキャプチャされ、下のウィンドウペインの「レンダリングページ」タブで見ることができます。

Googlebotデスクトップ、Googlebotスマートフォン、その他様々なデバイスから様々なウィンドウサイズを選択することができます。

レンダリングされたスクリーンショットは、
「C:\Users\User Name\.ScreamingFrogSEOSpider\screenshots-XXXXXXXXXXXXXXX」に保管もできますし、「Bulk Export > Web > Screenshots(一括エクスポート > Web > スクリーンショット)」から任意の場所にエクスポートできます。

隠れたDOMの平均化

Configuration > Spider > Rendering > JavaScript > Flatten iframes
(設定 > スパイダー > レンダリング > JavaScript > Shadow DOMをフラットにする)

Google は、ページのレンダリング HTML の一部としてShadow DOMコンテンツを平坦化してインデックス化することができます。この設定は初期設定で有効になっていますが、無効にすることも可能です。

iframeの平均化

Configuration > Spider > Rendering > JavaScript > Flatten iframes
(設定> スパイダー >レンダリング>JavaScript>iframeを平坦にする)

Googleは、条件が許す限り、親ページのレンダリングされたHTMLのdivにiframeをインラインで表示します。これには、高さが設定されていること、モバイルビューポートであること、noindexでないことなどが含まれます。Googleの挙動を模倣するようにしています。 この設定は初期設定で有効になっていますが、無効にすることもできます。

AJAXのタイムアウト

Configuration > Spider > Rendering > JavaScript > AJAX Timeout
(設定 > Spider > レンダリング > JavaScript > AJAXタイムアウト)

この時間設定は、SEOスパイダーがページの読み込みを判断する前にJavaScriptの実行を許可する時間を秒単位で指定します。このタイマーは、Chromiumブラウザがウェブページと、JS、CSS、画像などの参照リソースを読み込んだ後に開始されます。

実際には、Googleは上記の5秒という数字よりも柔軟で、ページのコンテンツ読み込みにかかる時間を基に、ネットワークの動きやキャッシュなども考慮しながら適応しています。しかし、Googleは永遠に待ってはくれません。したがって、クロールやインデックスに登録させたいコンテンツは、素早く利用できるようにしなければ、単に見てもらえないだけです。

5秒ルールは、ユーザーにとっても、Googlebotにとっても、合理的な経験則です。

ウィンドウの大きさ

Configuration > Spider > Rendering > JavaScript > Window Size
(設定 > スパイダー > レンダリング > JavaScript > ウィンドウサイズ)

これはJavaScriptレンダリングモードでのビューポートサイズを設定するもので、「レンダリングページ」タブでキャプチャしたレンダリングページのスクリーンショットで確認することができます。

Googlebotのデスクトップとスマートフォンの両方のウィンドウサイズに対して、Googlebotの動作をエミュレートして、できるだけ多くのデータを取得するために、ページを非常に長くリサイズするようにしています。

SEOスパイダーは、モバイルでは411×731ピクセル、デスクトップでは1024×768ピクセルでページを読み込み、8,192pxまで縦にリサイズして表示します。これは現在、内蔵のChromiumブラウザーで取り込める限界値です。Googleは縦12,140pxまでリサイズが可能です。

まれに、ウィンドウサイズがレンダリングされるHTMLに影響を与えることがあります。例えば、一部のWebサイトでは、小さなビューポートでは特定の要素が表示されないことがあり、この場合、文字数やリンクなどの結果に影響を与えることがあります。

Advancedタブ

「Advance」タブの機能の詳細

設定内にある「Advance」タブの機能およびチェック有無の効果の違いを説明します。

Configuration > Spider > Advanced > Cookie Storage
(設定 > スパイダー > 詳細 > クッキーの保存)

GoogleはCookieを使わずにステートレスでウェブをクロールしますが、ページを読み込んでいる間はCookieを受け付けます。一部のWebサイトでは、Cookieを受け入れた場合にのみ表示され、受け入れが無効になっている場合は失敗します。

初期設定では、SEOスパイダーは「セッションのみ」クッキーを受け付けます。これは、ページロード時に受け入れられ、その後クリアされ、Googlebotと同じように追加のリクエストに使用されないことを意味します。

あなたは、Cookieの保存方法を、セッションを越えてCookieを記憶する「Persistent」、またはCookieを一切受け付けない「Do Not Store」に変更することができます。

セッションを越えてCookieを記憶する「Persistent」の場合、Cookieはクロールごとに保存され、クローラースレッド間で共有されます。クロールの保存時にはクッキーは保存されないので、保存された.seospiderファイルからクロールを再開しても、以前に使用したクッキーは維持されません。

クッキーは、新しいクロールの開始時にリセットされます。

問題となるインデックス化不可能なURLを無視

Configuration > Spider > Advanced > Ignore Non-Indexable URLs for Issues
(設定 > スパイダー > 詳細 > インデックス化されていないURLを無視して問題を解決する)

この機能を有効にすると、SEOスパイダーはページがインデックス可能な場合にのみ、問題に関連するフィルタを入力するようになります。これには、ページタイトル、メタディスクリプション、メタキーワード、H1およびH2タブのすべてのフィルタと、次の他の課題が含まれます。

  • コンテンツタブの「低コンテンツページ」
  • 構造化データ」タブの「欠落」、「検証エラー」、「検証警告」
  • Sitemapsタブの「Orphan URLs」
  • アナリティクスタブで「GAデータなし」
  • Search Consoleタブの「検索アナリティクスデータがありません」
  • リンクタブの「クロール深度が高いページ」
  • 例:「noindex」に設定されているURLは、「重複」、「X文字以上」、「X文字以下」とはみなされず、インデックスされないことを意味します。

大規模サイトでnoindexを持つステージングサイトをクロールする場合は、この機能を無効にすることをお勧めします。

重複フィルタリングのためにページ分割されたURLを無視する

Configuration > Spider > Advanced > Ignore Paginated URLs for Duplicate Filters
(設定 > スパイダー > 詳細 > 重複フィルタリングのためにページ分割されたURLを無視)

この機能を有効にすると、ページタイトル、メタディスクリプション、メタキーワード、H1およびH2タブの「重複」フィルターにおいて、一連のURLのうちrel=”prev “を持つURLは考慮されなくなります。rel=”next “属性を持つ、ページ分割されたURLのうち、最初のURLのみが考慮されます。

つまり、ページ分割されたURLは、例えば分割された最初のページとページタイトルが「重複」しているとはみなされません。これは正常で期待される動作です。したがって、この設定により、問題としてフラグが立てられることはありません。

常にリダイレクトに従う

Configuration > Spider > Advanced > Always Follow Redirects
(設定 > スパイダー > 詳細 > 常にリダイレクトに従う)

この機能は、SEOスパイダーがリストモードで、クロールの深さを無視して最終的なリダイレクト先URLまでリダイレクトを追いかけることができるようにするものです。これは特にサイトの移行時に、URLが最終目的地に到達するまでに何度も3XXリダイレクトを実行するような場合に有効です。

サイト移行時のリダイレクトを表示するには、「all redirects(すべてのリダイレクト)」レポートを使用することをお勧めします。

この設定の活用方法については、「リストモードの使い方」のガイドをご覧ください。

常にカノニカルに従う

Configuration > Spider > Advanced > Always Follow Canonicals
(設定 > Spider > 詳細 > 常にカノニカルに従う)

この機能により、SEOスパイダーはリストモードで、クロールの深さを無視して、最終的なリダイレクト先URLまでcanonicalを追跡することができます。これは特にサイトの移行時に便利で、canonicalが最終目的地に到達するまでに複数回canonical化される可能性があります。

canonicalチェーンを表示するには、この設定を有効にして、「canonical chains」レポートを使用することをお勧めします。

この設定を「常にリダイレクトを追う」ように活用する方法については、「リストモードの使い方」のガイドをご覧ください。

noindexを尊重する

Configuration > Spider > Advanced > Respect Noindex
(設定 > スパイダー > 詳細 > Noindexを尊重する)

このオプションは、「noindex」を持つURLはSEOスパイダーで報告されないことを意味します。これらのURLはまだクロールされ、そのアウトリンクをたどりますが、ツール内には表示されません。

Caonicalを尊重する

Configuration > Spider > Advanced > Respect Canonical
(設定 > スパイダー > 詳細 > Canonicalを尊重する)

このオプションは、別のURLに正規化されたURLはSEOスパイダーで報告されないことを意味します。これらのURLはまだクロールされ、そのアウトリンクをたどりますが、ツール内には表示されません。

next/prevを尊重する

Configuration > Spider > Advanced > Respect Next/Prev
(設定>スパイダー> 詳細 > next/prevを尊重する)

このオプションは、rel=”prev “属性を持つURLはSEOスパイダーで報告されないことを意味します。rel=”next “属性を持つ、ページ分割されたシーケンスの最初のURLのみが報告されます。

これらのURLは引き続きクロールされ、そのアウトリンクをたどりますが、ツール内には表示されません。

HSTSポリシーを尊重する

Configuration > Spider > Advanced > Respect HSTS Policy
(設定 > スパイダー > 詳細 > HSTSポリシーを尊重する)

HTTP Strict Transport Security(HSTS)は、RFC6797で定義されている規格で、Webサーバーがクライアントに対して、HTTPSによるアクセスのみを許可することを宣言するためのものです。

クライアント(この場合はSEOスパイダー)は、HTTPのURLへのリンクを辿っている場合でも、今後すべてのリクエストをHTTPSで行うようになります。この場合、SEOスパイダーはステータスコード307、ステータス “HSTSポリシー”、リダイレクトタイプ “HSTSポリシー “を表示します。

この機能を無効にすると、リダイレクトの背後にある「真の」ステータスコードを見ることができます(たとえば、301パーマネントリダイレクトなど)。

詳しくは、「An SEOs guide to Crawling HSTS & 307 Redirects」の記事をご覧ください。

自己参照メタリフレッシュを尊重する

Configuration > Spider > Advanced > Respect Self Referencing Meta Refresh
(設定 > スパイダー > 詳細 > 自己参照メタリフレッシュを尊重)

「Respect Self Referencing Meta Refresh(自己参照メタリフレッシュを尊重)」の設定を無効にすることで、自己参照メタリフレッシュURLを「インデックス非対応」と判断しないようにすることができます。

様々な理由で自己参照メタリフレッシュを行うサイトはかなり一般的で、一般的にこれはページのインデックスには影響しません。しかし、自分自身にリダイレクトしているため、さらに調査する必要があり、そのため「インデックス不可」のフラグが立っています。

img srcset 属性から画像を抽出する

Configuration > Spider > Advanced > Extract Images From IMG SRCSET Attribute
(設定 > スパイダー > 詳細 > IMG SRCSET 属性から画像を抽出する)

有効にすると、<img>タグのsrcset属性から画像を抽出します。下の例では、image-1x.png、image-2x.png、image-src.pngが抽出されます。

<img src="image-src.png" srcset="image-1x.png 1x, image-2x.png 2x" alt="Retina friendly images" />

クロール断片の識別子

Configuration > Spider > Advanced > Crawl Fragment Identifiers
(設定 > スパイダー > 詳細 > クロール断片の識別子)

この機能を有効にすると、SEOスパイダーはハッシュフラグメントを含むURLをクロールし、それらを別のユニークなURLと見なします。

https://www.screamingfrog.co.uk/#this-is-treated-as-a-separate-url/

初期設定では、SEOスパイダーは検索エンジンのようにハッシュ値から何かを無視します。しかし、これは例えばページ内ジャンプリンクやブックマークなどを分析する際に有効です。

応答タイムアウト

Configuration > Spider > Advanced > Response Timeout (secs)
(設定 > スパイダー > 詳細 > 応答タイムアウト (秒))

SEOスパイダーは、初期設定でURLから何らかのHTTPレスポンスを取得するのに20秒待ちます。非常に遅いWebサイトの場合は、待ち時間を長くすることができます。

5XX レスポンスリトライ

Configuration > Spider > Advanced > 5XX Response Retries
(設定 > スパイダー > 詳細 > 5XX レスポンスリトライ)

このオプションは、5XX応答を自動的に再試行する機能を提供します。多くの場合、これらの応答は一時的なものであるため、URLを再試行すると2XX応答が返されることがあります。

preferences(環境設定)タブ

「Preferences」タブの機能の詳細

設定内にある「Preferences」タブの機能およびチェック有無の効果の違いを説明します。

ページタイトルとメタディスクリプションの幅

Configuration > Spider > Preferences > Page Title/Meta Description Width
(設定>スパイダー>環境設定>ページタイトル/メタ説明文の幅)

このオプションは、ページタイトルとメタディスクリプションタブのSEOスパイダーフィルターにおける文字数とピクセル幅の制限を制御する機能を提供します。

例えば、ページタイトルの幅の最小ピクセル幅の初期設定値「200」を変更すると、「ページタイトル」タブの「200ピクセル以下」フィルタが変更されます。このように、自分の好みに合わせて、文字やピクセル幅を設定することができます。

注意:現時点では、SERPスニペットのプレビューは更新されず、タブ内のフィルタのみが更新されます。

リンク

Configuration > Spider > Preferences > Links
(設定> スパイダー> 環境設定 >リンク)

これらのオプションは、「リンク」タブで「外部リンクが多いページ」、「内部リンクが多いページ」、「クロールの深さが高いページ」、「内部リンクのアンカーテキストが非記述的」フィルターをトリガーするタイミングを制御する機能を提供します。

例えば、「内部アウトリンクが多い」の初期設定値を1,000から2,000に変更すると、「リンク」タブのこのフィルターで表示されるページには2,000以上の内部アウトリンクが必要であることを意味します。

その他の設定

Configuration > Spider > Preferences > Links
(設定 > その他 > 環境設定 > その他)

これらのオプションは、

  • URLの文字数
  • h1
  • h2
  • 画像のaltテキスト
  • 最大画像サイズ
  • 低コンテンツページ

上記のフィルターをそれぞれのタブで制御する機能を提供します。

例えば、「最大画像サイズ・キロバイト」を100から「200」に調整した場合、「画像>Xキロバイト以上」タブとフィルターに200kb以上の画像のみが表示されるようになります。

その他の設定オプション

その他、タブ以外の説明を行ないます。

コンテンツ領域

Configuration > Content > Area
(設定>コンテンツ>エリア)

  • ワードカウント
  • 重複コンテンツに近い分析
  • スペルや文法のチェックに使用するコンテンツエリア

これらを指定することで、ページのメインコンテンツ領域に分析を集中させ、既知の定型的なテキストを避けることができます。

初期設定では、SEOスパイダーはウェブページのbody HTML要素に含まれるテキストのみを考慮します。初期設定では、ページのメインコンテンツに使用されるコンテンツ領域に焦点を当てるために、ナビとフッターの両方のHTML要素が除外されます。

しかし、すべてのWebサイトがこれらのHTML5セマンティック要素を使用して構築されているわけではなく、分析に使用するコンテンツ領域をさらに絞り込むことが有効な場合もあります。使用するコンテンツに対して、除外または含めるHTML要素、クラスまたはIDのリストを追加することができます。

例えば、Screaming FrogのWebサイトでは、nav要素の外側にモバイルメニューがあり、初期設定でコンテンツ分析に含まれます。モバイルメニューは、重複コンテンツをチェックする際に、以下に示す「重複の詳細」タブのコンテンツプレビューで確認できます(「スペル・文法の詳細」タブと同様)。

右クリックしてWebサイトのHTMLのソースを見ると、このメニューには「mobile-menu__dropdown」クラスがあることが分かります。mobile-menu__dropdown’は、’Exclude Classes’ボックスで除外することができます – 。

その後、モバイルメニューはニアダプリケート分析から除外され、コンテンツは重複の詳細タブに表示されます(スペル&グラマーやワードカウントも同様です)。

コンテンツエリアの設定は、クロール後に重複コンテンツ解析とスペル・文法の調整を行うことができます。また、スペル・文法については、右側の「スペル・文法」タブまたは下部の「スペル・文法の詳細」タブで、解析結果を更新する必要があります。

重複コンテンツの発見や スペル・文法チェックについては、チュートリアルをご覧ください。

重複

Configuration > Content > Duplicates
(設定 > コンテンツ > 重複)

SEOスパイダーは、ページが全く同じである完全な重複と、異なるページ間で一部のコンテンツが一致する近しい重複率を検出することができます。これらの情報は、「コンテンツ」タブとそれに対応する「Exact Duplicates(完全な重複)」「Near Duplicates(近しい重複)」フィルターで確認することができます。

完全な重複ページは初期設定で検出されます。「Near Duplicates(近しい重複)」をチェックするには、SEOスパイダーが各ページのコンテンツを保存できるように、設定を有効にする必要があります。

SEOスパイダーは、ミンハッシュアルゴリズムを使用して類似度90%で一致するニアデュプリケート(重複)を特定します。このアルゴリズムは、類似度の閾値を低くしてコンテンツを見つけるように調整することができます。

また、SEOスパイダーは「インデックス可能な」ページのみ重複をチェックします(完全な重複とそれに近い重複の両方について)。

つまり、2つのURLが同じで、一方がもう一方に正規化されている場合(つまり「インデックス非作成」)、このオプションが無効になっていなければ、このことは報告されません。

重複しているURLの詳細については、「Duplicate Details(重複の詳細)」の下部のタブで確認することができます。これは、特定されたすべての重複するURLとその類似性の一致を表示します。

また、「Duplicate Details(重複の詳細)」タブで「Near Duplicate Address(重複に近いアドレス)」をクリックすると、ページ間で発見された重複に近い内容が表示され、相違点が強調表示されます。

近接重複分析に使用するコンテンツ領域は、「Configuration > Content > Area(設定 > コンテンツ > 領域)」で調整することができます。HTML要素、クラス、IDのリストを追加して、使用するコンテンツに除外したり、含めたりすることができます。

重複コンテンツに近い閾値と解析に使用するコンテンツ領域は、いずれもクロール後に更新することができ、クロール解析を再実行することで、再クロールの必要なく結果を精緻化することができます。

スペル・文法

Configuration > Content > Spelling & Grammar
(設定 > コンテンツ > スペル&グラマー)

SEOスパイダーは、クロール中のHTMLページに対して、スペルチェックや文法チェックを行うことが可能です。その他のコンテンツタイプには現在対応していませんが、将来的に対応する可能性があります。

スペルチェックと文法チェックは初期設定では無効になっており、「コンテンツ」タブと対応する「Spelling Errors(スペルエラー)」「Grammar Errors(文法エラー)」フィルターにスペルや文法のエラーを表示させるには、有効にする必要があります。

スペルチェックと文法機能は、ページで使用されている言語を(HTMLの言語属性によって)自動的に識別しますが、設定内で必要に応じて言語を手動で選択することも可能です。

その中には(言語)も含まれています。

  1. アラビア語
  2. オーストラリア語
  3. ベラルーシ語
  4. ブルトン語
  5. カタロニア語
  6. 中国語
  7. デンマーク語
  8. オランダ語
  9. 英語(オーストラリア、カナダ、ニュージーランド、南アフリカ、アメリカ、イギリス)
  10. フランス語
  11. ガリシア語
  12. ドイツ語(オーストリア、ドイツ、スイス)
  13. ギリシャ語
  14. イタリア語
  15. 日本語
  16. カンボジア語
  17. ペルシャ語(アフガニスタン、イラン)
  18. ポーランド語
  19. ポルトガル語(アンゴラ、ブラジル、モザンビーク、ポルトグアル)
  20. ルーマニア語
  21. ロシア語
  22. スロバキア語
  23. スロベニア語
  24. スペイン語
  25. スウェーデン語
  26. タガログ語
  27. タミル語
  28. ウクライナ語

スペルや文法に対応した新しい言語をご覧になりたい場合は、FAQをご覧ください。

下のウィンドウの「スペル・文法の詳細」タブには、エラーの種類(スペルまたは文法)、詳細、および問題を修正するための提案が表示されます。また、詳細タブの右側には、ページのテキストと識別されたエラーがビジュアルで表示されます。

右側のペイン「Spelling & Grammar(スペル&文法)」タブには、発見された上位100の個別エラーと、それらが影響するURLの数が表示されます。これは、テンプレート間でエラーを見つけたり、辞書や無視リストを作成するのに便利です。

右クリックして「Ignore grammar rule(文法規則を無視する)」、「Ignore All(すべてを無視する)」、「Add to Dictionary(辞書に追加する)」のいずれかを選択することができます。

スペル&文法設定

「grammar rules(文法規則)」の設定では、使用する特定の文法規則を有効にしたり無効にしたりすることができます。クロール中に特定された特定の文法問題について、右クリックして「Ignore grammar rule(文法ルールを無視する)」ことができます。

「Ignore(無視)」の設定は、あるクロールに対して、ある単語のリストを無視することができます。これは、特定のクロールにのみ適用され、すべてのクロールで記憶されるわけではありません。クロール中に発見されたスペルミスについては、右クリックで「Ignore All(すべて無視)」することができます。

「dictionary(辞書)」の設定では、クロールを実行するたびに、単語のリストを無視することができる。このリストは、関連する辞書に対して保存され、実行されるすべてのクロールに対して記憶される。単語は、各辞書に対していつでも追加・削除することができます。クロールで確認されたスペルミスに対して、右クリックで「Add to Dictionary(辞書に追加)」することができます。

スペルチェックと文法チェックに使用するコンテンツ領域は、「Configuration > Content > Area(設定 > コンテンツ > 領域)」で調整することができます。HTML要素、クラス、IDのリストを追加して、分析されるコンテンツに除外したり、含めたりすることができます。

文法ルール、無視する単語、辞書、解析に使用したコンテンツエリアの設定はすべてクロール後(または一時停止中)に更新でき、スペルチェックや文法チェックを再実行することで、再クロールの必要なく結果を精緻化することができます。

Robots.txtの設定

Robots.txtを尊重する、無視する

Configuration > Robots.txt > Settings > Respect Robots.txt / Ignore Robots.txt(設定 > Robots.txt > 設定 > robots.txtを尊重する / robots.txtを無視する)

SEOスパイダーは初期設定でrobots.txtのプロトコルに従い、「Respect robots.txt(robots.txtを尊重する)」に設定されています。つまり、robots.txtで禁止されているサイトはSEOスパイダーがクロールすることができません。

「Ignore Robots.txt(robots.txtを無視する)」設定は、通常のクロール制御設定を無視することができます。この設定はSEOスパイダーがrobots.txtファイルをダウンロードしないことを意味します。つまり、すべてのrobotsディレクティブが完全に無視されることを意味します。

「Ignore Robots.txt, but report status(Robots.txtを無視し、ステータスを報告する)」設定は、Webサイトのrobots.txtをダウンロードしてSEOスパイダーで報告することを意味します。しかし、その中のディレクティブは無視されます。これにより、Webサイトをクロールしながら、どのページがクロールからブロックされるべきかを確認することができます。

Robots.txtでブロックされた内部URLの表示

初期設定では、robots.txtによってブロックされた内部URLは、「内部」タブにステータスコード「0」、ステータス「Blocked by Robots.txt」で表示されます。これらのURLを非表示にするには、このオプションの選択を解除します。このオプションは、「Ignore robots.txt(robots.txtを無視する)」がチェックされている場合は使用できません。

また、「レスポンスコード」タブと「Robots.txtでブロック」フィルタで、robots.txtによってブロックされた内部URLを表示することができます。これは、ブロックされている各URLに対するdisallowのrobots.txtディレクティブ(’matched robots.txt line’ column)も表示されます。

Robots.txtでブロックされた外部URLの表示

初期設定では、robots.txtによってブロックされた外部URLは非表示になっています。ステータスコード「0」、ステータス「Blocked by Robots.txt」で「外部」タブに表示する場合は、このオプションをチェックしてください。このオプションは、「Ignore robots.txt(robots.txtを無視する)」がチェックされている場合は使用できません。

また、「レスポンスコード」タブと「Robots.txtでブロック」フィルタで、robots.txtでブロックされた外部URLを表示することができます。これは、ブロックされている各URLに対してdisallowのrobots.txtディレクティブ(matched robots.txt line(一致したrobots.txtの行の列))も表示されます。

robots.txtのカスタマイズ

Configuration > Robots.txt > Custom
(設定 > Robots.txt > カスタム)

カスタム robots.txt 機能を使用すると、サイトの robots.txt をダウンロード、編集、テストすることができ、クロールのためにサイト上のライブバージョンを無効化します。この機能は、サイト上のライブrobots.txtを上書きしてクロールします。

この機能により、サブドメインレベルで複数のrobots.txtを追加し、SEOスパイダーでディレクティブをテストし、ブロックまたは許可されているURLを表示することができます。カスタムrobots.txtは、設定で選択されたユーザーエージェントを使用します。

クロール中に、カスタム robots.txt (Response Codes > Blocked by robots.txt) に基づいてブロックされた URL をフィルタリングし、一致する robots.txt ディレクティブ行を確認することができます。

SEOスパイダーをrobots.txtのテスターとして使用する方法については、特集のユーザーガイドをご覧ください。

注意:上記の通り、SEOスパイダーでrobots.txtを変更しても、サーバーにアップロードされたrobots.txtには影響がありません。しかし、手動でrobots.txtをコピーし、本番環境にペーストすることで、本番環境のディレクティブを更新することができます。

URLリライト

Configuration > URL Rewriting
(設定 > URLリライト)

URLリライト機能は、URLをその場で書き換えることができる機能です。多くの場合、「remove parameters(パラメータを削除)」と共通オプション(「options」下)で十分です。しかし、我々はさらに制御を提供する高度な正規表現による置換機能を提供しています。

URLリライト機能は、Webサイトをクロールする過程で発見されたURLにのみ適用され、「スパイダー」モードでクロールの開始点として入力されたURLや、「リスト」モードでURLの集合の一部として入力されたURLは対象外です。

パラメータを削除する

この機能は、URL内のパラメータを自動的に削除することができます。セッションIDやGoogle Analyticsのトラッキング、削除したいパラメータがたくさんあるWebサイトでは非常に便利です。例えば、以下のような場合です。

WebサイトにセッションIDがあり、URLの表示が「example.com/?sid=random-string-of-characters」のようになる場合において、セッションIDを削除するには、「remove parameters(パタメーターの削除)」タブの「parameters(パラメーター)」フィールドに「sid」(アポストロフィを除く)を追加するだけです。

SEOスパイダーは、URLからセッションIDを自動的に削除します。SEOスパイダーがどのようにURLを書き換えるかは、「test」タブでテストすることができます。

この機能は、Google Analyticsのトラッキングパラメータを削除する場合にも使用できます。例えば、「remove parameters」の下に以下のように記述するだけです。

  • utm_source
  • utm_medium
  • utm_campaign

これは、URLから標準のトラッキングパラメータを取り除くものです。

正規表現による置き換え

この高度な機能は、クロール中またはリストモードで見つかった各URLに対して実行されます。正規表現にマッチするURLの各サブストリングを、与えられた置換文字列で置き換えます。「Regex Replace(正規表現による置換)」機能は、「URL Rewriting(URLリライト)」設定ウィンドウの「テスト」タブでテストすることができます。

例としては、以下のようなものがあります。

1)すべてのリンクをHTTPからHTTPSに変更する。

正規表現: http
置換: https

2) example.comへのリンクをすべてexample.co.ukに変更する。

正規表現:.com
置換:.co.uk

3) page=numberを含むリンクはすべて固定番号にする。

www.example.com/page.php?page=1
www.example.com/page.php?page=2
www.example.com/page.php?page=3
www.example.com/page.php?page=4

これらすべてを作るには、www.example.com/page.php?page=1 にアクセスします。

正規表現: page=Gentad+
置換: page=1

4) 空の「置換」を使用して、任意のURLからwww.ドメインを削除する。

クエリ文字列のパラメータを削除したい場合は、「Remove Parameters(パラメータの削除)」機能を使用してください – Regexはこの作業に適したツールではありません!

正規化: www
置換: 

5) すべてのパラメータを削除する

正規表現: \?.*
置換:

6) example.comのサブドメインだけのリンクをHTTPからHTTPSに変更する

正規表現: http://(.*example.com)
置換: https://$1

7)JavaScriptレンダリングモードでハッシュ値の後ろのanythingを削除する

Regex: #.*
置換:

8) URLにパラメータを追加する

正規表現: $
置換: ?パラメータ=値

これは、遭遇したURLの末尾に「?parameter=value」を追加します。

すでにパラメータを持つサイトでは、パラメータを正しく追加するために、より複雑な表現が必要になります。

正規表現:  (.*?\?.*)
置換:  $1&parameter=value

正規表現: (^((?!\?).)*$)
置換: $1?parameter=value

これらは上記の順序で入力しないと、既存のクエリー文字列に新しいパラメータを追加するときに動作しません。

オプション

このセクションには、一般的なオプションが含まれています。発見されたURLを小文字にする」クロールされたすべてのURLを小文字に変換するため、URLの大文字小文字の区別に問題があるWebサイトにとって便利です。

CDN

Configuration > CDNs
(設定 > CDN)

CDNs機能では、クロール時に「Internal(内部リンク)」として扱うCDNのリストを入力することができます。

内部情報として扱うドメインのリストを指定することができます。また、サブフォルダーをドメインと一緒に指定すると、そのサブフォルダー(およびその中のコンテンツ)が内部として扱われます。

「内部」リンクは、「外部」ではなく「内部」タブに含まれ、そこからより詳細な情報が抽出されます。

含む設定

Configuration > Include
(設定 > 含む)

この機能により、SEOスパイダーが正規表現の部分一致でクロールするURLパスを制御することができます。正規表現にマッチしたURLのみをクロールすることで、初期設定の検索を絞り込むことができ、大規模サイトや直感的でないURL構造を持つサイトには特に有効です。マッチングはURLのエンコード版に対して実行されます。

この機能を使うには、クロールを開始するページに正規表現に一致するアウトバウンドリンクがなければ、それ以降はクロールされません。もし開始ページから正規表現に一致するURLがない場合、SEOスパイダーは何もクロールしません。

例えば、URLの文字列に「search」を含むページを https://www.screamingfrog.co.uk からクロールしたい場合、「include(含む設定)」機能に「search」という正規表現を含めるだけでよいでしょう。

この場合、/search-engine-marketing/ と /search-engine-optimisation/ のページは両方とも 「search」 が含まれているため、検索(表示)されることになります。

含む設定機能については、ビデオガイドをご覧ください。

トラブルシューティング

マッチングはURLエンコードされたアドレスに対して行われます。これが何であるかは、下のウィンドウペインのURL情報タブまたは内部タブのそれぞれのカラムで確認できます。

正規表現はURLの一部ではなく、全体にマッチする必要があります。

1つのURLだけがクロールされ、その後クロールが停止する場合は、そのページからのアウトバウンドリンクを確認してください。http://www.example.com/ に 「/news/」を含んでしてクロールし、1つのURLしかクロールされない場合は、http://www.example.com/ にサイトのニュースセクションへのリンクがないことが原因です。

除外設定

Configuration > Exclude
(設定 > 除外)

除外設定により、部分的な正規表現マッチングを使用してURLをクロールから除外することができます。excludeにマッチしたURLは全くクロールされません。これは、除外にマッチしないが、除外されたページからしか到達できない他のURLもクロールで発見されないことを意味します。

除外リストは、クロール中に発見された新しい URL に適用されます。この除外リストは、クロールモードまたはリストモードで最初に提供されたURLには適用されません。

クロール中に除外リストを変更すると、新しく発見されたURLに影響し、保留中のURLのリストに遡って適用されますが、既にクロールされたURLは更新されません。

照合は、URLのURLエンコード版に対して行われます。メインウィンドウでURLを選択し、下のウィンドウペインの詳細タブにある「URLの詳細」タブの2行目のラベル「URL Encoded Address(エンコードURLパス)」の値で、URLのエンコード版を確認することができます。

以下は一般的な例です。

特定のURLやページを除外したい場合

http://www.example.com/do-not-crawl-this-page.html

サブディレクトリやフォルダを除外したい場合

http://www.example.com/do-not-crawl-this-folder/

「brand」の前に他のフォルダが存在していることを条件に、brandの後をすべて除外したい場合

http://www.example.com/.*/brand.*

もし、様々なディレクトリに含まれる「?price」のような特定のパラメータを持つURLを除外したい場合は、次のようにします
(?は正規表現における特殊文字であり、バックスラッシュでエスケープする必要があることに注意してください)

\?price

もし「jpg」で終わるすべてのファイルを除外したい場合

jpg$

もしハイフンの後に「-402001」のようなランダムな6桁の数字で終わるURLをすべて除外したい場合

-[0-9]{6}$

もし、URLの中に「exclude」が含まれているものを除外したい場合

exclude

セキュア(https)なページを除外したい場合

https

http://www.domain.com の全ページを除外したい場合

http://www.domain.com/

もしURLを除外したいのにうまくいかない場合は、?などの特殊な正規表現文字が含まれている可能性があります。
これらを個別に探すよりも、以下のように記述して探すほうがよいでしょう。

\Qhttp://www.example.com/test.php?product=specialE

URLのエンコード版を使用することを忘れないでください。
つまり、パイプ | を含むすべての URL を除外したい場合

%7C

Google Analyticsのトラッキングタグの自動除外を解除するCookieを抽出している場合

google-analytics.com

除外機能についてのビデオガイドをご覧ください。

スピード

Configuration > Speed
(設定 > スピード)

速度設定では、SEOスパイダーの速度を、同時実行スレッド数、または1秒間にリクエストされるURL数で制御することができます。

速度を下げる場合、常に「Max URI/s」オプションで制御するのが簡単です。これは、1秒あたりのURLリクエストの最大数です。例えば、以下のスクリーンショットは、1秒間に1つのURLでクロールすることを意味します。

「Max Threads(最大スレッド数)」オプションは、1秒あたりのURL数で速度を調節する場合、単に放置しておくことができます。

スレッド数を増やすことで、SEOスパイダーの速度を大幅に向上させることができます。初期設定では、サーバーに負荷をかけないよう、SEOスパイダーは5スレッドでクロールします。

クロールの速度を上げるためにスレッド数を多く設定すると、サーバーへのHTTPリクエストの数が増え、サイトの応答時間に影響を与える可能性がありますので、責任を持ってスレッド設定を使用してください。非常に極端なケースでは、サーバーに過負荷がかかり、クラッシュする可能性があります。

まずWebマスターとクロール速度と時間を承認し、応答時間を監視して、問題があれば初期設定の速度を調整することをお勧めします。

ユーザーエージェント

Configuration > User-Agent
(設定 > ユーザーエージェント)

ユーザーエージェントの設定では、SEOスパイダーが行うHTTPリクエストのユーザーエージェントを切り替えることができます。初期設定では、SEOスパイダーは独自の「Screaming Frog SEO spider user-agent」という文字列を使用してリクエストを行います。

しかし、Googlebot、Bingbot、各種ブラウザなどに対応したユーザーエージェントがあらかじめ組み込まれています。これにより、必要なときに素早く切り替えることができます。また、この機能には、独自のユーザーエージェントを指定することができるカスタムユーザーエージェント設定があります。

SEOスパイダーによるrobots.txtの扱いの詳細はこちらでご確認ください。

HTTPヘッダー

Configuration > HTTP Header
(設定 > HTTPヘッダー)

HTTPヘッダーの設定では、クロール中に完全にカスタム化されたヘッダーリクエストを供給することができます。

つまり、accept-language、cookie、referer、あるいは任意のユニークなヘッダー名を設定することが可能です。例えば、ロケールに適応したコンテンツをクロールするために、SEOスパイダーのリクエストにAccept-Language HTTPヘッダーを指定したい場合があります。

ヘッダー値フィールドには、必要な言語と地域のペアを選択することができます。

ユーザーエージェントは、他のヘッダとは別に「Configuration > User-Agent(設定 > ユーザーエージェント)」で設定します。

Configuration > Custom > Search
(設定>カスタム>検索)

SEOスパイダーは、Webサイトのソースコードから任意の情報を探すことができます。カスタム検索機能では、クロールしたすべてのページのHTML(ページテキスト、または検索対象として選択した特定の要素)をチェックします。

初期設定では、カスタム検索はWebサイトの生のHTMLソースコードをチェックしますが、これはブラウザでレンダリングされるテキストとは異なる場合があります。JavaScriptレンダリングモードに切り替えると、レンダリングされたHTMLを検索することができます。

カスタム検索設定では、最大100個の検索フィルターを設定することができ、テキストまたは正規表現を入力すると、選択した入力内容を「contains(含む)」または「does not contain(含まない)」ページを検索することができます。

これは、「Config > Custom > Search(設定>カスタム>検索)」で確認できます。

右下の「add(追加)」をクリックするだけで、フィルターを設定することができます。

左から順に、検索フィルターの名前、「contains(含む)」または「does not contain(含まない)」の選択、「text(テキスト)」または「regex(正規表現)」の選択、検索クエリの入力 – そして検索を実行する場所(HTML、ページテキスト、要素、または XPath など)を選択できます。

例えば、「Out of stock(在庫切れ)」のようなページには「contains(含む)」を選択し、これを含むすべてのページを見つけたい場合です。Google Analyticsのコードのようなものを検索する場合は、「does not contain(含まない)」フィルターを選択し、コードを含まないページを検索します(コードを含むページをすべてリストアップするのではありません!)。

入力したデータを「contains(含む)」「does not contain(含まない)」ページは、「カスタム検索」タブで確認することができます。

「contains(含む)」フィルタでは、検索対象の出現回数が表示され、「does not contain(含まない)」検索では、「contains(含む)」または「does not contain(含まない)」のいずれかが返されます。

この検索では、「Out of stock(在庫切れ)」のテキストを含む2URLがあり、それぞれ1回だけその単語を含んでいます。一方、GTMコードは10ページ中1つも見つかっていません。

SEOスパイダーは、こちらに記載されているように、Java regex libraryを使用しています。データを「スクレイピング」または「抽出」するには、カスタム抽出機能をご利用ください。

カスタム検索では、正規表現を使用して正確な単語を検索することができます。例えば

\bexample\b

のように、特定の単語(この場合は「example」)にマッチします。

大文字と小文字の区別、完全一致と複数単語の検索、検索の組み合わせ、特定の要素での検索、複数行のコードのスニペットなど、より高度なシナリオについては、チュートリアルの「カスタム検索の使用方法」を参照してください。

カスタム抽出

Configuration > Custom > Extraction
(設定 > カスタム > 抽出)

カスタム抽出では、URLのHTMLから任意のデータを収集することができます。抽出は、内部のHTMLページが2xx応答コードで返す静的なHTMLに対して実行されます。

JavaScriptレンダリングモードに切り替えると、レンダリングされたHTMLからデータを抽出することができます(クライアントサイドのみの任意のデータについて)。

SEOスパイダーは、データ抽出を行うために以下のモードをサポートしています。

  • XPath: XPathセレクタ(属性を含む)
  • CSS Path: CSS Path とオプションの属性。
  • Regex: HTMLコメントやインラインJavaScriptのスクレイピングなど、より高度な用途に使用します。

XパスやCSSパスを使ってHTMLを収集する場合、何を抽出するか?の選択ができます。

  • Extract HTML Element: 選択された要素とその内部のHTMLコンテンツ
  • Extract Inner HTML: 選択された要素の内側のHTMLの内容です。セレクトした要素が他のHTML要素を含んでいる場合は、それらも含まれます。
  • Extract Text: 選択された要素のテキスト内容と、任意のサブ要素のテキスト内容を抽出します。
  • Function Value: 例えば、count(//h1) は、ページ上の h1 タグの数を調べます。

カスタム抽出を設定するには、「Config > Custom > Extraction(設定 > カスタム > 抽出)」をクリックします。

抽出機能を使用するには、「add(追加)」をクリックし、関連する構文を挿入するだけです。

Webサイトからデータをスクレイピングするために、最大100個の個別の抽出構文を設定することができます。

抽出されたデータは、「Custom Extraction(カスタム抽出)」タブで確認することができます。抽出されたデータは、「Internal(内部)」タブにも列として含まれます。

カスタム抽出の使用方法については、SEOスパイダーウェブスクレイピングガイドをお読みください。カスタム抽出式の例については、XPathの例Regexの例を参照してください。

Regexのトラブルシューティング

  • SEOスパイダーは正規表現を実行する前にHTMLを処理することはありません。しかし、ブラウザでソースを閲覧する際に表示されるHTMLは、SEOスパイダーが見ているものと異なる可能性があることをご了承ください。これは、Webサイトがユーザーエージェントやクッキーに基づいて異なるコンテンツを返す場合や、ページのコンテンツがJavaScriptを使用して生成され、JavaScriptレンダリングを使用していない場合などに起こります。
  • SEOスパイダーが使用している正規表現エンジンの詳細は、こちらをご覧ください。
  • 正規表現エンジンは、ドット文字が改行と一致するように設定されています。

Configuration > Custom > Link Positions
(設定>カスタム>リンク位置)

SEOスパイダーは、ナビゲーション、ページコンテンツ、サイドバー、フッターなど、ページ上のあらゆるリンク位置を分類しています。

分類は、各リンクの「link path(リンクパス)」(XPathとして)を使用して、既知の意味的な部分文字列に対して行われ、「inlinks(内部リンク)」と「outlinks(発リンク)」タブで見ることができます。

これにより、例えば、メインナビゲーションやフッターにあるリンクを無視して、本文中にあるページへの「inlinks(内部リンク)」を特定することができ、内部リンクの分析をより効果的に行うことができます。

あなたのWebサイトがセマンティックHTML5要素(またはdiv id=”nav “などのよく知られた非セマンティック要素)を使用していれば、SEOスパイダーはウェブページの異なる部分とその中のリンクを自動的に判断することができるようになります。

初期設定のリンクポジションの設定では、以下の検索語を用いてリンクを分類しています。

しかし、すべてのWebサイトがこの方法で構築されているわけではないので、各サイト独自の設定に基づいてリンク位置の分類を構成することができます。これにより、リンクパスの部分文字列を使用して、リンクを分類することができます。

例えば、Screaming FrogのWebサイトでは、nav要素の外にあるモバイルメニューリンクは「content(コンテンツ)」リンクにあると判断されています。これは、モバイルではサイト全体のナビゲーションを追加しているに過ぎず、正しくありません。これは、nav要素内になく、クラス名に’nav’を持つなど、うまく名付けられていないためです。(ドン!)

「mobile-menu__dropdown」というCSSのクラス名(上記のようにリンクパスにある)は、リンクポジション機能を使用して、その正しいリンクポジションを定義するために使用することができます。

これらのリンクは、サイトワイドナビゲーションリンクとして正しく帰属されます。

リンク位置の分類に使用される検索語または部分文字列は、優先順位に基づいています。コンテンツ」は「/」と設定され、あらゆるリンクパスにマッチするため、常に設定の最下位になるようにします。

そこで、上記の例では、「mobile-menu__dropdown」クラス名を追加し、「Move Up」ボタンを使って「Content」の上に移動し、優先的に表示するようにしました。これによって「リンク位置」の分類を無効にすることができます。つまり、各リンクのXPathが保存されず、リンク位置が決定されないことを意味します。これにより、メモリの節約とクロールの高速化を図ることができます。

ユーザーインターフェース

Configuration > User Interface
(設定 > ユーザーインターフェース)

ユーザーインターフェースメニューの下には、いくつかの設定項目があります。これらは次のとおりです。

  • Reset Columns For All Tables: テーブルの列が削除または移動された場合、このオプションで列を初期設定に戻すことができます。
  • Reset Tabs: タブが削除または移動された場合、このオプションを使用すると、タブを初期設定に戻すことができます。
  • Theme > Light / Dark: 初期設定ではSEOスパイダーはライトグレイのテーマを使用しています。しかし、ダークテーマ(別名’ダークモード’、’バットマンモード’など)に切り替えることができます。このテーマは、特に低光量で作業する人の眼精疲労を軽減するのに役立ちます。

Google Analyticsとの連携

Configuration > API Access > Google Universal Analytics / Google Analytics 4
(設定>APIアクセス>Googleユニバーサルアナリティクス/Googleアナリティクス4)

Google Universal Analytics APIやGA4 APIに接続し、クロール中に直接データを取り込むことができます。SEOスパイダーは、ユーザーやセッションの指標、ランディングページのゴールコンバージョンやeコマース(取引や収益)のデータを取り込むことができるので、技術やコンテンツの監査を行う際に、パフォーマンスの高いページを確認することができます。

設定方法は、SEOスパイダーを起動し、「Configuration > API Access(設定>APIアクセス)」から「Google Universal Analytics(グーグルユニバーサルアナリティクス)」または「Google Analytics 4(グーグルアナリティクス4)」を選択します。

次に、データを取得するために「Screaming Frog SEOスパイダー」アプリにアカウントへのアクセス許可を与えて、Googleアカウント(照会したいAnalyticsアカウントへのアクセス権を持つ)に接続します。

Google APIはOAuth 2.0プロトコルを用いて認証と認可を行います。SEOスパイダーはあなたが認証したGoogleアカウントをリスト内に記憶しているので、アプリケーションの起動時に毎回素早く「connect(接続)」することができます。

ユニバーサルアナリティクスで接続すると、関連するGoogleアナリティクスのアカウント、プロパティ、ビュー、セグメント、日付範囲を選択することができます。

GA4では、アナリティクスアカウント、プロパティ、データストリームを選択することができます。

次に、ユニバーサルアナリティクスに取り込みたい指標を選択するだけです。

またはGA4です。

初期設定では、SEOスパイダーはユニバーサルアナリティクスで以下の11の指標を収集します。

  1. セッション
  2. 新規セッション
  3. 新規ユーザー
  4. ユーザー
  5. 直帰率
  6. セッションごとのページビュー
  7. 平均セッション時間
  8. ページ価値
  9. ゴールコンバージョン率
  10. 目標達成率 すべて
  11. 目標値 すべて

UAの場合、APIから一度に最大30個の指標を選択することができます。

GA4では、SEOスパイダーは初期設定で以下の7つの指標を収集します。

  1. セッション
  2. エンゲージドセッション
  3. エンゲージメント率
  4. ビュー
  5. コンバージョン
  6. イベント回数
  7. 収益合計

GA4では、API経由で利用可能な最大65の指標を選択することができます。

Googleが提供するユニバーサルアナリティクスとGA4で利用できる指標と各指標の定義については、こちらをご覧ください。

また、個々の指標のディメンションを、フルページURL(UAでは「ページパス」)またはランディングページのいずれかに対して設定することができ、これらは全く異なります(そして、シナリオと目的に応じてどちらも有用です)。

GA4では、「filters(フィルター)」タブもあり、追加のディメンションを選択することができます。例えば、「organic search(オーガニック検索)」のようなディメンション値でファーストユーザーやセッションチャンネルのグループ化を選択し、特定のチャンネルに絞り込むことができます。

Google AnalyticsのURLとクロールのURLが一致しない場合があるため、トレイリングスラッシュと非トレイリングスラッシュのURLの自動マッチングや大文字と小文字の区別(URLの大文字と小文字)などでカバーしています。GoogleはAPIでプロトコル(HTTPまたはHTTPS)を渡さないので、これらも自動的にマッチングされます。

上記のいずれかを選択した場合、Google Analyticsのデータはセッション数でソートされるため、セッション数の多いURLに対してマッチングが行われることにご注意ください。これらのURLについては、データは集計されません。

以下のオプションが利用可能です。

Match Trailing and Non-Trailing Slash URLs: GAから http://example.com/contact と http://example.com/contact/ のどちらか、セッション数の多い方にマッチするようにします。

Match Uppercase & Lowercase URLs: http://example.com/contact.html, http://example.com/Contact.html, http://example.com/CONTACT.html を、セッション数の多いGAからこのURLのバージョンと一致させることができるようにします。

Limit Max Results: GAで何十万ものURLを持っている場合、クエリするURLの数を制限することができます。初期設定では、上位10万URLの中で最もパフォーマンスの高いページデータを返すようにセッションで並べられています。

Crawl New URLs Discovered in Google Analytics: Google Analyticsで発見された新しいURL(ハイパーリンクで発見されたものではない)をクロールすることを意味します。このオプションが有効でない場合、Google Analyticsで発見された新しいURLは、「Orphan Pages」レポートでのみ閲覧することができます。クロールキューに追加されることはなく、ユーザーインターフェースで見ることができ、それぞれのタブやフィルターの下に表示されます。オーファン・ページの見つけ方については、こちらのガイドをご覧ください。

Google Analyticsのデータが取得され、「Internal(内部)」「Analytics(分析)」タブ内のそれぞれのカラムに表示されます。

右上に「API」プログレスバーがあり、これが100%に達すると、URLに対してリアルタイムで分析データが表示されるようになります。照会するURLや指標が多いほど、この処理に時間がかかることがありますが、通常は非常に短時間で完了します。

現在、「アナリティクス(分析)」タブには5つのフィルターがあり、Google Analyticsのデータをフィルタリングすることができます。

  • Sessions Above 0: これは、該当するURLのセッション数が1以上であることを単純に意味します。
  • Bounce Rate Above 70%: これは、URLの直帰率が70%以上であることを意味します。シナリオによっては、これが正常な場合もあります。
  • No GA Data: これは、クエリされたメトリクスとディメンションについて、Google APIがクロール内のURLのデータを返さなかったことを意味します。つまり、URLは訪問セッションを受け取らなかったか、あるいは、クロール内のURLは何らかの理由でGA内のURLと異なっている可能性があります。
  • Non-Indexable with GA Data: これは、URLはインデックスされないが、GAからのデータが残っていることを意味します。
  • Orphan URLs: これは、URLがGA経由でのみ発見され、クロール中に内部リンク経由で発見されなかったことを意味します。

SEOスパイダー -でGoogle Analyticsのデータにアクセスする際の様々な問題については、以下のFAQをお読みください。

Googleアカウントへのアクセス権を付与する際にエラーが発生するのはなぜですか?

Google Analyticsとの接続に失敗するのはなぜですか?

GA のデータがURLに対して入力されないのはなぜですか?

なぜSEOスパイダーのGA-APIデータは、GAインターフェイスで報告されるものと一致しないのですか?

Google Analyticsのアカウントを接続しても、GA4のプロパティが表示されないのはなぜですか?

Google API は、認証と認可に OAuth 2.0 プロトコルを使用しており、Google Analytics やその他の API を通じて提供されるデータは、あなたのマシン上でローカルにのみアクセス可能であることにご注意ください。Googleはそのデータを見ることができず、また保存もしません。詳しくは、FAQをご覧ください。

Google Analytics 4 APIを使用する場合、コアトークンの標準的なプロパティクォータが適用されます。

Google Search Consoleとの連携

Configuration > API Access > Google Search Console
(設定 > APIアクセス > Google Search Console)

Google Search AnalyticsやURL InspectionのAPIに接続し、クロール中に直接データを取り込むことが可能です。

SEOスパイダーは初期設定でSearch Analytics APIからインプレッション、クリック、CTR、ポジションなどの指標を取得するため、技術監査やコンテンツ監査を行う際に上位のページを確認することができます。

オプションで、検索アナリティクスのデータと並行して「Enable URL Inspection(URL検査を有効にする)」を選択すると、1ドメインにつき1日最大2,000URLのGoogleインデックスステータスデータを提供します。これには、「URLがGoogleに登録されているか」、「URLがGoogleに登録されていないか」、そして「カバレッジ」が含まれます。

設定方法は、「Configuration > API Access > Google Search Console(設定 > APIアクセス > Google Search Console)」から行います。Google Search Consoleへの接続は、すでにステップバイステップのGoogle Analytics統合ガイドで詳述したのと同じ方法で動作します。

データを取得するために「Screaming Frog SEOスパイダー」アプリにアカウントへのアクセス許可を与えて、Googleアカウント(問い合わせたいSearch Consoleアカウントにアクセスできるアカウント)に接続します。Google APIは、認証と認可にOAuth 2.0プロトコルを使用します。SEOスパイダーは、あなたが認証したGoogleアカウントをリスト内に記憶するので、毎回アプリケーションを起動する際に素早く「connect(接続)」することができます。

接続が完了すると、関連するWebサイトのプロパティを選択することができます。

初期設定では、SEOスパイダーは過去30日分の以下の指標を収集します。

  • クリック数
  • 表示回数
  • CTR
  • 順位

各メトリクスの定義については、Googleの記事をご覧ください。

設定の「Search Analytics(検索アナリティクス)」タブをクリックすると、日付範囲、ディメンション、その他様々な設定を調整できます。

Google Search Consoleから発見された新しいURLをクロールして、離小島になりそうなページを発見したい場合は、以下の設定を忘れずに有効にしてください。

オプションで、「URL Inspection(URLインスペクション)」タブに移動し、「URLインスペクションを有効にする」と、クロールに含まれる最大2,000のURLのインデックス状態に関するデータを収集することができます。

SEOスパイダーは初期設定で幅優先クロール、つまりクロールの開始ページから深さ優先でクロールします。最初に発見された2,000のHTML URLがクエリ対象となります。クロールを特定のセクションに集中させ、含む除外の設定、またはリストモードを使用して、必要なキーURLとテンプレートのデータを取得します。

以下の設定オプションが利用可能です。

Ignore Non-Indexable URLs for URL Inspection: クロールされたURLのうち、「インデックスに登録されていない」と分類されたものは、API経由で照会されないことを意味します。インデックス可能なURLのみが照会され、サイトのセットアップに自信がある場合は、検査クォータを節約することができます。

Use Multiple Properties: 同じドメインに対して複数のプロパティが検証されている場合、SEOスパイダーは自動的にアカウント内の関連するすべてのプロパティを検出し、URLのデータを要求するために最も特定されたプロパティを使用します。つまり、複数のプロパティが設定されている場合、1回のクロールで2,000を超えるURLのURL Inspection APIデータを取得することが可能になり、複数のクロールを実行する必要がありません。

URL Inspection API には、以下のデータが含まれます。

Summary: URLがインデックスされ、Googleの検索結果に表示される資格があるかどうかについての重要な情報です。「URL is on Google」は、URLがインデックスされ、Google検索結果に表示されることができ、ページで見つかった拡張機能(リッチリザルト、モバイル、AMP)には問題がなかったことを意味します。「URL is on Google, but has Issues(URLはGoogleに登録されているが、問題がある)」は、インデックスされGoogle検索結果に表示されるものの、モバイルユーザビリティ、AMP、リッチリザルトに問題があり、最適な方法で表示されない可能性があることを意味します。「URL is not on Google(URLがGoogleに登録されていない)」とは、Googleにインデックスされておらず、検索結果に表示されないことを意味します。このフィルターには、インデックス可能なURLだけでなく、インデックスされないURL(「noindex」になっているものなど)も含まれることがあります。

Coverage: URLの状態について、Googleに掲載されている、またはされていない理由を短く説明するものです。

Last Crawl: このページが最後にGoogleにクロールされた時刻(あなたの現地時間)。このツールで表示されるすべての情報は、この最後にクロールされたバージョンに由来しています。

Crawled As: クロールに使用されたユーザーエージェントの種類(デスクトップまたはモバイル)。

Crawl Allowed: サイトがGoogleにページのクロール(訪問)を許可しているか、robots.txtルールでブロックしているかを示します。

Page Fetch: Googleがあなたのサーバーから実際にページを取得できたかどうか。クロールが許可されていない場合、このフィールドは失敗を表示します。

Indexing Allowed: あなたのページが明示的にインデックス登録を拒否しているかどうかが分かります。インデックス登録を許可しない場合、その理由が説明され、そのページはGoogle検索の結果に表示されなくなります。

User-Declared Canonical: あなたのページが明らかに正規のURLを宣言している場合、ここに表示されます。

Google-Selected Canonical: Googleがあなたのサイトに類似または重複するページを見つけたときに、正規の(権威ある)URLとして選択したページです。

Mobile Usability: ページがモバイルフレンドリーであるかどうか。

Mobile Usability Issues: 「ページがモバイルフレンドリーではない」場合、この欄にはモバイルユーザビリティエラーのリストが表示されます。

AMP Results: AMP URLが有効か、無効か、警告があるかについての判定です。「Valid(有効)」は、AMP URLが有効でインデックスされていることを意味します。逆に「Invalid(無効)」は、AMP URLにインデックスされないようなエラーがあることを意味します。「Valid with warnings(警告)」は、AMP URLはインデックスされる可能性があるが、全機能を取得できない可能性がある問題がある、または非推奨のタグや属性を使用しており、将来的に無効となる可能性があることを意味します。

AMP Issues: URLにAMPの問題がある場合、この欄にはAMPエラーのリストが表示されます。

Rich Results: ページで見つかったリッチリザルトが有効か、無効か、または警告があるかについての判定です。「Valid(有効)」は、リッチリザルトが見つかり、検索対象となることを意味します。「Invalid(無効)」は、ページ上の1つ以上のリッチリザルトに検索対象から外れるエラーがあることを意味します。「Valid with warnings(警告)」は、ページ上のリッチリザルトは検索対象になっているが、完全な機能を得ることができない可能性がある問題があることを意味します。

Rich Results Types: ページ上で発見されたすべてのリッチリザルト拡張のカンマ区切りリスト。

Rich Results Types Errors: ページ上でエラーが検出されたすべてのリッチリザルトエンハンスメントのカンマ区切りリスト。発見された特定のエラーをエクスポートするには、「Bulk Export > URL Inspection > Rich Results(一括エクスポート > URLインスペクション >  リッチリザルトエクスポート)」を使用します。

Rich Results Warnings: ページ上で警告が発見されたすべてのリッチリザルトエンハンスメントのカンマ区切りリスト。発見された特定の警告をエクスポートするには、「Bulk Export > URL Inspection > Rich Results(一括エクスポート > URLインスペクション >  リッチリザルトエクスポート)」エクスポートを使用します。

インデックスされたURLの結果については、Googleの記事をご覧ください。

「Search Console」タブには11種類のフィルターがあり、両方のAPIからGoogle Search Consoleのデータをフィルタリングすることができます。

  1. Clicks Above 0: これは単純に、該当するURLのクリック数が1以上であることを意味します。
  2. No Search Analytics Data: これは、Search Analytics APIが、クロール内のURLのデータを返さなかったことを意味します。つまり、そのURLはインプレッションを受け取らなかったか、あるいは何らかの理由でクロール内のURLとGSC内のURLが異なるだけなのです。
  3. Non-Indexable with Search Analytics Data: 非インデックス型と分類されているが、Google検索アナリティクスデータを持っているURL
  4. Orphan URLs: クロール中に内部リンクではなく、Google Search Analytics経由で発見されたURL。このフィルターを使用するには、Google Search Consoleの設定ウィンドウ(設定 > APIアクセス > Google Search Console)の「General(一般)」タブで「Crawl New URLs Discovered In Google Search Console(Google Search Consoleで発見された新しいURLをクロール)」を有効にし、「crawl analysis(クロール分析)」後のデータを入力する必要があります。離小島ページの発見方法については、こちらのガイドをご覧ください。
  5. URL Is Not on Google: このURLはGoogleにインデックスされておらず、検索結果には表示されません。このフィルターには、インデックスされる可能性のあるURLだけでなく、インデックスされないURL(「noindex」になっているものなど)も含めることができます。APIに従ってGoogleに登録されていないものに対するキャッチオールフィルタです。
  6. Indexable URL Not Indexed: クロールで発見されたインデックス可能なURLのうち、Googleにインデックスされず、検索結果に表示されないURL。これには、Googleに知られていないURLや、発見されたもののインデックスされていないURLなどが含まれることがあります。
  7. URL is on Google, But Has Issues: URLはインデックスされ、Googleの検索結果に表示されますが、モバイルユーザビリティ、AMP、リッチリザルトに問題があり、最適な方法で表示されない可能性があります。
  8. User-Declared Canonical Not Selected: Googleは、ユーザーがHTMLで宣言したものとは異なるURLをインデックスすることを選択しました。Canonicalはヒントであり、Googleがそのヒントに従うこともあればヒントとして扱わない場合もあります。
  9. Page Is Not Mobile Friendly: モバイル端末で問題が発生するページです。
  10. AMP URL Is Invalid: AMPにエラーがあり、インデックスに登録されません。
  11. Rich Result Invalid: URLに1つ以上のリッチリザルト拡張機能のエラーがあり、リッチリザルトがGoogle検索結果に表示されないようになっています。発見された特定のエラーをエクスポートするには、「Bulk Export > URL Inspection > Rich Results(一括エクスポート > URL検査 > リッチリザルト)」エクスポートを使用します。

詳しくは、「URL検査APIを自動化する方法」のチュートリアルをご覧ください。

PageSpeed Insightsの統合

Configuration > API Access > PageSpeed Insights
(設定 > APIアクセス > PageSpeed Insights)

Google PageSpeed Insights APIに接続し、クロール中に直接データを取り込むことができます。

PageSpeed Insightsは Lighthouseを使用しているため、SEOスパイダーはLighthouseの速度指標の表示、速度機会や診断の規模での分析、リアルユーザーモニタリング(RUM)からのコアウェブバイタルを含むChrome User Experience Report(CrUX)からの実データ収集が可能になりました。

設定方法は、SEOスパイダーを起動し、「Configuration > API Access > PageSpeed Insights(設定>APIアクセス>PageSpeed Insights)」と進み、無料のPageSpeed Insights APIキーを入力し、指標を選択して接続、クロールを行います。

PageSpeed InsightsのAPIキーを設定する

無料のPageSpeed Insights APIキーを設定するには、Googleアカウントにログインし、PageSpeed Insights getting startedページにアクセスしてください。

ページが表示されたら、1段落下にスクロールして、「キーを取得する」ボタンをクリックします。

その後、プロジェクト名を送信し、利用規約に同意して「next(次へ)」をクリックすることで、キーを作成する手順を実行します。

そして、PSI用のキーを有効にし、コピーできるAPIキーを提供します。

キーをコピーして、「Done(完了)」をクリックします。

そして、これを「Configuration > API Access > PageSpeed Insights(設定>APIアクセス>PageSpeed Insights)」のSEOスパイダーの「Secret Key:」欄に貼り付けて「connect(接続)」ボタンを押すだけでよい。このキーは、APIに呼び出しを行うときに使用されます。

https://www.googleapis.com/pagespeedonline/v5/runPagespeed

これで接続完了です。
SEOスパイダーはシークレットキーを記憶しているので、毎回アプリケーションを起動する際に素早く「connect(接続)」することができます。

APIキーが「failed to connect(接続に失敗しました)」と表示されている場合、有効化するのに数分かかることがあります。また、FAQにあるように、APIライブラリでPSI APIが有効になっていることを確認することもできます。有効になっていない場合は、有効にすると接続できるようになるはずです。

接続が完了すると、「metrics(メトリクス)」タブでクエリするメトリクスとデバイスを選択することができます。

PageSpeed Insights API統合により、以下の速度指標、機会、診断データを収集するよう設定することができます。

概要-メトリクス

  • サイズ別の節約額
  • 合計時間短縮
  • 総リクエスト数
  • 総ページサイズ
  • HTMLサイズ
  • HTMLカウント
  • 画像サイズ
  • 画像カウント
  • CSSサイズ
  • CSSカウント
  • JavaScriptのサイズ
  • JavaScriptのカウント
  • 文字サイズ
  • フォント数
  • メディアサイズ
  • メディアカウント
  • その他のサイズ
  • その他のカウント
  • サードパーティーサイズ
  • サードパーティーのカウント

CrUX メトリクス(PageSpeed Insights の「フィールドデータ」)

  • CrUXパフォーマンス
  • CrUXファーストコンテントフルペイント時間(秒)
  • CrUX初のコンテントフルペイント部門
  • CrUX 第一入力ディレイ時間(秒)
  • CrUXファーストインプットディレイカテゴリー
  • CrUX最大コンテンツ塗布時間(秒)
  • CrUX最大のコンテントフルペイントカテゴリー
  • CrUX 累積レイアウトシフト
  • CrUX 累積レイアウトシフトカテゴリー
  • CrUXインタラクションから次のペイントまで(ms)
  • CrUXインタラクションから次の塗装カテゴリーへ
  • 最初のバイトまでのCrUX時間(ms)
  • CrUX Time to First Byte Category
  • CrUX Originのパフォーマンス
  • CrUX Origin 最初のコンテンツペイント時間(秒)
  • CrUX Origin初のコンテントフルペイントカテゴリー
  • CrUX Origin 最初の入力ディレイ時間(秒)
  • CrUX Origin 第一入力ディレイカテゴリ
  • CrUX Origin 最大のコンテンツペイント時間 (秒)
  • CrUX Origin 最大の含有量を持つ塗料カテゴリー
  • CrUX Origin 累積レイアウトシフト
  • CrUX Origin 累積レイアウトシフトカテゴリー
  • CrUX Originインタラクションから次のペイントまで(ms)
  • クラックス・オリジン・インタラクション、次の塗装カテゴリーへ
  • CrUX Origin 最初のバイトまでの時間 (ms)
  • CrUX Origin 最初のバイトまでの時間 カテゴリ

ライトハウスメトリクス(PageSpeed Insightsの「Lab Data」)

  • パフォーマンススコア
  • 最初のバイトまでの時間(ms)
  • 最初のコンテンツ塗布時間(秒)
  • 第1回コンテントフル・ペイント・スコア
  • スピードインデックス時間(秒)
  • スピードインデックススコア
  • インタラクティブになるまでの時間(秒)
  • インタラクティブスコアまでの時間
  • 初回平均塗装時間(秒)
  • 初めての意味のあるペイントスコア
  • 推定入力待ち時間(ms)
  • 入力待ち時間の推定値
  • ファーストCPUアイドル(秒)
  • ファーストCPUアイドルスコア
  • 最大電位 最初の入力ディレイ (ms)
  • 最大潜在的な第一入力遅延のスコア
  • 総ブロッキング時間 (ms)
  • トータルブロッキングタイムスコア
  • 累積レイアウトシフト
  • レイアウトシフトスコア累計

機会損失

  • レンダーブロックの解消 省資源(ms)
  • オフスクリーン画像遅延時間 (ms)
  • オフスクリーンイメージの保存を延期する
  • 画像の効率的なエンコード 省エネ(ms)
  • 画像保存の効率的なエンコード
  • 画像の適切なサイズ設定 省資源 (ms)
  • 画像保存の適切なサイズ
  • Minify CSSの節約量(ms)
  • CSSの節約を最小化
  • Minify JavaScriptの節約量(ms)
  • 最小限のJavaScriptの節約
  • CSSの未使用量を削減する(ms)
  • CSSの未使用分を削減する
  • 未使用のJavaScriptを削減する 省資源 (ms)
  • 未使用のJavaScriptの保存を削減する
  • 次世代フォーマットでの画像配信 省略量(ms)
  • 次世代フォーマットで画像を提供する 省資源化
  • テキスト圧縮を有効にする 保存量(ms)
  • テキスト圧縮保存を有効にする
  • 必要なOriginの節約にプリコネクト
  • サーバー応答時間(TTFB) (ms)
  • サーバー応答時間(TTFB)区分(ms)
  • 複数リダイレクトの節約量 (ms)
  • プリロード・キー・リクエストの節約量 (ms)
  • アニメーション画像にビデオ形式を使用する 省エネルギー (ms)
  • アニメーション画像の保存には動画形式を使用する
  • 画像最適化の総削減量(ms)
  • レガシーJavaScriptをモダンブラウザのセービングに提供しないようにする

診断結果

  • DOM要素数
  • JavaScript実行時間(秒)
  • JavaScript実行時間カテゴリ
  • 効率的なキャッシュポリシーの節約
  • メインスレッド作業の最小化(秒)
  • メインスレッドのワークカテゴリの最小化
  • Webfontの読み込み中にテキストが表示されたままになる
  • 画像要素に明示的な幅と高さを指定しない
  • 大きなレイアウトシフトを避ける

各指標、機会、診断の定義については、Lighthouseによる説明をご覧ください。

以下の方法で絞り込む

Eliminate Render-Blocking Resources(レンダリングをブロックするリソースの削除): ページの最初の描画をブロックしているリソースを含むすべてのページを、節約の可能性とともにハイライト表示します。

Properly Size Images(画像の適切なサイズ): サイズが適切でない画像を含むすべてのページをハイライトし、適切なサイズに変更することで節約できる可能性があることを示します。

Defer Offscreen Images(オフスクリーン画像の遅延): 画像が非表示またはオフスクリーンになっているすべてのページをハイライトし、それらが遅延ロードされた場合の潜在的な節約も一緒に表示します。

Minify CSS(CSSの最小化): CSSファイルが最小化されていないすべてのページと、それらが正しく最小化された場合の潜在的な節約をハイライト表示します。

Minify JavaScript(JavaScriptの最小化): JavaScriptファイルが最小化されていないすべてのページと、それらが正しく最小化された場合の潜在的な節約をハイライト表示します。

Remove Unused CSS(未使用のCSSを削除): 未使用のCSSを含むすべてのページがハイライトされ、不要なバイトを削除することで節約できる可能性があることも表示されます。

Remove Unused JavaScript(未使用のJavaScriptを削除): 未使用のJavaScriptを含むすべてのページをハイライトし、不要なバイトを削除した場合の潜在的な節約額も表示されます。

Efficiently Encode Images(画像の効率的なエンコード):最適化されていない画像を含むすべてのページをハイライトし、節約の可能性を示します。

Serve Images in Next-Gen Formats(次世代フォーマットで画像を配信): 古い画像フォーマットの画像を含むすべてのページを、節約の可能性とともにハイライトします。

Enable Text Compression(テキスト圧縮を有効にする):  テキストベースのリソースで圧縮されていないすべてのページを、節約の可能性とともにハイライトします。

Preconnect to Required Origin:これは、まだリンクrel=preconnectでフェッチ要求を優先していないキー要求を持つすべてのページを、潜在的な節約とともに強調表示します。

Reduce Server Response Times(サーバー応答時間の短縮(TTFB): サーバーがメインドキュメントのリクエストに応答するまでに600ミリ秒以上待たされたページをすべてハイライト表示します。

Avoid Multiple Redirects(複数のリダイレクトを避ける): リダイレクトするリソースを持つすべてのページをハイライトし、ダイレクトURLを使用することで節約できる可能性があることを表示します。

Preload Key Requests(プリロードキー要求): 重要な要求チェーンの3番目のレベルの要求を持つすべてのページをプリロード候補としてハイライト表示します。

Use Video Format for Animated Images(アニメーション画像にはビデオ形式を使用): アニメーションGIFを含むすべてのページをハイライトし、それらをビデオに変換することで節約できる可能性があることも示しています。

Avoid Excessive DOM Size(過度のDOMサイズを避ける): 推奨される合計1,500ノードを超える大きなDOMサイズを持つすべてのページをハイライト表示します。

Reduce JavaScript Execution Time(JavaScript実行時間の短縮): JavaScriptの実行時間が平均的、または遅いすべてのページをハイライト表示します。

Serve Static Assets With An Efficient Cache Policy(効率的なキャッシュポリシーで静的資産を提供): キャッシュされていないリソースを持つすべてのページを、節約の可能性とともにハイライトします。

Minimize Main-Thread Work(メインスレッド作業の最小化): メインスレッドでの実行タイミングが平均的または遅いすべてのページをハイライト表示します。

Ensure Text Remains Visible During Webfont Load(ウェブフォント読み込み中もテキストが表示されるようにする): ページ読み込み中に点滅したり見えなくなったりする可能性のあるフォントを含むすべてのページをハイライト表示します。

Image Elements Do Not Have Explicit Width & Height(画像要素に明示的な幅と高さがない): HTMLに寸法(幅と高さのサイズ属性)が指定されていない画像を持つすべてのページがハイライトされます。これは、CLSを悪化させる大きな原因となり得ます。

Avoid Large Layout Shifts(レイアウトの大きな変化を避ける): ページのCLSに最も貢献しているDOM要素を持つすべてのページをハイライトし、優先順位付けに役立つ各要素の貢献度を表示します。

Avoiding Legacy JavaScript to Modern Browsers(モダンブラウザにレガシーなJavaScriptを提供しないようにする): レガシーなJavaScriptを含むすべてのページをハイライト表示します。ポリフィルとトランスフォームにより、レガシーブラウザは新しい JavaScript の機能を使用できるようになります。しかし、多くはモダンブラウザには必要ありません。バンドルされている JavaScript では、モジュール/ノモジュール機能検出を使用した最新のスクリプト展開戦略を採用し、レガシーブラウザのサポートを維持しながら、モダンブラウザに出荷されるコード量を削減します。

Request Errors(リクエストエラー): これは、PageSpeed Insights APIからエラーまたはリダイレクト応答を返した任意のURLを強調表示します。

上記の各機会や診断の定義や説明については、Lighthouseのパフォーマンス監査ガイドをお読みください。

節約の可能性がある速度機会、ソースページ、リソースURLは、「Reports > PageSpeed(レポート > PageSpeed)」メニューから一括でエクスポートすることができます。

PageSpeed InsightsのAPI制限について

APIは1日25,000クエリ、1ユーザーあたり100秒間に60クエリに制限されています。SEOスパイダーは、この制限内に収まるようにリクエストの速度を自動的にコントロールします。

APIダッシュボードの’quotas’セクションで、API使用量のクォータを確認してください。

PageSpeed InsightsのAPIエラー

PSI Status 列は、ある URL に対する API リクエストが成功したか、エラーが発生したかを示す。「error(エラー)」は通常、ウェブインターフェースを反映しており、同じエラーとメッセージが表示されます。

よくあるエラーメッセージは次の2つです。

  • “500: リクエストを処理できません: このエラーは一般にウェブインターフェースで再現可能で、私たちのテストによると、PSI API がリクエストを処理できないことが時折あり、おそらく全体的な負荷容量が原因であることが示唆されています。この問題が発生した場合、ウェブインターフェイスで再び利用可能になるまで10分間クロールを一時停止し、右クリックして URL を「再スパイダー」することを推奨します。これにより、選択された URL の PSI データが再要求され、他の URL のクロールと API データの要求が継続されます。
  • “500:Lighthouseがエラーを返しました: errored_document_request.Lighthouseは要求されたページを確実にロードすることができませんでした。”- このエラーは通常ウェブインターフェースで再現可能で、SEOスパイダーやAPIの問題ではなく、PSIが実施したLighthouse監査に直接関係するものです。残念ながら、これらのURLを「再スパイダー」してAPIデータを再リクエストしても、一般的には何の役にも立ちません。経験したエラーについてGoogleのメーリングリストに直接フィードバックするか、Stack Overflow経由で質問することができます。

詳しくは、PageSpeed Insights API Errorsに関するFAQをご覧ください。

マジェスティック

Configuration > API Access > Moz(設定 > APIア+ `tt665クセス > Majestic)

Majesticを使用するには、APIからデータを取得するためのサブスクリプションが必要です。その後、「Configuration > API Access > Majestic(設定 > APIアクセス > Majestic)」に移動し、「generate an Open Apps access token」リンクをクリックする必要があります。

その後、Majesticに移動し、Screaming Frog SEOスパイダーへのアクセスを「許可」する必要があります。

その後、Majesticから固有のアクセストークンが付与されます。

このトークンをコピーして、MajesticのウィンドウのAPIキーボックスに入力し、「connect(接続)」をクリックします。

その後、URL、サブドメイン、ドメインのいずれかのレベルで、データソース(最新または履歴)と指標を選択することができます。

その後、「start(開始)」をクリックしてクロールを実行すると、データは自動的にAPI経由で取得され、「link metrics(リンク指標)」と「internal(内部)」タブで確認することができます。

Ahrefs

Configuration > API Access > Ahrefs(設定 > APIアクセス > Ahrefs)

Ahrefsを利用するには、APIからデータを取得するためのサブスクリプション契約が必要です。
その後、「Configuration > API Access > Ahrefs(設定 > APIアクセス > Ahrefs)」に移動し、「generate an API access token(APIアクセストークンを生成する)」リンクをクリックする必要があります。

その後、Ahrefsに移動し、Screaming Frog SEOスパイダーへのアクセスを「allow(許可)」する必要があります。

その後、Ahrefsから固有のアクセストークンが与えられます(ただし、Screaming Frogのドメインでホストされています)。

「We Missed Your Token(トークンで失敗しました)」というメッセージが表示された場合は、こちらのFAQの指示に従ってください。次に、このトークンをコピーしてAhrefsウィンドウのAPIキーボックスに入力し、「connet(接続)」をクリックしてください。

そして、URL、サブドメイン、ドメインのいずれかのレベルで取得したい指標を選択することができます。

その後、「start(開始)」をクリックしてクロールを実行すると、データは自動的にAPI経由で取得され、「link metrics(リンク指標)」と「internal(内部)」タブで確認することができます。

MOZ

Configuration > API Access > Moz(設定 > APIアクセス > Moz)

Mozscape API からデータを取得するには、Moz アカウントが必要です。
Moz は無料の限定 API と、より多くのメトリクスを高速に取得できる有料の API を提供しています。これは標準的な Moz PRO アカウントとは別のサブスクリプション契約が必要であることに注意してください。

API にアクセスするには、無料アカウントまたは有料サブスクリプションのいずれかを使用して、Moz アカウントにログインしてAPI IDと秘密鍵を表示する必要があります。

Moz のウィンドウの「Configuration > API Access > Moz(設定 > API アクセス > Moz)」にあるそれぞれの API キーボックスにアクセス ID とシークレットキーの両方をコピーして入力し、アカウントの種類(「free(無料)」または「paid(有料)」)を選択して、「connect(接続)」をクリックします。

次に、無料または有料プランに基づいて、利用可能なメトリクスを選択することができます。URLレベル、サブドメインレベル、ドメインレベルのいずれかを選択するだけで、測定値を取得できます。

その後、「start(開始)」をクリックしてクロールを実行すると、データは自動的にAPI経由で取得され、「link metrics(リンク指標)」と「internal(内部)」タブで確認することができます。

各種認証

Configuration > Authentication(設定 > 認証)

SEOスパイダーは、Basic認証とDigest認証を含む標準認証と、Webフォームベースの認証の2つの認証方式をサポートしています。

ログインのやり方は、ビデオガイドをご覧ください。

ベーシック認証とダイジェスト認証

Basic認証とDigest認証は設定不要で、ログインが必要なページをクロールした際に自動的に検出されます。Webサイトを訪問し、ブラウザがユーザー名とパスワードを要求するポップアップを表示した場合、それがBasic認証またはDigest認証となります。ログイン画面がページ自体に含まれている場合は、次のセクションで説明するWebフォーム認証になります。

多くの場合、開発中のサイトも同様にrobots.txtを介してブロックされるので、これがそうでないことを確認するか、「robots.txtを無視する設定」を使用します。その後、ステージングサイトのURLを挿入し、クロールすると、Webブラウザで行うのと同じように、ユーザー名とパスワードを要求するポップアップボックスが表示されます。

認証情報を入力すると、通常通りクロールが行われます。

また、「Config > Authentication(設定 > 認証)」でログイン情報を事前に入力し、「標準ベース」タブで「add(追加)」をクリックすることもできます。

次に、URL、ユーザー名、パスワードを入力します。

認証コンフィグに入力すると、削除されるまで記憶されます。

この機能にはライセンスキーは必要ありません。以下のページで、ブラウザやSEOスパイダーで認証の仕組みを確認してみてください。

▼基本認証
ユーザー名:ユーザー
パスワード:パスワード

▼ダイジェスト認証
ユーザー名:ユーザー
パスワード:パスワード

Webフォーム認証

その他、閲覧やクロールを行うために認証用のCookieでログインする必要があるWebフォームやエリアがあります。 SEOスパイダーでは、SEOスパイダー内蔵のChromiumブラウザ内でこれらのWebフォームにログインし、クロールすることができます。この機能を使用するにはライセンスが必要です。

ログインするには、「Configuration > Authentication(設定 > 認証)」に移動し、「Forms Based(フォームベース)」タブに切り替え、「add(追加)」ボタンをクリックし、クロールしたいサイトのURLを入力すると、ブラウザがポップアップし、ログインできるようになります。

この機能を使用する前に、ユーザーガイドのWebフォームのパスワード保護されたサイトのクロールに関するガイドをお読みください。また、一部のWebサイトでは、ログイン時にJavaScriptのレンダリングを有効にしないとクロールできない場合があります。

注意 – これは非常に強力な機能ですので、責任を持って使用してください。SEOスパイダーはページ上のすべてのリンクをクリックします。ログインしている場合は、ログアウト、記事の作成、プラグインのインストール、データの削除などのリンクが含まれる場合があります。

認証プロファイル

認証プロファイルタブでは、スケジューリングコマンドラインで使用する認証設定をエクスポートすることができます。

つまり、SEOスパイダーが自動クロールを行うための標準やウェブフォームベースの認証にログインすることが可能なのです。

ユーザーインターフェースで標準ベース認証またはWebフォーム認証を行った場合、「Profiles(プロファイル)」タブにアクセスし、.seospiderauthconfigファイルをエクスポートすることができます。

この設定は、スケジューリング時に「start options(スタートオプション)」タブで指定するか、CLIオプションで説明したコマンドライン用の「auth-config」引数で指定します。

注意 – Webサイトによってはログイントークンが失効したり、2FAが導入されている場合があるため、自動化されたWebフォーム認証が常に機能することを保証するものではありません。

トラブルシューティング

フォームベース認証は、設定されたユーザーエージェントを使用します。
ログインできない場合は、Chromeや他のブラウザで試してみてください。

メモリ割り当て

Configuration > System > Memory Allocation(設定 > システム > メモリ割り当て)

SEOスパイダーはJavaを使用しており、起動時にメモリの確保が必要です。SEOスパイダーの初期設定では、32ビットマシンで1GB、64ビットマシンで2GBのメモリが使用できます。

メモリ割り当てを増やすと、SEOスパイダーはより多くのURLをクロールできるようになり、特にRAMストレージモードでは、データベースへの保存も可能になります。

OSや他のアプリケーションが動作できるように、物理的なマシンの総メモリ量より2gb以上少ないメモリ割り当てに設定することをお勧めします。

大規模なWebサイトのクロール、メモリ割り当て、利用可能なストレージオプションについて詳しく知りたい方は、大規模なWebサイトのクロールに関するガイドをご覧ください。

ストレージモード

Configuration > System > Storage Mode(設定 > システム > ストレージモード)

SEOスパイダーは設定可能なハイブリッドエンジンを使用しており、ユーザーはクロールデータをRAMに保存するか、データベースに保存するかを選択することができます。

SEOスパイダーの初期設定では、データの保存と処理に、ハードディスクではなくRAMを使用します。これはスピードや柔軟性といった素晴らしい利点がありますが、デメリットもあります。特に、大規模なクロールが必要な場合です。

SEOスパイダーは、SSDをお使いの場合、「Database Storage’ mode (under ‘Configuration > System > Storage(データベースストレージ」モード(「設定」→「システム」→「ストレージ」))を選択することで、クロールデータをディスクに保存するように設定することもできます。

基本的には、どちらのストレージモードでも実質的に同じクロール体験を提供することができ、リアルタイムでのレポート作成、フィルタリング、クロールの調整が可能です。しかし、いくつかの重要な違いがあり、理想的なストレージはクロールのシナリオとマシンの仕様に依存することにります。

メモリストレージ

メモリ保存モードでは、ほぼすべてのセットアップで超高速かつ柔軟なクロールが可能です。
しかし、マシンのRAM容量はハードディスク容量よりも少ないため、SEOスパイダーは一般的に500,000URL以下のWebサイトをメモリストレージ・モードでクロールするのに適していることを意味します。

適切なセットアップを行えば、これ以上のクロールが可能で、クロールするWebサイトのメモリ消費量にもよります。大まかな目安として、8GBのRAMを搭載した64ビットマシンで、一般的に数十万件のURLをクロールすることができます。

メモリ保存モードは、小規模なWebサイトに適したオプションであると同時に、SSDを搭載していないマシンや、ディスク容量があまりない場合にも推奨されます。

データベースストレージ

SSDをお持ちのユーザーや、大規模なクロールを行う場合の初期設定ストレージとして推奨しています。

データベースストレージモードでは、設定されたメモリに対してより多くのURLをクロールすることができ、SSD(ソリッドステートドライブ)を搭載したセットアップではRAMストレージに近いクロール速度が得られます。

データベース保存モードのメリットを存分に発揮します。

  • より大きな規模でのクローリング
  • 大きなクロールを開くと早い効果。
  • 電源が切れたり、誤ってクリアしたり、クロールを閉じたりしてもデータが失われることはありません。クロールは自動保存され、「File > Crawls(ファイル > クロール)」で再び開くことができます
  • クロール比較変更検出機能は、このモードでのみ使用可能
  • 初期設定のクロール上限は500万URLですが、これは厳しい制限ではなく、SEOスパイダーは(適切なセットアップをすれば)もっと多くのクロールが可能です。例えば、500gbのSSDと16gbのRAMを搭載したマシンでは、およそ1000万URLまでクロールできるはずです。

推奨はしませんが、高速なハードディスクドライブ(HDD)ではなく、ソリッドステートディスク(SSD)を使用している場合、このモードでもより多くのURLをクロールすることができます。ただし、ハードディスクの書き込み・読み込み速度がクロールのボトルネックになるため、クロール速度もインターフェース自体も大幅に遅くなります。

ネットワークドライブの使用はサポートされていません。これは、非常に遅くなるほか接続が不安定になります。DropboxやOneDriveなど、リモートで同期するローカルフォルダーを使用することは、これらのプロセスがファイルをロックするため、サポートされていません。Vaultドライブもサポートされていません。

クロール中にマシン上で作業を行う場合、マシンのパフォーマンスにも影響を与えるため、負荷に対応するためにクロール速度を落とす必要があるかもしれません。SSDは非常に高速なので、一般的にこの問題は発生しません。このため、小規模なクロールでも大規模なクロールでも、「database storage(データベースストレージ)」を初期設定として使用することができます。

ストレージモードについてのビデオガイドをご覧ください。

トラブルシューティング

JDK-8205404により、ExFAT/MS-DOS(FAT)ファイルシステムはmacOSではサポートされていません。

プロキシ

Configuration > System > Proxy(設定 > システム > プロキシ)

プロキシ機能は、SEOスパイダーがプロキシサーバーを使用するように設定するためのオプションです。

プロキシのアドレスとポートを設定ウィンドウで設定する必要があります。プロキシサーバーを無効にするには、「Use Proxy Server(プロキシサーバーを使用する)」オプションのチェックを外してください。

注意点
  • プロキシサーバーは1台のみ設定可能です。
  • 変更を有効にするには、再起動する必要があります。
  • 例外を設けることはできません。すべてのHTTP/HTTPSトラフィックがプロキシを経由するか、あるいはまったく経由しないかのどちらかです。
  • プロキシによっては、フォームベースの認証により、クロール前にログイン情報の入力を要求する場合があります。

言語

Configuration > System > Language(設定>システム>言語)

GUIは、英語、スペイン語、ドイツ語、フランス語、イタリア語で利用可能です。起動時にマシンで使用されている言語を検出し、初期設定でその言語を使用するようになります。

言語は、「Configuration > System > Language(設定 > システム > 言語)」からツール内で設定することも可能です。

今後、さらに多くの言語に対応する可能性がありますので、対応してほしい言語があれば、サポートを通じてお知らせください。

モード

Mode > Spider / List / SERP(モード > スパイダー/リスト/SERP)

スパイダーモード

これはSEOスパイダーの初期設定のモードです。このモードでは、SEOスパイダーはWebサイトをクロールし、リンクを集め、URLを様々なタブとフィルターに分類します。好きなURLを入力し、「start(開始)」をクリックするだけです。

リストモード

このモードでは、事前に定義されたURLのリストをチェックすることができます。
このリストは、単純なコピー&ペースト、.txt, .xls, .xlsx, .csv, .xml ファイルなど、さまざまなソースから取得することが可能です。ファイルは、http:// または https:// のプレフィックス付き URL を調査し、その他のテキストはすべて無視されます。

例えば、Adwordsのダウンロードファイルを直接アップロードすると、すべてのURLが自動的に検出されます。

サイトの移行を行い、URLをテストしたい場合は、SEOスパイダーが最終的な目的地のURLを見つけることができるように、「always follow redirects(常にリダイレクトを辿る)」設定を使用することを強くお勧めします。リダイレクトチェーンレポートで確認するのがベストですが、詳しくは「リダイレクトの監査方法」ガイドをご覧ください。

リストモードでは、クロール深度の設定が0に変更され、アップロードされたURLのみがチェックされるようになります。これらのURLからのリンクをチェックしたい場合は、「Configuration > Spider(設定 > スパイダー)」の「Limits(制限)」タブでクロール深度を1以上に調整します。リストモードでは、初期設定でrobots.txtを無視するように設定されており、リストがアップロードされている場合、リスト内のすべてのURLをクロールすることを意図していると考えられます。

リストモードのデータをアップロードした順番でエクスポートしたい場合は、ユーザーインターフェースの上部にある「upload(アップロード)」と「start(開始)」ボタンの隣に表示される「export(エクスポート)」ボタンを使用します。

エクスポートされるデータは、同じ順番で、重複や修正されたものも含め、アップロード元のURLと全く同じものがすべて含まれます。

リストモードでより高度なクロールを行う方法を知りたい方は、リストモードの使い方ガイドをご覧ください。

SERPモード

このモードでは、ページタイトルとメタディスクリプションを直接SEOスパイダーにアップロードして、ピクセル幅(と文字数!)を計算することができます。このモードではクロールは行われませんので、Webサイト上でライブにする必要はありません。

つまり、SEOスパイダーからページのタイトルと説明をエクスポートし、(ツール自体ではなく、お好みで)エクセルで一括編集した後、再びツールにアップロードして、GoogleのSERPにどのように表示されるかを理解することができるのです。

レポート」の下に、ページのタイトルと説明を再アップロードするために必要な形式の「SERPサマリー」レポートが新たに追加されました。「URL」「タイトル」「説明文」の3つのヘッダが必要なだけです。

▼例

.txt、.csv、Excelファイルでアップロードすることができます。

比較する

このモードでは、2つのクロールを比較し、時間の経過とともにタブやフィルターにどのようにデータが変化したかを確認することができます。チュートリアルの「クロールを比較する方法」を参照してください。

比較機能は、データベースストレージモードでライセンスがある場合のみ利用可能です。まだ移行していない場合は、「Config > System > Storage Mode(設定 > システム > ストレージモード)」で「Database Storage(データベースストレージ)」を選択するだけで、簡単に移行することができます。

クロールの比較には、次の2つのオプションがあります。

1) 「Mode > Compare(モード > 比較)」で「compare(比較)」モードに切り替え、上部メニューから「Select Crawl(クロールを選択)」をクリックして、比較したいクロールを2つ選びます。

2) 「spider(スパイダー)」または「list(リスト)」モードで「File > Crawls(ファイル > クロール)」と進み、2つのクロールをハイライトして「Select To Compare(比較対象として選択)」すると、「compare(比較)」モードに切り替わります。

その後、「歯車」アイコンをクリックするか、「Config > Compare(設定 > 比較)」をクリックして、比較設定を調整することができます。これにより、変化検出のために分析する要素を追加で選択することができます。

次に「compare(比較)」をクリックすると、クロール比較分析が実行され、右側の概要タブに現在と過去のクロールデータが入力され、変更を加えて表示されます。

列の数字をクリックすると、どのURLに変更があったかを確認できます。また、マスターウィンドウのビューでフィルターを使用して、現在と過去のクロール、または追加、新規、削除、見つからないURLの切り替えが可能です。

4つのカラムとフィルターがあり、タブやフィルターに移動するURLをセグメント化することができます。

Added:前回のクロールで、今回のクロールのフィルターに移動したURL

New:前回のクロールに含まれない新しいURLで、今回のクロールとファイターに含まれるもの。

Removed:前回のクロールでフィルターに登録され、今回のクロールでフィルターに登録されていないURL

Missing:現在のクロールで見つからなかったURLで、以前はフィルターに含まれていたもの

基本的に、「add(追加)」と「removed(削除)」は現在のクロールと以前のクロールの両方に存在するURLで、「new(新規)」と「missing(欠落)」はどちらかのクロールにのみ存在するURLです。

クロールの比較が完了すると、小さな比較ファイルが「File > Crawls(ファイル>クロール)」に自動的に保存され、解析を再度実行しなくても開いて見ることができるようになります。

このファイルは、比較された2つのクロールを利用します。したがって、比較を表示するためには、両方とも保存されている必要があります。比較の片方または両方のクロールを削除すると、比較にアクセスできなくなります。

詳しくは、チュートリアルの「クロールの比較方法」をご覧ください。

よかったらシェアしてね!
  • URLをコピーしました!
書いてあること