Screaming Frog カスタムエクストラクションズ。クロールデータ抽出のためのガイド

Q: パンくずスキーマの抽出

でパンくずをチェックするために使用するカスタム抽出は以下の通りです。 スクリーミングフロッグ . 続きを読む

Question 1

Screaming Frog SEO Spiderとは何ですか？

Accepted Answer

Screaming Frog SEO Spiderソフトウェアは、GUI（グラフィカル・ユーザー・インターフェース）を使ってウェブサイトのデータを抽出・分析することで、オンサイトSEOを改善するウェブサイト・クローラーです。

Question 2

カスタムエクストラクションとは何ですか？

Accepted Answer

カスタム抽出は、Screaming Frogs SEO スパイダーがウェブページから明確な情報を抽出するための一連の機能です。これらの抽出は、検索結果を含むテクニカルSEOのためにサイトを最適化し、コピーに関する重要なデータを収集し、エラーを発見して修正するのに役立ちます。

Question 3

データ抽出はどのように行われるのですか？

Accepted Answer

データ抽出のプロセスでは、Screaming Frogのウェブスパイダーを使ってあなたのウェブサイト上の必要なデータを取り出します。情報はScreaming Frogのメモリ内に保存され、さらに検討するためにスキャンした結果をExcelまたはGoogle Sheetsにエクスポートするオプションが与えられます。

Question 4

なぜデータ抽出が重要なのか？

Accepted Answer

データ抽出により、大量のデータを迅速かつ効率的に採取することができます。この自動化により、Webアーキテクチャの結果を即座に得ることができます。このプロセスにより、時間とリソースを節約しながら、検索エンジン最適化戦略を計画し、戦略を立てるために必要な貴重なデータを入手することができます。

Question 5

Screaming Frog SEO Spiderとは何ですか？

Accepted Answer

Screaming Frog SEO Spiderソフトウェアは、グラフィカルユーザーインターフェイス（GUI）を使ってウェブサイトの構造化データを抽出・分析し、XMLやJavaScriptでレンダリングされたコンテンツを効果的に処理することで、オンサイトSEOを改善するウェブサイトクローラーです。

Question 6

カスタムエクストラクションとは何ですか？

Accepted Answer

カスタム抽出は、ウェブページから明確な情報を抽出するScreaming FrogのSEOスパイダー機能です。これらの抽出は、検索結果を含むテクニカルSEO監査のためにサイトを最適化し、コピーに関する重要なデータを収集し、ヘッダーやその他の要素のエラーを見つけ修正するのに役立ちます。

Question 7

データ抽出はどのように行われるのですか？

Accepted Answer

ウェブサイトから必要なデータを引き出すデータ抽出を処理したい場合は、Screaming Frogをご利用ください。情報はScreaming Frogのメモリに保存され、さらに検討するためにスキャンした結果をExcelやGoogle Sheetsにエクスポートするオプションがあります。これには、ドロップダウンメニューや内部リンク構造からのデータも含まれます。

Question 8

なぜデータ抽出が重要なのか？

Accepted Answer

データ抽出により、大量のデータを迅速かつ効率的に採取することができます。この自動化により、ウェブ・アーキテクチャの結果を即座に得ることができます。このプロセスは、検索エンジン最適化戦略を計画し戦略を立てるために必要な貴重なデータを提供しながら、時間とリソースを節約します。Screaming Frogは、SEO担当者向けのウェブスクレーパーツールであり、データ抽出ツールです。ウェブスクレイピングのカスタム構文がたくさんあります。以下のチュートリアルをご覧ください。

Question 9

Screaming Frogを使用してカスタムデータを抽出する方法

Accepted Answer

ウェブサイトから必要なデータを引き出すデータ抽出を処理したい場合は、Screaming Frogをご利用ください。情報はScreaming Frogのメモリ内に保存され、さらに確認するためにスキャンした結果をExcelやGoogle Sheetsにエクスポートすることができます。より高度なニーズに対しては、ノードやスニペットを含むHTMLやJavaScriptでレンダリングされたコンテンツから特定のパターンを正確にターゲットにして抽出するために正規表現を組み込むことができます。

Question 10

パンくずスキーマの抽出

Accepted Answer

でパンくずをチェックするために使用するカスタム抽出は以下の通りです。スクリーミングフロッグ.

Question 11

すべてのスキーママークアップとスキーマタイプを抽出する

Accepted Answer

このリストに追加してほしい抽出物があれば教えてください。

シンタックス	機能
`//`	文書内の任意の場所を検索
`/`	のルート内を検索します。ウェブサイト
`@`	要素の特定の属性を選択する
`*`	ワイルドカードは任意の要素を選択するために使用されます
`[ ]`	特定の要素を検索する
`.`	現在の要素を指定する
`..`	親要素を指定する

エックスパス	OUTPUT
`//h1`	すべてのH1タグを抽出する
`//h2[1]`	最初のH2タグを抽出する
`//h2[2]`	2つ目のH2タグを抽出する
`//div/p`	を抽出します。 <p> に含まれる。 <div>
`//div[@class='author']です。`	を抽出します。 <div> クラス "author "を持つ
`//p[@class='content']です。`	を抽出します。 <p> クラス "コンテンツ "を持つ
`//*[@class='content'].`	クラス "content" を持つ任意の要素を抽出する。
`//ul/li[last()]の場合`	内の最後のを抽出する。
`//ol[@class='cat']/li[1]です。`	クラス "cat "を持つ内の最初のを抽出する。
`カウント(//h2)`	H2の数を数える（抽出フィルターを「関数値」に設定する）
`//a[contains(.,'learn more')]].`	"learn more" を含むアンカーテキストを持つリンクを抽出します。
`//a[starts-with(@title,'Written by')].`	"Written by "で始まるタイトルを持つリンクを抽出します。

エックスパス	OUTPUT
`//参照`	すべてのリンクを抽出する
`//a[starts-with(@href,'mailto')]/@href`	mailto:」（メールアドレス）で始まるリンクを抽出します。
`//a[starts-with(@href,'tel')]/@href`	tel:"（電話番号）で始まるリンクを抽出します。
`//img/@src`	すべての画像ソースURLを抽出する
`//img[contains(@class,'aligncenter')]/@src`	クラス名 "aligncenter" を含む画像のソース URL をすべて抽出します。
`//リンク[@rel='alternate']です。`	rel属性が "alternate "に設定されている要素を抽出する。
`//hreflang`	すべての hreflang 値を抽出する

エックスパス	OUTPUT
`//meta[@property='article:published_time']/@content`	記事の公開日を抽出（WordPressのWebサイトでよく見られるmetaタグ）

エックスパス	OUTPUT
`//meta[@property='og:type']/@content`	Open Graph型オブジェクトを抽出する
`//meta[@property='og:image']/@content`	Open Graphのフィーチャー画像のURLを抽出します。
`//meta[@property='og:updated_time']/@content`	オープングラフの更新時刻を抽出する

Screaming Frog カスタムエクストラクションズ。クロールデータ抽出のためのガイド

とは何ですか？ Screaming Frog SEO Spider?

何をするのか？カスタム抜歯?

データ抽出はどのように行われるのですか？

なぜデータ抽出が重要なのか？

Screaming Frogを使用してカスタムデータを抽出する方法

例

XPath Webスクレイピングを利用するための基本的な構文

エクスパット機能

一般的なHTML要素を抽出する方法

メタタグの抽出（内側のHTML要素を使用）

オープングラフの抽出

ツイッターカードを抽出する

スキーマタイプを抽出する

パンくずスキーマの抽出

製品スキーマを抽出する

レビュースキーマの抽出

ローカルビジネスと組織のスキーマを抽出する

記事スキーマを抽出する

によるカスタムデータ抽出レジェックス

ワイルドカード

アンカー

グループ

エスケープ

Regexカスタムデータ抽出

すべてのスキーママークアップとスキーマタイプを抽出する

パンくずスキーマの抽出

製品スキーマを抽出する

レビュースキーマの抽出

ローカルビジネスと組織のスキーマを抽出する

ArticleまたはBlogPosting Schemaを抽出する。

この記事はあなたの疑問を解決してくれましたか？

この記事はあなたの疑問を解決してくれましたか？

アイザック・アダムス・ハンズ

エックスパス	OUTPUT
`//meta[@name='twitter:card']/@content`	Twitterカードの種類を抽出する
`//meta[@name='twitter:title']/@content`	Twitterカードのタイトルを抽出する
`//meta[@name='twitter:site']/@content`	Twitterカードサイトオブジェクト（Twitterハンドル）を抽出します。

エックスパス	OUTPUT
`//*[@itemtype]/@itemtype`	ページ上のすべてのタイプのスキーママークアップを抽出します。

エックスパス	OUTPUT
`//[contains(@itemtype,'BreadcrumbList')]/[@itemprop]/a/@href`	すべてのパンくずリンクを抽出する
`//[contains(@itemtype,'BreadcrumbList')]/[@itemprop][1]/a/@href`	最初のパンくずリンクを抽出する
`//[contains(@itemtype,'BreadcrumbList')]/[@itemprop].`	パンくずの名前を抽出する（抽出フィルタを「テキストを抽出」に設定）。
`count(//[contains(@itemtype,'BreadcrumbList')]/[@itemprop])`	パンくずリスト項目の数を数える（抽出フィルタを "関数値 "にする）

エックスパス	OUTPUT
`//*[@itemprop='name']/@content`	製品名を抽出する
`//*[@itemprop='description']/@content`	商品説明文の抜粋
`価格] //*[@itemprop='price']/@content`	製品価格を抽出する
`価格通貨] //*[@itemprop='priceCurrency']/@content`	製品通貨を抽出する
`//*利用可否について`	製品の在庫状況を抽出
`//*[@itemprop='sku']/@content`	製品SKUを抽出する

エックスパス	OUTPUT
`//*[@itemprop='reviewCount']を指定します。`	レビュー回数を抽出
`//*[@itemprop='ratingValue']を指定します。`	レーティング値を抽出する
`//*[@itemprop='bestRating']です。`	最適なレビュー評価を抽出
`//レビュー]/[@itemprop='name']。`	レビュー名を抽出する
`//レビュー]/[@itemprop='author']。`	レビュー執筆者を抜粋
`//レビュー]/[@itemprop='datePublished']/@content`	レビューの公開日を抽出する
`//[@itemprop='review']/[@itemprop='reviewBody'].`	レビューの本文を抜粋

エックスパス	OUTPUT
`//[contains(@itemtype,'organization')]/[@itemprop='name'].`	組織名を抽出する
`//住所]/[@itemprop='streetAddress']を指定します。`	ストリートアドレスを抽出する
`//住所]/[@itemprop='addressLocality']を指定します。`	アドレスの局所性を抽出する
`//住所]/[@itemprop='addressRegion']。`	アドレス領域を抽出する
`//*[@itemprop='telephone'].`	電話番号を抽出する
`//*[@itemprop='sameAs']/@href`	sameAs "リンクを抽出します。

エックスパス	OUTPUT
`//[contains(@itemtype,'Article')]/[@itemprop='headline'].`	記事の見出しを抽出する
`//[@itemprop='author']/[@itemprop='name']/@content`	著者名を抽出する
`//出版社]/[@itemprop='name']/@content`	出版社名を抽出する
`//*内容物`	発行日を抜粋
`//*[@itemprop='dateModified']/@content`	更新日時を抽出する

シンタックス	機能
`.`	任意の1文字にマッチする
`*`	直前の文字に0回以上マッチする
`?`	直前の文字に0回または1回マッチする
`+`	直前の文字に1回以上マッチする
`\|`	オア

シンタックス	機能
`^`	文字列は、後続の文字から始まります。
`$`	文字列は直前の文字で終了する。

シンタックス	機能
`( )`	囲んだ文字を正確な順序で一致させる
`[ ]`	囲んだ文字を任意の順序でマッチング
`-`	指定された範囲内の任意の文字にマッチする

シンタックス	機能
`\`	文字を正規表現としてではなく、文字として扱う。

リジェックス	OUTPUT
`["'](ua-.*?)["']です。`	Google AnalyticsのトラッキングIDを抽出する
`["'](G-.*?)["']`	Google Analytics 4（GA4）のトラッキングIDを抽出します。
`["'](aw-.*?)["']です。`	Google AdsのコンバージョンIDやリマーケティングタグを抽出します。
`["'](gtm-.*?)["']．`	Google タグマネージャおよび Google オプティマイズの ID を抽出します。
`fbq\(["']init["'], ["'](.*?)["']`	Facebook Pixel IDを抽出する
`\♪♪♪♪～`	Bing Ads UETタグの抽出
`adroll_adv_id = ["'](.*?)["'].`	AdRollの広告主IDを抽出する
`adroll_pix_id = ["'](.*?)["'].`	AdRollのPixel IDを抽出します。

リジェックス	OUTPUT
`["']application/ld+json["']>(.*?).`	JSON-LDスキーマのマークアップをすべて抽出します。
`["']@type["']:["'](.?)["']`	ページ上のJSON-LDスキーママークアップの全種類を抽出します。

リジェックス	OUTPUT
`["']item["']:["']@id["']:["'](.*?)["']`	パンくずリンクの抽出
`["']item["']:{["']@id["']:["'].?["'], ["']name["']:["'](.?)["']`	パンくずの名前を抽出する

リジェックス	OUTPUT
`["']@type["']:["']Product["'].?["']name["']:["'](.?)["']`	製品名を抽出する
`["']@type["']:["']Product["'].?["']description["']:["'](.?)["']`	商品説明文の抜粋
`["']@type["']:["']Product["'].?["']price["']:["'](.?)["']`	製品価格を抽出する
`["']@type["']:["']Product["'].?["']priceCurrency["']:["'](.?)["']`	製品通貨を抽出する
`["']@type["']:["']Product["'].?["']availability["']:["'](.?)["']`	製品の在庫状況を抽出
`["']@type["']:["']Product["'].?["']sku["']:["'](.?)["']`	製品SKUを抽出する

リジェックス	OUTPUT
`["']reviewCount["']:["'](.?)["']`	レビュー回数を抽出
`["']ratingValue["']:["'](.?)["']`	レーティング値を抽出する
`["']bestRating["']です。["'](.?)["']`	最適な評価を抽出する

リジェックス	OUTPUT
`["']@type["']:["']Organization["'].?["']name["']:["'](.?)["']`	組織名を抽出する
`["']streetAddress["']です。["'](.?)["']`	ストリートアドレスを抽出する
`["']addressLocality["']です。["'](.?)["']`	アドレスの局所性を抽出する
`["']addressRegion["']です。["'](.?)["']`	アドレス領域を抽出する
`["']電話["']:["'](.?)["']`	電話番号を抽出する
`["']sameAs["']:\[(.?)\]`	sameAs "リンクを抽出します。

リジェックス	OUTPUT
`["']ヘッドライン["']:["'](.?)["']`	記事の見出しを抜粋
`["']author["'].?["']name["']:["'](.*?)["']`	著者名を抽出する
`["']publisher["'].?["']name["']:["'](.*?)["']`	出版社名を抽出する
`["']datePublished["']:["'](.?)["']`	発行日を抜粋
`["']dateModified["']:["'](.?)["']`	更新日時を抽出する

とは何ですか？ Screaming Frog SEO Spider?

何をするのか？ カスタム抜歯?

データ抽出はどのように行われるのですか？

なぜデータ抽出が重要なのか？

Screaming Frogを使用してカスタムデータを抽出する方法

例

XPath Webスクレイピングを利用するための基本的な構文

エクスパット 機能

一般的なHTML要素を抽出する方法

メタタグの抽出（内側のHTML要素を使用）

オープングラフの抽出

ツイッターカードを抽出する

スキーマタイプを抽出する

パンくずスキーマの抽出

製品スキーマを抽出する

レビュースキーマの抽出

ローカルビジネスと組織のスキーマを抽出する

記事スキーマを抽出する

によるカスタムデータ抽出 レジェックス

ワイルドカード

アンカー

グループ

エスケープ

Regexカスタムデータ抽出

すべてのスキーママークアップとスキーマタイプを抽出する

パンくずスキーマの抽出

製品スキーマを抽出する

レビュースキーマの抽出

ローカルビジネスと組織のスキーマを抽出する

ArticleまたはBlogPosting Schemaを抽出する。

この記事はあなたの疑問を解決してくれましたか？

この記事はあなたの疑問を解決してくれましたか？

アイザック・アダムス・ハンズ

何をするのか？カスタム抜歯?

エクスパット機能

によるカスタムデータ抽出レジェックス