Screaming Frog SEO Spiderとは何ですか？

Screaming Frog SEO Spiderソフトウェアは、GUI（グラフィカル・ユーザー・インターフェース）を使ってウェブサイトのデータを抽出・分析することで、オンサイトSEOを改善するウェブサイト・クローラーです。

カスタムエクストラクションとは何ですか？

カスタム抽出は、Screaming Frogs SEO スパイダーがウェブページから明確な情報を抽出するための一連の機能です。これらの抽出は、検索結果を含むテクニカルSEOのためにサイトを最適化し、コピーに関する重要なデータを収集し、エラーを発見して修正するのに役立ちます。

Screaming Frogのカスタム抽出。クロールデータ抽出のガイド

Q: データ抽出はどのように行われるのですか？

データ抽出のプロセスでは、Screaming Frogのウェブスパイダーを使ってあなたのウェブサイト上の必要なデータを取り出します。情報はScreaming Frogのメモリ内に保存され、さらに検討するためにスキャンした結果をExcelまたはGoogle Sheetsにエクスポートするオプションが与えられます。

Q: なぜデータ抽出が重要なのか？

データ抽出により、大量のデータを迅速かつ効率的に採取することができます。この自動化により、Webアーキテクチャの結果を即座に得ることができます。このプロセスにより、時間とリソースを節約しながら、検索エンジン最適化戦略を計画し、戦略を立てるために必要な貴重なデータを入手することができます。

Q: Screaming Frogを使用してカスタムデータを抽出する方法

1.ScreamingFrogで、次のページに進みます。 設定」→「カスタム」→「抽出」。 続きを読む

Q: パンくずスキーマの抽出

でパンくずをチェックするために使用するカスタム抽出は以下の通りです。 スクリーミングフロッグ . 続きを読む

Screaming Frog (screamingfrog.co.uk) is a powerful SEO tool with many search engine optimization features. One of the lesser-known features, Screaming Frog Custom Extractions, allows you to easily extract data from your crawls. This blog post will discuss how Screaming Frog Custom Extraction works and why it can help improve your SEO efforts and e-commerce digital marketing SEO strategies!

Websites have a ton of helpful information—most times, it’s too laborious or complicated to visit every page on a website to copy product data, メタデータ, タイトルタグそしてアンカーテキスト into a spreadsheet. Here is where Screaming Frog comes to the rescue with custom search data extractions to automate the process. Custom extractions are a form of ウェブスクレイピングウェブハーベスティング、またはウェブデータ抽出は、ウェブサイトからデータをスクレイピングして抽出し、自分のコンピュータにローカルに保存できるようにするために使用されます。

初心者の方へ、疑問に思うことを。

Screaming Frog SEO Spiderとは何ですか？
カスタムエクストラクションとは何ですか？
データ抽出はどのように行われるのですか？
なぜデータ抽出が重要なのか？
Screaming Frogを使用してカスタムデータを抽出する方法
- 例
XPath Webスクレイピングを利用するための基本的な構文
XPath関数
一般的なHTML要素を抽出する方法
メタタグの抽出（内側のHTML要素を使用）
オープングラフの抽出
ツイッターカードを抽出する
スキーマタイプを抽出する
パンくずスキーマの抽出
製品スキーマを抽出する
レビュースキーマの抽出
ローカルビジネスと組織のスキーマを抽出する
記事スキーマを抽出する
Regexによるカスタムデータ抽出
- ワイルドカード
- アンカー
- グループ
- エスケープ
Regexカスタムデータ抽出
すべてのスキーママークアップとスキーマタイプを抽出する
- パンくずスキーマの抽出
- 製品スキーマを抽出する
- レビュースキーマの抽出
- ローカルビジネスと組織のスキーマを抽出する
- ArticleまたはBlogPosting Schemaを抽出する。
この記事はあなたの疑問を解決してくれましたか？

とは何ですか？ Screaming Frog SEO Spider?

があります。 Screaming Frog SEO Spider software is a website crawler that improves onsite SEO by extracting and analyzing your website’s structured data using a graphical user interface (GUI).

What are custom extractions?

カスタムエクストラクションはScreaming Frogs SEO スパイダーは、ウェブページから明示的な情報を抽出する機能を備えています。これらの抽出は、あなたのサイトを以下のように最適化するのに役立ちます。テクニカルSEO audit, including search results, gather essential data on your copy, and help locate and fix errors.

データ抽出はどのように行われるのですか？

Use Screaming Frog if you want to process data extraction, which involves pulling the required data from your website. The information is saved within Screaming Frog’s memoryにエクスポートすることができます。エクセルまたはグーグルシートをご覧ください。

なぜデータ抽出が重要なのか？

データ抽出により、大量のデータを迅速かつ効率的に採取することができます。この自動化により、以下のような結果をすぐに得ることができます。ウェブアーキテクチャ. This process saves you time and resources while giving you the valuable data you’ll need to plan and strategize search engine optimization strategies. Screaming Frog is the go-to Web Scraper Tool for SEOs and a data extractor. The options are endless; here are a ton of custom web-scraping syntaxes. Check the tutorial below.

Screaming Frogを使用してカスタムデータを抽出する方法

1.ScreamingFrogで、次のページに進みます。 設定」→「カスタム」→「抽出」。

2.次に、次のことを行います。 +Add をクリックし、抽出ルールを設定します。

3.を追加する。 タイトル,
4.必要な場合は選択してください。 CSSPathです。エクスパットまたはレジェックス,
5.を追加します。 検索機能.

If you aren’t sure which selector or function you need, look at the examples below or use the inspect element function in グーグルクロームデバイスツール. You can open Dev Tools by using “right-click” in the Google Chrome browser.

例

Here is an example of how you would scrape for a Facebook Pixel ID

での結果ご覧の通り、私のページの1つにはFacebook Pixelがありません。

以下は、あらかじめ定義されたカスタム抽出データセットです。

XPath Webスクレイピングを利用するための基本的な構文

シンタックス	機能
`//`	文書内の任意の場所を検索
`/`	のルート内を検索します。ウェブサイト
`@`	要素の特定の属性を選択する
`*`	ワイルドカードは任意の要素を選択するために使用されます
`[ ]`	特定の要素を検索する
`.`	現在の要素を指定する
`..`	親要素を指定する

エクスパット機能

エックスパス	OUTPUT
`//h1`	すべてのH1タグを抽出する
`//h2[1]`	最初のH2タグを抽出する
`//h2[2]`	2つ目のH2タグを抽出する
`//div/p`	を抽出します。 <p> に含まれる。 <div>
`//div[@class='author']です。`	を抽出します。 <div> クラス "author "を持つ
`//p[@class='content']です。`	を抽出します。 <p> クラス "コンテンツ "を持つ
`//*[@class='content'].`	クラス "content" を持つ任意の要素を抽出する。
`//ul/li[last()]の場合`	内の最後のを抽出する。
`//ol[@class='cat']/li[1]です。`	クラス "cat "を持つ内の最初のを抽出する。
`カウント(//h2)`	H2の数を数える（抽出フィルターを「関数値」に設定する）
`//a[contains(.,'learn more')]].`	"learn more" を含むアンカーテキストを持つリンクを抽出します。
`//a[starts-with(@title,'Written by')].`	"Written by "で始まるタイトルを持つリンクを抽出します。

一般的なHTML要素を抽出する方法

エックスパス	OUTPUT
`//参照`	すべてのリンクを抽出する
`//a[starts-with(@href,'mailto')]/@href`	mailto:」（メールアドレス）で始まるリンクを抽出します。
`//a[starts-with(@href,'tel')]/@href`	tel:"（電話番号）で始まるリンクを抽出します。
`//img/@src`	すべての画像ソースURLを抽出する
`//img[contains(@class,'aligncenter')]/@src`	クラス名 "aligncenter" を含む画像のソース URL をすべて抽出します。
`//リンク[@rel='alternate']です。`	rel属性が "alternate "に設定されている要素を抽出する。
`//hreflang`	すべての hreflang 値を抽出する

メタタグの抽出（内側のHTML要素を使用）

エックスパス	OUTPUT
`//meta[@property='article:published_time']/@content`	記事の公開日を抽出（WordPressのWebサイトでよく見られるmetaタグ）

オープングラフの抽出

エックスパス	OUTPUT
`//meta[@property='og:type']/@content`	Open Graph型オブジェクトを抽出する
`//meta[@property='og:image']/@content`	Open Graphのフィーチャー画像のURLを抽出します。
`//meta[@property='og:updated_time']/@content`	オープングラフの更新時刻を抽出する

ツイッターカードを抽出する

エックスパス	OUTPUT
`//meta[@name='twitter:card']/@content`	Twitterカードの種類を抽出する
`//meta[@name='twitter:title']/@content`	Twitterカードのタイトルを抽出する
`//meta[@name='twitter:site']/@content`	Twitterカードサイトオブジェクト（Twitterハンドル）を抽出します。

スキーマタイプを抽出する

エックスパス	OUTPUT
`//*[@itemtype]/@itemtype`	ページ上のすべてのタイプのスキーママークアップを抽出します。

パンくずスキーマの抽出

でパンくずをチェックするために使用するカスタム抽出は以下の通りです。スクリーミングフロッグ.

エックスパス	OUTPUT
`//[contains(@itemtype,'BreadcrumbList')]/[@itemprop]/a/@href`	すべてのパンくずリンクを抽出する
`//[contains(@itemtype,'BreadcrumbList')]/[@itemprop][1]/a/@href`	最初のパンくずリンクを抽出する
`//[contains(@itemtype,'BreadcrumbList')]/[@itemprop].`	パンくずの名前を抽出する（抽出フィルタを「テキストを抽出」に設定）。
`count(//[contains(@itemtype,'BreadcrumbList')]/[@itemprop])`	パンくずリスト項目の数を数える（抽出フィルタを "関数値 "にする）

製品スキーマを抽出する

エックスパス	OUTPUT
`//*[@itemprop='name']/@content`	製品名を抽出する
`//*[@itemprop='description']/@content`	商品説明文の抜粋
`価格] //*[@itemprop='price']/@content`	製品価格を抽出する
`価格通貨] //*[@itemprop='priceCurrency']/@content`	製品通貨を抽出する
`//*利用可否について`	製品の在庫状況を抽出
`//*[@itemprop='sku']/@content`	製品SKUを抽出する

レビュースキーマの抽出

エックスパス	OUTPUT
`//*[@itemprop='reviewCount']を指定します。`	レビュー回数を抽出
`//*[@itemprop='ratingValue']を指定します。`	レーティング値を抽出する
`//*[@itemprop='bestRating']です。`	最適なレビュー評価を抽出
`//レビュー]/[@itemprop='name']。`	レビュー名を抽出する
`//レビュー]/[@itemprop='author']。`	レビュー執筆者を抜粋
`//レビュー]/[@itemprop='datePublished']/@content`	レビューの公開日を抽出する
`//[@itemprop='review']/[@itemprop='reviewBody'].`	レビューの本文を抜粋

ローカルビジネスと組織のスキーマを抽出する

エックスパス	OUTPUT
`//[contains(@itemtype,'organization')]/[@itemprop='name'].`	組織名を抽出する
`//住所]/[@itemprop='streetAddress']を指定します。`	ストリートアドレスを抽出する
`//住所]/[@itemprop='addressLocality']を指定します。`	アドレスの局所性を抽出する
`//住所]/[@itemprop='addressRegion']。`	アドレス領域を抽出する
`//*[@itemprop='telephone'].`	電話番号を抽出する
`//*[@itemprop='sameAs']/@href`	sameAs "リンクを抽出します。

記事スキーマを抽出する

エックスパス	OUTPUT
`//[contains(@itemtype,'Article')]/[@itemprop='headline'].`	記事の見出しを抽出する
`//[@itemprop='author']/[@itemprop='name']/@content`	著者名を抽出する
`//出版社]/[@itemprop='name']/@content`	出版社名を抽出する
`//*内容物`	発行日を抜粋
`//*[@itemprop='dateModified']/@content`	更新日時を抽出する

によるカスタムデータ抽出レジェックス

ワイルドカード

シンタックス	機能
`.`	任意の1文字にマッチする
`*`	直前の文字に0回以上マッチする
`?`	直前の文字に0回または1回マッチする
`+`	直前の文字に1回以上マッチする
`\|`	オア

アンカー

シンタックス	機能
`^`	文字列は、後続の文字から始まります。
`$`	文字列は直前の文字で終了する。

グループ

シンタックス	機能
`( )`	囲んだ文字を正確な順序で一致させる
`[ ]`	囲んだ文字を任意の順序でマッチング
`-`	指定された範囲内の任意の文字にマッチする

エスケープ

シンタックス	機能
`\`	文字を正規表現としてではなく、文字として扱う。

Regexカスタムデータ抽出

リジェックス	OUTPUT
`["'](ua-.*?)["']です。`	Google AnalyticsのトラッキングIDを抽出する
`["'](G-.*?)["']`	Google Analytics 4（GA4）のトラッキングIDを抽出します。
`["'](aw-.*?)["']です。`	Google AdsのコンバージョンIDやリマーケティングタグを抽出します。
`["'](gtm-.*?)["']．`	Google タグマネージャおよび Google オプティマイズの ID を抽出します。
`fbq\(["']init["'], ["'](.*?)["']`	Facebook Pixel IDを抽出する
`\♪♪♪♪～`	Bing Ads UETタグの抽出
`adroll_adv_id = ["'](.*?)["'].`	AdRollの広告主IDを抽出する
`adroll_pix_id = ["'](.*?)["'].`	AdRollのPixel IDを抽出します。

すべてのスキーママークアップとスキーマタイプを抽出する

リジェックス	OUTPUT
`["']application/ld+json["']>(.*?).`	JSON-LDスキーマのマークアップをすべて抽出します。
`["']@type["']:["'](.?)["']`	ページ上のJSON-LDスキーママークアップの全種類を抽出します。

パンくずスキーマの抽出

リジェックス	OUTPUT
`["']item["']:["']@id["']:["'](.*?)["']`	パンくずリンクの抽出
`["']item["']:{["']@id["']:["'].?["'], ["']name["']:["'](.?)["']`	パンくずの名前を抽出する

製品スキーマを抽出する

リジェックス	OUTPUT
`["']@type["']:["']Product["'].?["']name["']:["'](.?)["']`	製品名を抽出する
`["']@type["']:["']Product["'].?["']description["']:["'](.?)["']`	商品説明文の抜粋
`["']@type["']:["']Product["'].?["']price["']:["'](.?)["']`	製品価格を抽出する
`["']@type["']:["']Product["'].?["']priceCurrency["']:["'](.?)["']`	製品通貨を抽出する
`["']@type["']:["']Product["'].?["']availability["']:["'](.?)["']`	製品の在庫状況を抽出
`["']@type["']:["']Product["'].?["']sku["']:["'](.?)["']`	製品SKUを抽出する

レビュースキーマの抽出

リジェックス	OUTPUT
`["']reviewCount["']:["'](.?)["']`	レビュー回数を抽出
`["']ratingValue["']:["'](.?)["']`	レーティング値を抽出する
`["']bestRating["']です。["'](.?)["']`	最適な評価を抽出する

ローカルビジネスと組織のスキーマを抽出する

リジェックス	OUTPUT
`["']@type["']:["']Organization["'].?["']name["']:["'](.?)["']`	組織名を抽出する
`["']streetAddress["']です。["'](.?)["']`	ストリートアドレスを抽出する
`["']addressLocality["']です。["'](.?)["']`	アドレスの局所性を抽出する
`["']addressRegion["']です。["'](.?)["']`	アドレス領域を抽出する
`["']電話["']:["'](.?)["']`	電話番号を抽出する
`["']sameAs["']:\[(.?)\]`	sameAs "リンクを抽出します。

ArticleまたはBlogPosting Schemaを抽出する。

リジェックス	OUTPUT
`["']ヘッドライン["']:["'](.?)["']`	記事の見出しを抜粋
`["']author["'].?["']name["']:["'](.*?)["']`	著者名を抽出する
`["']publisher["'].?["']name["']:["'](.*?)["']`	出版社名を抽出する
`["']datePublished["']:["'](.?)["']`	発行日を抜粋
`["']dateModified["']:["'](.?)["']`	更新日時を抽出する