Screaming FrogでGoogle SERPsをスクレイピングする

Screaming FrogでGoogle SERPsをスクレイピングする
グーグルスクレイピング

Screaming Frog SEO Spiderは、あなたのウェブサイトへのリンクを分析・発見するのに最適なツールです。強力なウェブクローラーで、ウェブサイトからデータをエクスポートし、リンク切れを見つけ、タイトルタグ、メタディスクリプションなどをチェックすることができます。しかし、あなたはそれがAPIなしでGoogle SERPのスクレイピングにも使用できることをご存知ですか?この記事では、初心者のためのGoogleのSERPsをスクレイピングする方法を紹介します。 スクリーミングフロッグ ということで、人々が何を探しているのかという情報を一度に得ることができます。

始める前に、いくつかの質問があるかもしれません。

Screaming FrogのSERPモードとは何ですか?

SERPモードでは、ページのタイトルや説明文のエクスポートを スクリーミングフロッグを使い、Excelで一括編集した後、再びツールにアップロードして、GoogleのSERPにどのように表示される可能性があるかを理解することができます。

Googleをスクレイピングすることは合法ですか?

Googleはスクレイピングに対して法的措置を取っていませんが、これはおそらく自己防衛的な理由によるものでしょう。GoogleはUser-Agent(ブラウザの種類)をテストし、自動化されたボットからのものと思われるUser-Agentを自動的に拒否しています。

なぜ、Googleの検索結果をスクレイピングしたいのか?

検索エンジンの結果ページの分析 (SERPs ) は、特定のキーワードやトピックの検索結果の上位を知ることができます。この情報を利用して、検索結果で自分のウェブサイトをより上位に表示させることができます。

とはいえ、バカなことをしてGoogleにIPをブロックされないようにしましょう。Googleのクロール制限を尊重してください(チュートリアルに記載されています)。

このチュートリアルでは、Screaming Frogを使用してGoogle SERPをスクレイピングする方法を説明します。

代替スクレイピングツール

のようなオープンソースのPythonの代替品を使用することができます。 ビューティフルスープ または オクトパースしかし、この方法は、データをかき集めるための設定が10倍簡単だと思います。

Screaming Frogの設定

セット スクリーミングフロッグ まで リストモード

リストモード
サーチスクレイパーを作る - リストモード

のすべての項目のチェックをはずす。 設定 > スパイダー > クロール

スパイダー構成
スパイダー構成

Screaming FrogでXPathセレクタを追加する

以下の設定で、カスタム抽出を設定します。

カスタムエクストラクション
カスタムエクストラクション

次に、XPath Name、Selector、Code、+ Web ページから「Extract Text」 を追加します。このステップでは、HTMLを解析し、クリーンなデータを提供します。これらの設定は、以下の方法で変更することができます。 けんさく を使用して、異なる項目を抽出します。

抽出設定
抽出設定
#ページタイトル
//h3[@class="LC20lb DKV0Md"]です。
 
#URLs
ページタイトル //div[@class="r"]/a[1]/@href
 
#Meta ディスクリプション
//div[@class="s"]/div/span[@class="st"] のように記述します。

ユーザーエージェントを設定する

アンダー 設定 > ユーザーエージェントを、ユーザーフレンドリーなエージェントに設定する。

ユーザーエージェントの設定
ユーザーエージェントの設定

Chrome、Firefox、Safariは問題ありません。

ユーザーエージェントの設定
ユーザーエージェントの設定

リスペクト・グーグル

クロールのスピードが速すぎないように。で コンフィギュレーション > スピードに設定し、Max Threadsを 1.0を確認します。 制限URL/sとし、Max URL/sを 0.8. より高速にクロールしたい場合は、以下のような使い方がおすすめです。 プロキシ でIPアドレスを隠し、キャプチャブレーカーでGoogleにBANされないようにします。

スレッド速度
スレッド速度

クロールを入力する

最後のステップで、今度は、あなたの サーチクエリ.アップロード」→「手動で入力」で

これは、LinkedIn、Amazon、Bingのスクレイピングにも、少し手を加えるだけで効果があります。

クロールの設定
Googleスクレイパーのクロール設定
#Googleクエリ
https://www.google.com/search?q=your+keyword+phrase
 
#番号
https://www.google.com/search?q=your+keyword+phrase&num=50
 
#ロケーション
https://www.google.com/search?q=your+keyword+phrase&num=50&near=chicago,+il。

結果は水平に表示されます

クロール結果
クロール結果

People also ask」を引くには、AhrefsやAlsoAsked.comを使うと正確な結果が出るのでおすすめです。

Excelの転置機能

Excelでは、Webスクレイピングの結果をフィルタリングするために、転置機能を使用することになります。変更したいセルを選択し、コピー(Macの場合はCMD+C)してデータを転置します。次に、[貼り付けオプション] > [転置]を選択します。オーガニックの結果は水平方向なので、結果をCSVにエクスポートすることができます。

The same method works in Google Sheets to transpose グーグル検索 Results.

エクセルでの転置
Excelスプレッドシートでの転置

すべての検索コマンドを一箇所に集約。

でGoogle SERPsをスクレイピングする方法を学んだので、次はその方法を紹介します。 スクリーミングフロッグということで、このほかにもいくつかの使い方があります。

よくあるご質問

  • Googleをスクレイピングする方法とは?
  • 検索結果をスクレイピングするには?

発行日:2021-03-10
更新日: 2024-09-16

アイザック・アダムス=ハンズのアバター

アイザック・アダムス・ハンズ

アイザック・アダムス・ハンズは、検索エンジン最適化サービスを提供するSEO North社でSEOディレクターを務めています。SEOのプロフェッショナルとして、アイザックはオンページSEO、オフページSEO、テクニカルSEOの分野で豊富な専門知識を持ち、競合他社を圧倒している。
jaJapanese