尖叫蛙自定义提取。提取爬行数据的指南

Screaming Frog (screamingfrog.co.uk) is a powerful SEO tool with many search engine optimization features. One of the lesser-known features, Screaming Frog Custom Extractions, allows you to easily extract data from your crawls. This blog post will discuss how Screaming Frog Custom Extraction works and why it can help improve your SEO efforts and e-commerce digital marketing SEO strategies!

尖叫蛙定制提取

Websites have a ton of helpful information—most times, it’s too laborious or complicated to visit every page on a website to copy product data, 元数据, 标题标签,以及 锚文本 into a spreadsheet. Here is where Screaming Frog comes to the rescue with custom search data extractions to automate the process. Custom extractions are a form of 网络搜刮采集,或网络采集,或网络 数据提取 用于从网站上刮取和提取数据,允许你将其存储在你的计算机上。

对于初学者,你可能有一些问题。

什么是 尖叫蛙SEO蜘蛛?

ǞǞǞ 尖叫蛙SEO蜘蛛 software is a website crawler that improves onsite SEO by extracting and analyzing your website’s structured data using a graphical user interface (GUI).

What are custom extractions?

定制提取是尖叫的青蛙 搜索引擎优化 蜘蛛功能,从网页中提取明确的信息。这些提取的信息有助于优化你的网站,以便 技术性SEO audit, including search results, gather essential data on your copy, and help locate and fix errors.

数据提取是如何进行的?

Use Screaming Frog if you want to process data extraction, which involves pulling the required data from your website. The information is saved within Screaming Frog’s memory让你可以选择将你的扫描结果导出到 ǞǞǞ 谷歌表格 供进一步审查。

为什么数据提取至关重要?

数据提取使你能够快速有效地收获大量的数据。这种自动化使你立即得到以下结果 网络架构. This process saves you time and resources while giving you the valuable data you’ll need to plan and strategize search engine optimization strategies.  Screaming Frog is the go-to Web Scraper Tool for SEOs and a data extractor. The options are endless; here are a ton of custom web-scraping syntaxes. Check the tutorial below.

如何使用Screaming Frog提取自定义数据

1.在ScreamingFrog中,转到 配置>自定义>提取。

尖叫蛙定制提取
尖叫蛙定制提取

2.接下来,你将需要 +添加 并设置你的提取规则。

自定义提取设置
使用自定义提取标签选择内部HTML的元素

3.加入一个 标题,
4.选择你是否需要 CSSPath。 XPath,或 Regex,
5.加入你的 搜索功能.

If you aren’t sure which selector or function you need, look at the examples below or use the inspect element function in 谷歌浏览器开发工具. You can open Dev Tools by using “right-click” in the Google Chrome browser.

例子。

Here is an example of how you would scrape for a Facebook Pixel ID

Facebook像素ID提取
Facebook像素ID提取

结果你可以看到,我的一个页面缺少一个Facebook Pixel。

丢失的Facebook ID
丢失的Facebook ID

下面是预定义的自定义提取数据集,可以让你开始。

使用XPath网络刮削的基本语法

SYNTAX功能介绍
//在文件的任何地方进行搜索
/的根部内搜索。 网站
@选择一个元素的特定属性
*通配符用于选择任何元素
[ ]找到一个特定的元素
.指定当前元素
..指定父元素

XPath 职能

XPATH输出
//h1提取所有H1标签
//h2[1]提取第一个H2标签
//h2[2]提取第二个H2标签
//div/p提取任何 <p> 包含在一个 <div>
//div[@class='author']提取任何 <div> 与类 "作者"
//p[@class='content']提取任何 <p> 与 "内容 "类
//*[@class='content']提取任何具有 "content "类的元素
//ul/li[last()]提取
    中的最后一个
//ol[@class='cat']/li[1]。提取类为 "cat "的
    中的第一个
count(//h2)计算H2的数量(设置提取过滤器为 "函数值")。
/a[包含(.,'了解更多')]提取任何含有 "了解更多 "锚文本的链接
/a[以@title,'written by'开头]提取任何标题以 "撰写者 "开头的链接。

如何提取常见的HTML元素

XPATH输出
//@href提取所有链接
//a[starts-with(@href,'mailto')]/@href提取以 "mailto:"(电子邮件地址)开头的链接。
//a[starts-with(@href,'tel')]/@href提取以 "tel:"(电话号码)开头的链接
//img/@src提取所有图像源URL
//img[包含(@class,'aligncenter')]/@src提取包含类名 "aligncenter "的图像的所有图像源URL。
//link[@rel='alternate']提取rel属性设置为 "alternate "的元素。
//@hreflang提取所有hreflang值

提取元标签(使用内部HTML元素)

XPATH输出
//meta[@property='article:published_time']/@content提取文章发布日期(WordPress网站上常见的元标签)。

提取开放图谱

XPATH输出
//meta[@property='og:type']/@content提取Open Graph类型的对象
//meta[@property='og:image']/@content提取Open Graph特色图片的URL
//meta[@property='og:uped_time']/@content提取Open Graph的更新时间

提取Twitter卡片

XPATH输出
//meta[@name='twitter:card']/@content提取Twitter卡的类型
//meta[@name='twitter:title']/@content提取Twitter卡片的标题
//meta[@name='twitter:site']/@content提取Twitter卡片站点对象(Twitter手柄)。

提取模式类型

XPATH输出
//*[@itemtype]/@itemtype提取一个页面上所有类型的模式标记

提取面包屑模式

这里是你用来检查面包屑的自定义提取,在 尖叫的青蛙.

XPATH输出
//*[包含(@itemtype,'BreadcrumbList')]/*[@itemprop]/a/@href提取所有面包屑链接
//*[包含(@itemtype,'BreadcrumbList')]/*[@itemprop][1]/a/@href提取第一个面包屑链接
//*[包含(@itemtype,'BreadcrumbList')]/*[@itemprop]提取面包屑名称(设置提取过滤器为 "提取文本")。
count(//*[包含(@itemtype,'BreadcrumbList')]/*[@itemprop])计算面包屑列表项目的数量(设置提取过滤器为 "功能值")。

提取产品模式

XPATH输出
//*[@itemprop='name']/@content提取产品名称
//*[@itemprop='description']/@content提取产品描述
//*[@itemprop='price']/@content提取产品价格
//*[@itemprop='priceCurrency']/@content提取产品货币
//*[@itemprop='可用性']/@href提取产品的可用性
//*[@itemprop='sku']/@content提取产品SKU

提取审查模式

XPATH输出
//*[@itemprop='reviewCount']提取审查数
//*[@itemprop='ratingValue']提取评级值
//*[@itemprop='bestRating']提取最佳评论评级
//*[@itemprop='回顾']/*[@itemprop='名称']提取审查名称
//*[@itemprop='评论']/*[@itemprop='作者']摘录评论作者
//*[@itemprop='review']/*[@itemprop='datePublished']/@content提取评论的发布日期
//*[@itemprop='review']/*[@itemprop='reviewBody']提取评论的正文内容

提取本地企业和组织模式

XPATH输出
//*[包含(@itemtype,'Organization')]/*[@itemprop='name']提取该组织的名称
//*[@itemprop='地址']/*[@itemprop='街道地址']提取街道地址
//*[@itemprop='address']/*[@itemprop='addressLocality']提取地址位置
//*[@itemprop='地址']/*[@itemprop='地址区域']提取地址区域
//*[@itemprop='电话']提取电话号码
//*[@itemprop='sameAs']/@href提取 "同为 "链接

提取文章模式

XPATH输出
//*[包含(@itemtype,'Article')]/*[@itemprop='headline']提取文章的标题
//*[@itemprop='author']/*[@itemprop='name']/@content提取作者姓名
//*[@itemprop='出版商']/*[@itemprop='姓名']/@内容提取出版商名称
//*[@itemprop='datePublished']/@content摘录出版日期
//*[@itemprop='dateModified']/@content提取修改日期

自定义数据提取与 Regex

野生动物

SYNTAX功能介绍
.匹配任何1个字符
*匹配前面的字符0次或更多次
?匹配前面的字符0或1次
+匹配前面的字符1次或更多次
|

锚点

SYNTAX功能介绍
^字符串从后续的字符开始。
$该字符串以前面的字符结束。

群体

SYNTAX功能介绍
( )按照准确的顺序匹配所附的字符
[ ]以任何顺序匹配所包围的字符
-匹配指定范围内的任何字符

逃离

SYNTAX功能介绍
\按字面意思处理字符,而不是作为regex。

Regex自定义数据提取

REGEX输出
["'](ua-.*?) ["']提取谷歌分析的跟踪ID
["'](G-.*?)["']提取谷歌分析4(GA4)的跟踪ID
["'](aw-.*?) ["']提取谷歌广告转换ID和/或再营销标签
["'](gtm-.*?)["']提取谷歌标签管理器和/或谷歌优化的ID
fbq\(["']init["'], ["'](.*?)["']提取Facebook Pixel ID
\{ti:["'](.*?)["']}提取Bing Ads的UET标签
adroll_adv_id = ["'](.*?) ["']提取AdRoll广告商ID
adroll_pix_id = ["'](.*?) ["']提取AdRoll Pixel ID

提取所有模式标记和模式类型

REGEX输出
["']application/ld/+json["']>(.*?)/script>提取所有的JSON-LD模式标记
["']@type["']。*["'](.*?)["']提取一个页面上所有类型的JSON-LD模式标记

提取面包屑模式

REGEX输出
["']项目["']。*{["']@id["']。*["'](.*?)["']提取面包屑链接
["']项目["']。*{["']@id["']。*["'].*?["'], *["']name["']。*["'](.*?)["']提取面包屑名称

提取产品模式

REGEX输出
["']@type["']。*["']Product["'].*?["']name["']:*["'](.*?)["']提取产品名称
["']@type["']。*["']Product["'].*?["']description["']:*["'](.*?)["']提取产品描述
["']@type["']。*["']Product["'].*?["']price["']:*["'](.*?)["']提取产品价格
["']@type["']。*["']Product["'].*?["']priceCurrency["']:*["'](.*?)["']提取产品货币
["']@type["']。*["']Product["'].*?["']availability["']:*["'](.*?)["']提取产品的可用性
["']@type["']。*["']Product["'].*?["']sku["']:*["'](.*?)["']提取产品SKU

提取审查模式

REGEX输出
["']reviewCount["']。*["'](.*?)["']提取审查数
["']ratingValue["']。*["'](.*?)["']提取评级值
["']bestRating["']。*["'](.*?)["']提取最佳评级

提取本地企业和组织模式

REGEX输出
["']@类型["']。*["']Organization["'].*?["']name["']:*["'](.*?)["']提取组织名称
["']streetAddress["']。*["'](.*?)["']提取街道地址
["']addressLocality["']。*["'](.*?)["']提取地址位置
["']addressRegion["']。*["'](.*?)["']提取地址区域
["']电话["']。*["'](.*?)["']提取电话号码
["']sameAs["']。*\[(.*?)\]提取 "同为 "链接

提取文章或BlogPosting模式

REGEX输出
["']头条["']。*["'](.*?)["']摘录文章标题
["']author["'].*?["']name["']:*["'](.*?)["']提取作者姓名
["']publisher["'].*?["']name["']:*["'](.*?)["']提取出版商名称
["']datePublished["']。*["'](.*?)["']摘录出版日期
["']dateModified["']。*["'](.*?)["']提取修改日期

这种可能性是无穷无尽的;如果你想在这个列表中加入任何提取物,请让我知道。


发表于:2021-03-10
Updated on: 2024-04-05

艾萨克-亚当斯-手的头像

艾萨克-亚当斯-汉斯

Isaac Adams-Hands是SEO North公司的SEO总监,该公司提供搜索引擎优化服务。作为一名搜索引擎优化专家,Isaac在网页搜索引擎优化、非网页搜索引擎优化和技术性搜索引擎优化方面拥有相当丰富的专业知识,这使他在竞争中占据了优势。
zh_CNChinese