尖叫蛙自定义提取。提取爬行数据的指南

尖叫蛙是一个强大的SEO工具,具有许多搜索引擎优化功能。其中一个鲜为人知的功能,即Screaming Frog自定义提取功能,允许你轻松地从你的抓取中提取数据。这篇博文将讨论Screaming Frog自定义提取是如何工作的,以及为什么它可以帮助提高你的搜索引擎优化工作!

尖叫蛙定制提取

网站上有大量有用的信息--大多数时候,访问网站上的每一个页面来复制产品数据太费劲或太复杂。 元数据, 标题标签,以及 锚文本 到电子表格中。在这里,Screaming Frog通过自定义数据提取来拯救这个过程。自定义提取是一种形式的 网络搜刮采集,或网络采集,或网络 数据提取 用于从网站上刮取和提取数据,允许你将其存储在你的计算机上。

对于初学者,你可能有一些问题。

什么是Screaming Frog SEO Spider?

ǞǞǞ 尖叫蛙SEO蜘蛛 软件是一个网站爬虫,通过使用图形用户界面(GUI)提取和分析你的网站数据来改善现场SEO。

什么是定制提取?

定制提取是尖叫的青蛙 搜索引擎优化 蜘蛛功能,从网页中提取明确的信息。这些提取的信息有助于优化你的网站,以便 技术性SEO,包括搜索结果,收集你的副本的基本数据,并帮助定位和修复错误。

数据提取是如何进行的?

数据提取的过程包括使用Screaming Frog网络蜘蛛在您的网站上提取所需的数据。这些信息被保存在 尖叫蛙的记忆让你可以选择将你的扫描结果导出到 ǞǞǞ谷歌表格 供进一步审查。

为什么数据提取至关重要?

数据提取使你能够快速有效地收获大量的数据。这种自动化使你立即得到以下结果 网络架构.这个过程节省了你的时间和资源,同时为你提供了计划和制定搜索引擎优化战略所需的宝贵数据。  

Screaming Frog是SEO的首选网络刮刀工具。选项是无穷无尽的;这里有大量的自定义网络刮削语法。

如何使用Screaming Frog提取自定义数据

1.在ScreamingFrog中,转到 配置>自定义>提取。

尖叫蛙定制提取
尖叫蛙定制提取

2.接下来,你将需要 +添加 并设置你的提取规则。

自定义提取设置
使用自定义提取标签选择内部HTML的元素

3.加入一个 标题,
4.选择你是否需要 CSSPath。 XPath,或 Regex,
5.加入你的 搜索功能.

如果你不确定你需要哪个选择器或函数,请看下面的例子,或使用 "检查元素 "中的函数。 谷歌浏览器开发工具.你可以通过在谷歌浏览器中使用 "右键 "打开开发工具。

例子。

下面是一个例子,说明你将如何刮取Facebook的Pixel ID

Facebook像素ID提取
Facebook像素ID提取

结果你可以看到,我的一个页面缺少一个Facebook Pixel。

丢失的Facebook ID
丢失的Facebook ID

下面是预定义的自定义提取数据集,可以让你开始。

使用XPath网络刮削的基本语法

SYNTAX功能介绍
//在文件的任何地方进行搜索
/的根部内搜索。 网站
@选择一个元素的特定属性
*通配符用于选择任何元素
[ ]找到一个特定的元素
.指定当前元素
..指定父元素

XPath 职能

XPATH输出
//h1提取所有H1标签
//h2[1]提取第一个H2标签
//h2[2]提取第二个H2标签
//div/p提取任何 <p> 包含在一个 <div>
//div[@class='author']提取任何 <div> 与类 "作者"
//p[@class='content']提取任何 <p> 与 "内容 "类
//*[@class='content']提取任何具有 "content "类的元素
//ul/li[last()]提取
    中的最后一个
//ol[@class='cat']/li[1]。提取类为 "cat "的
    中的第一个
count(//h2)计算H2的数量(设置提取过滤器为 "函数值")。
/a[包含(.,'了解更多')]提取任何含有 "了解更多 "锚文本的链接
/a[以@title,'written by'开头]提取任何标题以 "撰写者 "开头的链接。

如何提取常见的HTML元素

XPATH输出
//@href提取所有链接
//a[starts-with(@href,'mailto')]/@href提取以 "mailto:"(电子邮件地址)开头的链接。
//a[starts-with(@href,'tel')]/@href提取以 "tel:"(电话号码)开头的链接
//img/@src提取所有图像源URL
//img[包含(@class,'aligncenter')]/@src提取包含类名 "aligncenter "的图像的所有图像源URL。
//link[@rel='alternate']提取rel属性设置为 "alternate "的元素。
//@hreflang提取所有hreflang值

提取元标签(使用内部HTML元素)

XPATH输出
//meta[@property='article:published_time']/@content提取文章发布日期(WordPress网站上常见的元标签)。

提取开放图谱

XPATH输出
//meta[@property='og:type']/@content提取Open Graph类型的对象
//meta[@property='og:image']/@content提取Open Graph特色图片的URL
//meta[@property='og:uped_time']/@content提取Open Graph的更新时间

提取Twitter卡片

XPATH输出
//meta[@name='twitter:card']/@content提取Twitter卡的类型
//meta[@name='twitter:title']/@content提取Twitter卡片的标题
//meta[@name='twitter:site']/@content提取Twitter卡片站点对象(Twitter手柄)。

提取模式类型

XPATH输出
//*[@itemtype]/@itemtype提取一个页面上所有类型的模式标记

提取面包屑模式

这里是你用来检查面包屑的自定义提取,在 尖叫的青蛙.

XPATH输出
//*[包含(@itemtype,'BreadcrumbList')]/*[@itemprop]/a/@href提取所有面包屑链接
//*[包含(@itemtype,'BreadcrumbList')]/*[@itemprop][1]/a/@href提取第一个面包屑链接
//*[包含(@itemtype,'BreadcrumbList')]/*[@itemprop]提取面包屑名称(设置提取过滤器为 "提取文本")。
count(//*[包含(@itemtype,'BreadcrumbList')]/*[@itemprop])计算面包屑列表项目的数量(设置提取过滤器为 "功能值")。

提取产品模式

XPATH输出
//*[@itemprop='name']/@content提取产品名称
//*[@itemprop='description']/@content提取产品描述
//*[@itemprop='price']/@content提取产品价格
//*[@itemprop='priceCurrency']/@content提取产品货币
//*[@itemprop='可用性']/@href提取产品的可用性
//*[@itemprop='sku']/@content提取产品SKU

提取审查模式

XPATH输出
//*[@itemprop='reviewCount']提取审查数
//*[@itemprop='ratingValue']提取评级值
//*[@itemprop='bestRating']提取最佳评论评级
//*[@itemprop='回顾']/*[@itemprop='名称']提取审查名称
//*[@itemprop='评论']/*[@itemprop='作者']摘录评论作者
//*[@itemprop='review']/*[@itemprop='datePublished']/@content提取评论的发布日期
//*[@itemprop='review']/*[@itemprop='reviewBody']提取评论的正文内容

提取本地企业和组织模式

XPATH输出
//*[包含(@itemtype,'Organization')]/*[@itemprop='name']提取该组织的名称
//*[@itemprop='地址']/*[@itemprop='街道地址']提取街道地址
//*[@itemprop='address']/*[@itemprop='addressLocality']提取地址位置
//*[@itemprop='地址']/*[@itemprop='地址区域']提取地址区域
//*[@itemprop='电话']提取电话号码
//*[@itemprop='sameAs']/@href提取 "同为 "链接

提取文章模式

XPATH输出
//*[包含(@itemtype,'Article')]/*[@itemprop='headline']提取文章的标题
//*[@itemprop='author']/*[@itemprop='name']/@content提取作者姓名
//*[@itemprop='出版商']/*[@itemprop='姓名']/@内容提取出版商名称
//*[@itemprop='datePublished']/@content摘录出版日期
//*[@itemprop='dateModified']/@content提取修改日期

自定义数据提取与 Regex

野生动物

SYNTAX功能介绍
.匹配任何1个字符
*匹配前面的字符0次或更多次
?匹配前面的字符0或1次
+匹配前面的字符1次或更多次
|

锚点

SYNTAX功能介绍
^字符串从后续的字符开始。
$该字符串以前面的字符结束。

群体

SYNTAX功能介绍
( )按照准确的顺序匹配所附的字符
[ ]以任何顺序匹配所包围的字符
-匹配指定范围内的任何字符

逃离

SYNTAX功能介绍
\按字面意思处理字符,而不是作为regex。

Regex自定义数据提取

REGEX输出
["'](ua-.*?) ["']提取谷歌分析的跟踪ID
["'](G-.*?)["']提取谷歌分析4(GA4)的跟踪ID
["'](aw-.*?) ["']提取谷歌广告转换ID和/或再营销标签
["'](gtm-.*?)["']提取谷歌标签管理器和/或谷歌优化的ID
fbq\(["']init["'], ["'](.*?)["']提取Facebook Pixel ID
\{ti:["'](.*?)["']}提取Bing Ads的UET标签
adroll_adv_id = ["'](.*?) ["']提取AdRoll广告商ID
adroll_pix_id = ["'](.*?) ["']提取AdRoll Pixel ID

提取所有模式标记和模式类型

REGEX输出
["']application/ld/+json["']>(.*?)/script>提取所有的JSON-LD模式标记
["']@type["']。*["'](.*?)["']提取一个页面上所有类型的JSON-LD模式标记

提取面包屑模式

REGEX输出
["']项目["']。*{["']@id["']。*["'](.*?)["']提取面包屑链接
["']项目["']。*{["']@id["']。*["'].*?["'], *["']name["']。*["'](.*?)["']提取面包屑名称

提取产品模式

REGEX输出
["']@type["']。*["']Product["'].*?["']name["']:*["'](.*?)["']提取产品名称
["']@type["']。*["']Product["'].*?["']description["']:*["'](.*?)["']提取产品描述
["']@type["']。*["']Product["'].*?["']price["']:*["'](.*?)["']提取产品价格
["']@type["']。*["']Product["'].*?["']priceCurrency["']:*["'](.*?)["']提取产品货币
["']@type["']。*["']Product["'].*?["']availability["']:*["'](.*?)["']提取产品的可用性
["']@type["']。*["']Product["'].*?["']sku["']:*["'](.*?)["']提取产品SKU

提取审查模式

REGEX输出
["']reviewCount["']。*["'](.*?)["']提取审查数
["']ratingValue["']。*["'](.*?)["']提取评级值
["']bestRating["']。*["'](.*?)["']提取最佳评级

提取本地企业和组织模式

REGEX输出
["']@类型["']。*["']Organization["'].*?["']name["']:*["'](.*?)["']提取组织名称
["']streetAddress["']。*["'](.*?)["']提取街道地址
["']addressLocality["']。*["'](.*?)["']提取地址位置
["']addressRegion["']。*["'](.*?)["']提取地址区域
["']电话["']。*["'](.*?)["']提取电话号码
["']sameAs["']。*\[(.*?)\]提取 "同为 "链接

提取文章或BlogPosting模式

REGEX输出
["']头条["']。*["'](.*?)["']摘录文章标题
["']author["'].*?["']name["']:*["'](.*?)["']提取作者姓名
["']publisher["'].*?["']name["']:*["'](.*?)["']提取出版商名称
["']datePublished["']。*["'](.*?)["']摘录出版日期
["']dateModified["']。*["'](.*?)["']提取修改日期

这种可能性是无穷无尽的;如果你想在这个列表中加入任何提取物,请让我知道。


发表于:2021-03-10
更新日期: 2023-02-22

艾萨克-亚当斯-手的头像

艾萨克-亚当斯-汉斯

Isaac Adams-Hands是SEO North公司的SEO总监,该公司提供搜索引擎优化服务。作为一名搜索引擎优化专家,Isaac在网页搜索引擎优化、非网页搜索引擎优化和技术性搜索引擎优化方面拥有相当丰富的专业知识,这使他在竞争中占据了优势。
zh_CNChinese