为什么Screaming Frog没有抓取所有的URL?

尖叫蛙是一个抓取网站和提取数据的优秀工具,但如果它没有抓取所有的 URLs你不会执行一个高质量的SEO审计。在这篇博文中,我们将研究为什么Screaming Frog没有抓取所有的URL,以及你如何解决这个问题。因此,如果您在让Screaming Frog抓取您的所有URL时遇到困难,请继续关注!您将会享受到一场饕餮盛宴。你将会有收获。

尖叫的青蛙不爬行的尿液
艾萨克-亚当斯-汉斯 - 为什么Screaming Frog没有抓取所有的URL?

如何解决Screaming Frog没有抓取所有URL的问题

有几个原因,Screaming Frog可能没有抓取到一个网站上的所有URL。 网站最常见的是,该网站被配置为阻止像尖叫蛙这样的爬虫。

  1. 该网站被robots.txt屏蔽了。

    尊敬不索引

    Robots.txt可以阻止 尖叫的青蛙 从抓取的页面。你可以配置SEO蜘蛛,使其忽略robots.txt,方法是进入 配置>>蜘蛛>>高级>> 取消勾选 尊敬的Noindex 设置。

    Robots.txt Robots.txt文件用于指示网络爬虫或 "机器人",允许它们在一个特定的网站上访问什么。当机器人试图访问robots.txt文件中明确禁止的页面时,它将收到一条信息,即网站管理员不希望该页面被抓取。在某些情况下,这可能是故意的。例如,网站所有者可能想防止机器人对敏感信息进行索引。在其他情况下,这可能仅仅是由于疏忽造成的。不管是什么原因,被robots.txt屏蔽的网站将无法被试图抓取的人访问。

  2. 在不被抓取的链接上存在'nofollow'属性。

    无ollow链接

    无标签链接的作用是,它们告诉人们 爬虫 不跟踪链接。如果一个页面上的所有链接都被设置为nofollow,那么尖叫蛙就没有地方可去了。为了绕过这一点,你可以将尖叫蛙设置为跟随内部nofollow链接。

    你可以在以下文件中更新这个选项 配置 >> 蜘蛛 根据 抓取标签,点击 关注内部'nofollow'。 链接。

  3. 该页面有一个页面级别的 "nofollow "属性。

    尊敬不索引

    ǞǞǞ 页级nofollow属性 是由元机器人标签或HTTP头中的X-Robots-Tag设置的。这些可以在 "指令 "选项卡的 "Nofollow "过滤器中看到。页级nofollow属性用于防止搜索引擎跟踪一个页面上的链接。

    这对包含不可靠或不重要来源的链接的网页很有用。通过设置nofollow属性,你是在告诉搜索引擎,他们不应该跟踪页面上的链接。这将有助于提高你的网站在搜索引擎中的排名,但会阻止你对网站的抓取。

    要忽略Noindex标签,你必须到 配置>>蜘蛛>>高级>> 取消勾选尊重无索引 设置。

  4. 用户代理被阻止了。

    用户代理配置

    ǞǞǞ 用户代理 是一个文本字符串,由你的浏览器发送至你正在访问的网站。用户代理可以提供有关你的浏览器、操作系统、甚至你的设备的信息。基于这些信息,网站可以改变其行为方式。例如,如果你使用移动设备访问一个网站,该网站可能会将你重定向到该网站的移动友好版本。或者,如果你改变User-Agent以假装是一个不同的浏览器,你可能能够访问你的实际浏览器中没有的功能。同样地。 有些网站可能会完全屏蔽某些浏览器.通过改变用户代理,你可以改变一个网站的行为方式,让你对你的浏览体验有更多的控制。

    你可以在下面改变User-Agent 配置 >> User-Agent.

  5. 该网站需要JavaScript。

    尖叫蛙javascript渲染

    脚本 是一种编程语言,通常用于创建交互式网页。当启用JavaScript时,它可以在页面加载时自动运行,使页面上的项目有可能改变,而不需要刷新整个页面。例如,JavaScript可以用来创建下拉菜单,根据用户的输入显示图像,以及更多。虽然JavaScript可能是有益的,但一些用户出于各种原因喜欢在他们的浏览器中禁用它。其中一个原因是,JavaScript可以被用来跟踪用户的浏览活动。然而。 禁用JavaScript还可能导致网站的显示方式或某些功能的工作方式出现问题。.

    尝试 启用JavaScript渲染 在 "尖叫青蛙 "内的 配置 >> Spider >> Rendering。

  6. 本网站需要Cookies。

    饼干存储

    您能否在浏览器中禁用cookie来浏览本网站?有许可证的用户可以通过以下方式启用cookies 配置 >> 蜘蛛 并选择 仅限会议 根据 饼干存储高级标签.

  7. 该网站使用框架集。

    混合框架

    SEO蜘蛛不抓取框架-src属性。

  8. 内容类型标头没有表明该页面是HTML。

    无效的内容类型

    这显示在内容栏中,应该是文本/HTML或应用/xhtml+xml。

总结

尖叫蛙SEO蜘蛛可以成为审计网站的一个优秀工具,但确保所有的URL都被抓取是至关重要的。如果你没有从你的审计中获得你所需要的完整数据,可能是Screaming Frog的配置方式有问题。这篇博文探讨了为什么Screaming Frog可能没有抓取您所有的URL,以及如何解决这个问题。通过修复这些问题,你将能够从你的Screaming Frog审计中获得更全面的数据,并改善你的SEO策略。你是否尝试过使用Screaming Frog进行网站审计?你有什么技巧来改善它的功能?

常见问题

  • 为什么Screaming Frog没有抓取所有的URL?

发表于:2022-06-07
更新日期:2023-01-02

艾萨克-亚当斯-手的头像

艾萨克-亚当斯-汉斯

Isaac Adams-Hands是SEO North公司的SEO总监,该公司提供搜索引擎优化服务。作为一名搜索引擎优化专家,Isaac在网页搜索引擎优化、非网页搜索引擎优化和技术性搜索引擎优化方面拥有相当丰富的专业知识,这使他在竞争中占据了优势。
zh_CNChinese