搜索引擎如何工作。抓取、索引和排名

初学者的SEO指南

搜索引擎如何工作

搜索引擎旨在为互联网用户寻找答案。它们组织互联网,使你能立即发现相关的搜索结果。为了使你的网站出现在搜索结果中,你必须在搜索结果中获得排名。 搜索引擎 .这就是为什么搜索引擎优化(SEO)是如此重要。如果你想在搜索引擎结果页面(SERPs)中出现,你需要一流的SEO技术。

搜索引擎如何工作

A 搜索引擎 是为了 抓取、索引和排名互联网.抓取涉及搜索网络的内容。索引过程涉及组织互联网的内容。索引一个页面后,它将显示为 回答搜索问题.然后,排名过程涉及确定哪些内容是特定查询的最佳结果。

简化网络搜索
简化网络搜索

搜索引擎抓取一个网站并发出搜索引擎机器人。这些机器人也被称为蜘蛛。它们通过跟踪某些页面的链接到新的URL来抓取每个内容页面。当蜘蛛发现新的内容时,它们会把它交给一个叫做Caffeine的索引。这个索引是一个URL的数据库,每当有人搜索某样东西时,搜索引擎就可以检索到它。

搜索引擎是如何对内容进行索引和排名的?

一个搜索引擎的索引存储了一个搜索引擎发现和存储的所有内容。当有人键入一个搜索查询时,引擎通过索引搜索以找到相关内容。搜索引擎根据这些结果的相关程度对其进行排名。排名高的网站意味着搜索引擎认为它比其他结果更相关。

如果你愿意,你可以阻止网络爬虫浏览你的网页。你也可以告诉搜索引擎停止将你的网页储存在他们的索引中。除非你有理由这样做,否则你应该避免这样做。如果搜索引擎不能抓取和存储你的网页,你的网页对搜索引擎来说基本上是看不见的。

不同的搜索引擎会产生更好的结果

虽然它们可能看起来一样,但各种搜索引擎是不同的。谷歌拥有市场的最大部分,但存在30多个大型搜索引擎。大多数内容作家和网站设计师主要关注谷歌,因为90%的搜索发生在这个网站上。它比雅虎和必应加起来还要大20倍。

搜索引擎能否发现你的网站?

如果您想让自己的网站出现在 SERP 中,蜘蛛必须能够抓取您的网页。您可以查看您的 网站可抓取 通过查看索引中包含了多少网站页面。为此,您可以在 Google 的搜索栏中输入 "site:yourdomain.com"。搜索结果就是 Google 索引中的所有网页。

谷歌搜索控制台

虽然页面数量并不准确,但它是一个很好的参考点。如果你想要极其准确的结果,你可以尝试使用谷歌搜索控制台的索引覆盖率报告。这个工具可以让你提交一个网站地图,并迅速确定有多少页面被包含在谷歌的索引中。

有几个常见的原因,你可能不会出现在搜索引擎中。

  • 你的网站是全新的,还没有被抓取。
  • 网站的导航使机器人难以抓取你的网站。
  • 你的网站还没有链接到外部网站。
  • 搜索引擎正在对你的类似垃圾邮件的策略进行惩罚。
  • 你的网站有爬虫指令,可以阻止 搜索引擎 从抓取和索引它。

向搜索引擎展示抓取你网站的正确方式

如果你的网页没有被正常索引,你可以采取一些措施。你可以告诉Googlebot你希望它如何抓取你的内容。虽然你希望Googlebot抓取你的大部分页面,但可能有重复的URL、暂存页面和薄的内容,你不希望Googlebot抓取。

Robots.txt

这些文件被放置在网站的根目录中,作为对搜索引擎的一种建议。它们告诉搜索引擎应该抓取哪些页面,以及它们应该以多快的速度抓取。当Googlebot没有看到robots.txt文件时,它会像正常一样抓取整个网站。如果它发现了robots.txt文件,它一般会听取文件中的建议。当robots.txt文件中存在错误时,它根本不会抓取该网站。

将你的爬行预算用于工作

您的网站有一个抓取预算,它决定了Googlebot在离开之前一般会看多少个URL。如果您优化您的抓取预算,您可以让Googlebot抓取您最重要的页面,而不是您不重要的页面。当一个网站有数千个或数百万个URL时,它的抓取预算就变得异常重要。

当您优化您的抓取预算时,请注意noindex和canonical标签。你不希望用其他指令阻止网络爬虫进入网页。如果你阻止Googlebot,它就不能看到canonical或noindex标签。

有些机器人并不关注robots.txt。骗子和坏人甚至可能利用robots.txt作为指南,找到你放置私人内容的地方。虽然阻止爬虫进入登录页面和私人内容似乎很直观,但你应该谨慎地这样做。你把这些URL放在robots.txt文件中,就等于把它们的位置公开了。相反,你应该在这些页面上使用noindex,并添加一个登录表格。

定义你的URL参数

像电子商务网站这样的网站,通过附加某些参数,允许相同的内容出现在各种URL上。例如,你可以通过选择大衣的尺寸、款式、品牌和颜色来细化你在亚马逊上搜索大衣的内容。每次你细化搜索时,URL都会有一点变化。

虽然谷歌的搜索引擎相当擅长在没有帮助的情况下确定哪个URL是最好的代表URL,但你可以使用谷歌搜索控制台的URL参数功能协助搜索引擎。这个功能可以让你告诉Googlebot停止抓取有特定参数的URL。从本质上讲,你把有重复内容的网页从搜索引擎那里隐藏起来。

爬虫会找到你最重要的内容吗?

让爬虫远离某些页面是有帮助的,但你也希望Googlebot能立即找到你的重要页面。你可以通过确保Googlebot能够轻松爬过你的网站来实现这一目标。有些网站就像一堵墙,爬虫可以到达,但它们不能越过最初的主页。如果你的内容被隐藏在登录表格后面,爬虫就无法访问它。

向搜索引擎提供抓取指令的最佳方式是什么?

创建一个网站地图 是向搜索引擎提供抓取指令的最佳方式最近更新的文章和新网页是你希望在你的网站上首先被抓取的网页。网站地图包含一个带有最后修改日期的URL列表,为搜索引擎提供一个要抓取的网页列表。

链接建设

同样地,机器人也无法使用搜索表单。它们也不能阅读像图像这样的非文本内容。如果搜索引擎想了解你的网站的图像,你需要在你的网页的HTML标记里面添加文本。

此外,搜索引擎必须能够跟踪从一个页面到下一个页面的链接路径。如果一个页面没有链接到任何其他页面,那么它对搜索引擎来说是看不见的。你需要构造你的导航,以便爬虫能够轻松地进行导航。

应避免的导航错误

  • 你应该避免有移动和桌面导航显示不同的结果。
  • 你的导航应该在HTML里有菜单项。例如,支持JavaScript的导航对搜索引擎来说仍然难以抓取和理解。
  • 为某些类型的用户提供个性化的导航,看起来像 隐身 给Googlebot。
  • 如果你没有链接到你网站上的主要页面,爬虫就无法找到它们。链接是爬虫进入新网页的主要途径。

检查你的信息架构

你的网站是否使用干净的信息架构?你的信息架构是指网站内容是如何组织和标记的。清晰的信息架构对用户来说是直观的,所以他们可以有效地找到他们想要的任何东西。

审查你的网站地图

网站地图就像是你网站上的URL的地图。它向谷歌显示哪些页面是最优先的,哪些页面是不重要的。虽然你仍然需要出色的网站导航,但网站地图有助于爬虫确定哪些页面是最重要的。你应该确保只列出你希望被索引的URL。如果你还没有来自其他网站的链接,谷歌搜索控制台让你提交一个XML网站地图,让你的网站被索引。

您的网站有抓取错误吗?

理想情况下,爬虫应该能够看到你的网站,没有任何问题。如果你想要一份抓取错误报告,你可以访问Google Search Console。这份报告会告诉你哪些URL有问题。你的服务器日志文件也有这方面的信息,但初学者可能会发现访问这个日志是个挑战。

4xx代码

发生这类错误的原因是客户端出错。这意味着请求的 URL 无法满足。也可能包含一些错误的语法。A 404 错误 是最常见的错误类型。出现这种情况的原因是重定向中断、页面被删除或 URL 中有错别字。

5xx代码

这些代码是服务器错误。如果服务器没有满足搜索者的要求,它们就会发生。这些通常是由于URL超时而发生的,这意味着机器人退出了试图访问该页面。

制作一个自定义404页面

你可以通过定制的404页面来改善你的跳出率。要做到这一点,你必须在你的网站上添加其他重要页面的链接或搜索功能。另一个选择是使用301重定向,将用户从一个旧的URL发送到一个新的URL。

误差

创建一个301重定向

你可以使用301,通过将人们从你的旧页面转移到你的新页面来提高链接资产。它也有助于谷歌发现和索引你的新页面。虽然404错误不会损害你的整体表现,但你可能会失去你在这些特定页面的排名。

正因为如此,你可能想使用301状态代码。它表明该页面已被永久地切换到一个新的位置。同时,一个302重定向的页面代表一个临时的移动。

你需要避免创建一个重定向链。谷歌机器人在通过多个301状态代码到达一个页面时有问题。正因为如此,你应该尽可能地坚持只有一个重定向页面。

你的网站是如何被索引的

你的第一个目标是确保谷歌可以抓取你的网站。下一步是让它被索引。索引是搜索引擎存储你的网页的方式。从本质上讲,搜索引擎存储你的页面的渲染,就像图书馆存储一本书一样。

我的网页对搜索引擎来说是什么样子的?

你可以很容易地看到你的网站的每个页面的最新缓存版本。当你检查SERP时,点击页面的URL旁的下拉箭头。然后,选择缓存的选项。受欢迎的和成熟的网站往往更频繁地被抓取和缓存。你还可以查看每个缓存页面的纯文本版本。

索引可能删除一个页面的原因有很多。以下是一些最常见的原因。

  • 该网址因违反了搜索引擎的准则而被处罚。
  • 由于有密码要求,该网址已经阻止了爬虫。
  • URL返回时出现4xx或5xx错误。
  • 该URL有一个noindex指令。

如果你认为有问题,你可以尝试使用URL检查工具。你也可以以谷歌的方式获取该页面。然后,你可以看到该页面是否被谷歌适当地呈现。

向搜索引擎展示如何正确地索引你的网站

元指令也被称为元标签。这些标签是告诉搜索引擎如何看待你的页面的指令。你可以创建元标签,阻止搜索引擎对一个页面进行索引。这些指令一般放在你的HTM页面的头部或你的HTTP头的X-Robots-Tag中。

了解不同的机器人元标签

索引/非索引。 这告诉搜索引擎是否要抓取该网页。

关注/不关注。 这表明机器人是否应该跟踪你的页面上的链接。

没有archive。 这告诉搜索引擎,他们不应该保留一个特定页面的缓存副本。

通过元指令,你可以影响你的页面被索引的方式。它们不影响页面被抓取的方式。为了遵循指令,爬虫必须抓取页面才能看到它们。

X-robots-标签。 这个标签可以放在你的URL的HTTP标头中,以阻止搜索引擎。

搜索引擎如何对你的网站上的页面进行排名?

你的排名是指你的网页在搜索引擎结果列表中的位置有多高。大多数人点击前三个结果,所以你的排名决定了你收到的网站访问者的数量。搜索引擎使用公式和算法来确定信息的存储方式。这些搜索引擎的算法随着谷歌努力提高搜索质量而不断变化。

搜索引擎希望给搜索者提供问题的最佳答案。随着时间的推移,搜索引擎在理解语义方面已经变得更好。虽然像填塞关键词这样的做法被用来欺骗搜索引擎,但搜索引擎现在有能力分辨出一个页面是否被人为地填塞了一个关键词。

链接和SEO

链接对于搜索引擎优化是至关重要的。搜索引擎看的是你的内部链接和入站链接。入站链接是指你从其他网站获得的链接,这些链接指向你的网站。在某种程度上,它们就像一个在线版本的口碑推荐。虽然搜索引擎不像以前那样依赖这些链接,但它们仍然在决定你的搜索引擎排名方面发挥着作用。 谷歌的PageRank算法 分析进入你网页的每个链接的数量和质量。

内容和SEO

内容在决定你的搜索引擎排名方面也发挥着作用。爬虫扫描你的内容以决定你的页面是关于什么的。然后,它尽可能地为每个搜索查询找到最相关的内容。因为主要目标是实现用户的满意度,所以关于你应该使你的内容多长,并没有固定的规则。

RankBrain与SEO

内容、链接和 排名脑(RankBrain) 是决定 Google 如何对网站进行排名的主要因素。RankBrain 涉及机器学习。随着时间的推移,它可以利用观察结果进行自我学习。因为它在不断改进,所以搜索结果也在不断改进。如果一个 URL 与搜索用户更相关,它就会获得更好的排名。这意味着您能做的最好的事情就是改善用户体验,确保您的内容是相关的。

参与度指标如何?

排名较高的网站的参与度指标通常较高,但对于这究竟是由于因果关系还是相关关系,有很多争论。参与度指标包括在搜索结果中点击你的列表,你的跳出率,以及在你的页面上花费的时间。跳出率是指浏览者在离开前只查看了一个页面的会议的百分比。

谷歌曾表示,他们使用点击数据来调整其SERP。如果大多数人点击第二个结果而不是第一个结果,谷歌最终会调换结果的顺序。这意味着,参与度指标可以作为事实核查者,为 搜索引擎.爬虫可以猜测一个页面是否相关。然后,真正的访问者通过点击页面向谷歌展示哪些页面是相关的。如果一个页面的跳出率很高,它可能与搜索者不相关。

本地化搜索

谷歌已经 实验了各种搜索 格式,随着时间的推移。这样做的目的是通过给用户提供最佳类型的内容来改善用户体验。通过本地化搜索,谷歌关心的是相关性、距离和突出性。为了确保你的排名,你应该优化你的Google My Business列表。

相关性是指您的业务必须符合搜索者的需求。同时,距离涉及您的地理位置。尽管有机搜索很少公布这一事实,但它们通常会受到搜索者位置的影响。最后,谷歌希望奖励那些在现实世界中广受欢迎的知名企业。他们可以通过查看您的 谷歌评论 以及其他网站的引用。此外,谷歌还会考虑您的其他搜索引擎优化技术,以确定您的网站在本地化搜索中的位置。

常见问题

  • 搜索引擎是如何工作的?
  • 什么是爬行和索引?
  • 搜索引擎发现一个网页的最常见方式是什么?
  • 搜索引擎的主要目标是什么?
  • 什么可能有助于搜索引擎理解主题之间的差异?
  • 什么可能帮助搜索引擎理解差异?
  • 搜索引擎如何抓取网站?
  • 搜索引擎将如何处理一个糟糕的网站结构?
  • 在谷歌搜索控制台的平均位置是什么?
  • 网站地图是什么样子的?
  • 什么是SEO中的抓取?
  • 第一个创建的搜索引擎是什么?

下一步。 关键字研究
上一个。 SEO 101


发表于:2020-09-10
更新日期: 2024-04-22

艾萨克-亚当斯-手的头像

艾萨克-亚当斯-汉斯

Isaac Adams-Hands是SEO North公司的SEO总监,该公司提供搜索引擎优化服务。作为一名搜索引擎优化专家,Isaac在网页搜索引擎优化、非网页搜索引擎优化和技术性搜索引擎优化方面拥有相当丰富的专业知识,这使他在竞争中占据了优势。
zh_CNChinese