Cómo funcionan los motores de búsqueda: Rastreo, indexación y clasificación

Guía para principiantes sobre SEO

cómo funciona un motor de búsqueda

Los motores de búsqueda están diseñados para encontrar respuestas para los usuarios de Internet. Organizan Internet para que se puedan descubrir al instante resultados de búsqueda relevantes. Para que su sitio web aparezca en los resultados, tiene que estar clasificado en el buscador. Por eso es tan importante la optimización de los motores de búsqueda (SEO). Necesitas técnicas de SEO de primer nivel si quieres estar en las páginas de resultados de los motores de búsqueda (SERPs).

Cómo funcionan los motores de búsqueda

A buscador se hace para rastrear, indexar y clasificar Internet. El rastreo consiste en buscar contenidos en la web. El proceso de indexación consiste en organizar el contenido de Internet. Después de indexar una página, ésta aparecerá como respuesta a las consultas de búsqueda. A continuación, el proceso de clasificación consiste en determinar qué contenidos son los mejores resultados para determinadas consultas.

Búsqueda web simplificada
Búsqueda web simplificada

Un motor de búsqueda rastrea un sitio y envía robots de búsqueda. Estos robots también se conocen como arañas. Rastrean cada página de contenido siguiendo los enlaces de ciertas páginas a nuevas URL. Cuando las arañas encuentran nuevos contenidos, los entregan a un índice llamado Caffeine. Este índice es una base de datos de URLs que pueden ser recuperadas por los motores de búsqueda cada vez que alguien busca algo.

¿Cómo indexa y clasifica el contenido un motor de búsqueda?

El índice de un motor de búsqueda almacena todo el contenido que éste encuentra y almacena. Cuando alguien escribe una consulta, el motor busca en el índice para encontrar contenido relevante. El motor de búsqueda clasifica estos resultados en función de su relevancia. Un sitio web con una clasificación alta significa que el motor de búsqueda piensa que es más relevante que otros resultados.

Si lo desea, puede bloquear a los rastreadores web para que no pasen por sus páginas web. También puede decirle a los motores de búsqueda que dejen de almacenar sus páginas en su índice. A menos que tenga una razón para hacerlo, debería evitarlo. Si los motores de búsqueda no pueden rastrear y almacenar sus páginas, sus páginas son esencialmente invisibles para los motores de búsqueda.

Los diferentes motores de búsqueda dan mejores resultados

Aunque parezcan iguales, los distintos motores de búsqueda son diferentes. Google posee la mayor parte del mercado, pero existen más de 30 grandes motores de búsqueda. La mayoría de los redactores de contenidos y diseñadores de sitios web se centran principalmente en Google porque el 90% de las búsquedas se realizan en este sitio. Es 20 veces mayor que Yahoo y Bing juntos.

¿Pueden los motores de búsqueda descubrir su sitio?

Si quiere que su sitio aparezca en las SERP, las arañas deben poder rastrear sus páginas. Puede comprobar si su sitio es rastreable observando cuántas páginas del sitio están incluidas en el índice. Para ello, puede escribir "site:yourdomain.com" en la barra de búsqueda de Google. Los resultados son todas las páginas que Google ha indexado de su sitio.

Consola de búsqueda de Google

Aunque el número de páginas no es exacto, es un buen punto de referencia. Si desea obtener resultados muy precisos, puede utilizar el informe de cobertura del índice de Google Search Console. Esta herramienta le permite enviar un mapa del sitio y determinar rápidamente cuántas páginas están incluidas en el índice de Google.

Hay algunas razones comunes por las que puede no aparecer en los motores de búsqueda.

  • Su sitio es completamente nuevo y aún no ha sido rastreado.
  • La navegación del sitio dificulta que un robot rastree su sitio web.
  • Su sitio aún no está vinculado a sitios externos.
  • Los motores de búsqueda te penalizan por las tácticas de spam.
  • Su sitio tiene directivas de rastreo que detienen motores de búsqueda de rastrearlo e indexarlo.

Muestre a los motores de búsqueda la forma correcta de rastrear su sitio web

Si sus páginas no se indexan correctamente, hay algunas medidas que puede tomar. Puede indicarle a Googlebot cómo quiere que rastree su contenido. Mientras que usted quiere que Googlebot rastree la mayoría de sus páginas, puede haber URLs duplicadas, páginas de ensayo y contenido delgado que usted no quiere que Googlebot rastree.

Robots.txt

Estos archivos se colocan en el directorio raíz del sitio como una sugerencia para los motores de búsqueda. Indican a los motores de búsqueda qué páginas deben rastrear y a qué velocidad deben hacerlo. Cuando Googlebot no ve un archivo robots.txt, rastrea todo el sitio con normalidad. Si descubre un archivo robots.txt, generalmente hará caso a las sugerencias del archivo. Cuando hay un error en el archivo robots.txt, no rastreará el sitio en absoluto.

Ponga a trabajar su presupuesto para el rastreo

Su sitio tiene un crawl budget que determina cuántas URLs mirará Googlebot generalmente antes de salir. Si optimiza su crawl budget, puede conseguir que Googlebot rastree sus páginas más esenciales en lugar de las que no son importantes. Su crawl budget se vuelve increíblemente importante cuando un sitio tiene miles o millones de URLs.

Cuando optimice su crawl budget, preste atención a las etiquetas noindex y canonical. No debe bloquear a los rastreadores de páginas con otras directivas. Si bloqueas a Googlebot, no podrá ver las etiquetas canonical o noindex.

Algunos robots no prestan atención a robots.txt. Los estafadores y los malos actores pueden incluso utilizar robots.txt como guía para encontrar dónde ha colocado su contenido privado. Aunque bloquear los rastreadores de las páginas de inicio de sesión y del contenido privado parece intuitivo, debe tener cuidado al hacerlo. Usted hace que su ubicación sea de conocimiento público al poner estas URLs en un archivo robots.txt. En su lugar, debería utilizar noindex en estas páginas y añadir un formulario de acceso.

Definición de los parámetros de la URL

Sitios como los de comercio electrónico permiten que el mismo contenido aparezca en varias URLs adjuntando ciertos parámetros. Por ejemplo, puedes refinar tu búsqueda de abrigos en Amazon seleccionando la talla, el estilo, la marca y el color del abrigo. La URL cambia un poco cada vez que se refina la búsqueda.

Aunque el motor de búsqueda de Google es bastante bueno a la hora de determinar cuál es la mejor URL representativa sin ayuda, puedes ayudar a los motores de búsqueda utilizando la función Parámetros de URL de Google Search Console. Esta función le permite indicar a Googlebot que deje de rastrear las URL con parámetros específicos. En esencia, usted oculta las páginas con contenido duplicado a los motores de búsqueda.

¿Los rastreadores encontrarán su contenido más importante?

Mantener a los rastreadores alejados de ciertas páginas es útil, pero también quiere que Googlebot encuentre sus páginas esenciales inmediatamente. Puede lograr este objetivo asegurándose de que Googlebot pueda rastrear su sitio con facilidad. Algunos sitios son como un muro que los rastreadores pueden alcanzar, pero no pueden pasar de la página de inicio. Si su contenido está oculto detrás de formularios de acceso, un rastreador no puede acceder a él.

¿Cuál es la mejor manera de proporcionar a un motor de búsqueda instrucciones de rastreo?

Creación de un sitemap es la mejor manera de proporcionar a los motores de búsqueda instrucciones de rastreoLos artículos recientemente actualizados y las páginas nuevas son las páginas web que desea que se rastreen primero en su sitio web. Los sitemaps contienen una lista de URLs con la última fecha de modificación, proporcionando a los motores de búsqueda una lista de páginas a rastrear.

link-building

Asimismo, los robots no pueden utilizar los formularios de búsqueda. Tampoco pueden leer el contenido no textual, como las imágenes. Si los motores de búsqueda quieren entender las imágenes de su sitio, tiene que añadir texto dentro del marcado HTML de su página web.

Además, los motores de búsqueda deben poder seguir una ruta de enlaces de una página a otra. Si una página no está vinculada a ninguna otra, es invisible para los motores de búsqueda. Es necesario estructurar la navegación para que los rastreadores puedan navegar fácilmente.

Errores de navegación que hay que evitar

  • Hay que evitar que la navegación en móviles y en ordenadores de sobremesa muestre resultados diferentes.
  • Su navegación debe tener elementos de menú en el HTML. Por ejemplo, la navegación con JavaScript puede seguir siendo difícil de rastrear y entender para un motor de búsqueda.
  • La personalización de la navegación para determinados tipos de usuarios puede ser así encubrimiento a Googlebot.
  • Si no enlaza las páginas principales de su sitio web, los rastreadores no podrán encontrarlas. Los enlaces son la principal forma en que los rastreadores llegan a las nuevas páginas.

Compruebe su arquitectura de la información

¿Su sitio web utiliza una arquitectura de la información limpia? La arquitectura de la información es la forma en que el contenido del sitio web está organizado y etiquetado. Una arquitectura de la información limpia es intuitiva para los usuarios, de modo que puedan encontrar eficazmente todo lo que deseen.

Revise sus sitemaps

Un mapa del sitio es como un mapa de las URL que tiene en su sitio. Muestra a Google qué páginas son las más prioritarias y cuáles no son importantes. Aunque sigue siendo necesaria una excelente navegación por el sitio, un mapa del sitio ayuda a los rastreadores a determinar qué páginas son las más importantes. Debe asegurarse de que sólo enumera las URL que desea indexar. Si todavía no tiene enlaces de otros sitios, Google Search Console le permite enviar un mapa del sitio XML para que se indexe.

¿Su sitio tiene errores de rastreo?

Lo ideal es que los rastreadores puedan ver su sitio sin ningún problema. Puede visitar Google Search Console si desea obtener un informe de errores de rastreo. Este informe le dirá qué URLs tienen problemas. Los archivos de registro de su servidor también contienen esta información, pero a los principiantes les puede resultar difícil acceder a este registro.

Códigos 4xx

These kinds of errors happen because of client errors. This means the requested URL cannot be fulfilled. It may also contain some wrong syntax. A 404 error is the most common type of error. It happens because there was a broken redirect, a deleted page, or a typo in the URL.

Códigos 5xx

Estos códigos son errores del servidor. Ocurren si el servidor no satisface la petición del buscador. Por lo general, se producen porque la URL ha caducado, lo que significa que el bot abandona el intento de acceder a la página.

Crear una página 404 personalizada

Puede mejorar su tasa de rebote con una página 404 personalizada. Para ello, tienes que añadir enlaces a otras páginas importantes de tu sitio o una función de búsqueda. Otra opción es utilizar una redirección 301 para enviar a los usuarios desde una URL antigua a una nueva.

errores

Crear una redirección 301

Puede utilizar un 301 para aumentar el valor de los enlaces transfiriendo a los usuarios de su antigua página a la nueva. También ayuda a Google a descubrir e indexar su nueva página. Aunque los errores 404 no perjudican su rendimiento general, puede perder su clasificación en esas páginas específicas.

Por ello, es posible que desee utilizar un código de estado 301. Muestra que la página ha sido cambiada permanentemente a una nueva ubicación. Mientras tanto, una página de redirección 302 representa un movimiento temporal.

Debe evitar crear una cadena de redirecciones. Googlebot tiene problemas para pasar por varios códigos de estado 301 para llegar a una página. Por ello, debes limitarte a tener una sola página de redirección en la medida de lo posible.

Cómo se indexa su sitio

Su primer objetivo es asegurarse de que Google pueda rastrear sus sitios. El siguiente paso es conseguir la indexación. La indexación es la forma en que los motores de búsqueda almacenan sus páginas. En esencia, un motor de búsqueda almacena una representación de su página como una biblioteca almacena un libro.

¿Qué aspecto tienen mis páginas para los motores de búsqueda?

Puede ver fácilmente la última versión en caché de cada página de su sitio. Cuando compruebe las SERPs, haga clic en la flecha desplegable junto a la URL de la página. A continuación, seleccione la opción de caché. Los sitios populares y establecidos tienden a ser rastreados y almacenados en caché con mayor frecuencia. También puede consultar una versión de sólo texto de cada página almacenada en caché.

Hay muchas razones por las que un índice puede eliminar una página. A continuación se indican algunas de las razones más comunes.

  • La URL fue penalizada por una violación de las directrices del motor de búsqueda.
  • La URL ha bloqueado a los rastreadores debido a un requisito de contraseña.
  • La URL devuelve con un error 4xx o 5xx.
  • La URL tiene una directiva noindex.

Puedes probar la herramienta de inspección de URLs si crees que hay un problema. También puede obtener la página como Google. Entonces, puede ver si la página está siendo adecuadamente renderizada por Google.

Muestre a los motores de búsqueda cómo indexar correctamente su sitio

Las meta directivas también se conocen como meta etiquetas. Estas etiquetas son instrucciones que indican a los motores de búsqueda cómo mirar sus páginas. Puede crear metaetiquetas que impidan que los motores de búsqueda puedan indexar una página. Estas instrucciones se colocan generalmente en el encabezado de sus páginas HTM o en la etiqueta X-Robots de su cabecera HTTP.

Conozca las diferentes metaetiquetas de los robots

Índice/no índice: Esto indica a los motores de búsqueda si deben o no rastrear la página.

Follow/nofollow: Esto muestra si los bots deben seguir los enlaces que tienes en tu página o no.

Noarchive: Esto indica a los motores de búsqueda que no deben mantener una copia en caché de una página específica.

Con las meta directivas, puede afectar a la forma en que se indexan sus páginas. No afectan a la forma en que se rastrean las páginas. Para seguir la directiva, el rastreador debe rastrear la página para verlas.

Etiqueta X-robots: Esta etiqueta puede colocarse en la cabecera HTTP de su URL para bloquear los motores de búsqueda.

¿Cómo clasifican los motores de búsqueda las páginas de su sitio?

Su clasificación se refiere a la posición que ocupa su página en la lista de resultados del motor de búsqueda. La mayoría de la gente hace clic en los tres primeros resultados, por lo que su clasificación determina el número de visitantes que recibe el sitio. Los motores de búsqueda utilizan fórmulas y algoritmos para determinar cómo se almacena la información. Estos algoritmos de los motores de búsqueda cambian constantemente a medida que Google trabaja para mejorar la calidad de las búsquedas.

Los motores de búsqueda quieren dar a los buscadores las mejores respuestas a sus preguntas. Con el tiempo, los motores de búsqueda han mejorado su comprensión de la semántica. Mientras que prácticas como el relleno de palabras clave se utilizan para engañar a los motores de búsqueda, estos son ahora capaces de decir cuándo una página está artificialmente rellena de una palabra clave.

Enlaces y SEO

Los enlaces son esenciales para el SEO. Los motores de búsqueda tienen en cuenta los enlaces internos y los enlaces entrantes. Los enlaces entrantes son los enlaces que recibe de otros sitios web que llevan a su sitio. En cierto modo, son como una versión en línea de las referencias boca a boca. Aunque los motores de búsqueda ya no se basan tanto en estos enlaces como antes, siguen desempeñando un papel importante a la hora de determinar su posición en los motores de búsqueda. El algoritmo PageRank de Google analiza la cantidad y la calidad de cada enlace que va a sus páginas.

Contenido y SEO

El contenido también desempeña un papel en la determinación de su clasificación en los motores de búsqueda. Los rastreadores analizan su contenido para decidir de qué trata su página. A continuación, encuentra el contenido más relevante posible para cada consulta de búsqueda. Dado que el objetivo principal es lograr la satisfacción del usuario, no hay una regla fija sobre la longitud de los contenidos.

RankBrain y SEO

Contenido, enlaces y RankBrain son los principales factores que determinan cómo clasifica Google su sitio. RankBrain implica aprendizaje automático. Puede utilizar observaciones para enseñarse a sí mismo con el tiempo. Como mejora constantemente, los resultados de las búsquedas también mejoran. Si una URL es más relevante para el usuario de la búsqueda, obtendrá una mejor clasificación. Esto significa que lo mejor que puede hacer es mejorar la experiencia del usuario y asegurarse de que su contenido es relevante.

¿Qué pasa con las métricas de compromiso?

Las métricas de compromiso suelen ser más altas para los sitios con una clasificación más alta, pero hay un gran debate sobre si esto se debe a la causalidad o a la correlación. Las métricas de compromiso incluyen los clics en su listado en los resultados de búsqueda, su tasa de rebote y el tiempo de permanencia en sus páginas. La tasa de rebote es el porcentaje de sesiones en las que el espectador sólo consulta una página antes de abandonarla.

Google ha dicho que utiliza los datos de los clics para ajustar sus SERPs. Si la mayoría de la gente hace clic en el segundo resultado en lugar del primero, Google acabará cambiando el orden de los resultados. Esto significa que las métricas de compromiso sirven como verificadores de hechos para motores de búsqueda. Los rastreadores pueden adivinar si una página es relevante. Luego, los visitantes reales muestran a Google qué páginas son relevantes haciendo clic en ellas. Si una página tiene una alta tasa de rebote, probablemente no sea relevante para el buscador.

Búsqueda localizada

Google ha experimentó con una variedad de formatos a lo largo del tiempo. Con ello se pretende mejorar la experiencia del usuario ofreciéndole el mejor tipo de contenido. Con la búsqueda localizada, Google se preocupa por la relevancia, la distancia y la prominencia. Para garantizar una buena clasificación, debe optimizar su ficha de Google My Business.

La relevancia significa que su negocio debe coincidir con lo que el buscador quiere. Por su parte, la distancia implica su geolocalización. Aunque las búsquedas orgánicas rara vez difunden este hecho, generalmente están influenciadas por la ubicación del buscador. Por último, Google quiere premiar a las empresas destacadas que son populares en el mundo real. Pueden saber si tienes un negocio conocido mirando tus reseñas en Google y las citas en otros sitios. Además, Google tendrá en cuenta sus otras técnicas de SEO para determinar la posición de su sitio web en una búsqueda localizada.

PREGUNTAS FRECUENTES

  • ¿Cómo funcionan los motores de búsqueda?
  • ¿Qué es el rastreo y la indexación?
  • ¿Cuál es la forma más común en que un motor de búsqueda descubre una página web?
  • ¿Cuál es el objetivo principal de un motor de búsqueda?
  • ¿Qué podría ayudar a un motor de búsqueda a entender la diferencia entre temas?
  • ¿Qué podría ayudar a un motor de búsqueda a entender la diferencia?
  • ¿Cómo rastrean los motores de búsqueda los sitios web?
  • ¿Cómo tratarán los motores de búsqueda una mala estructura del sitio?
  • ¿Cuál es la posición media en Google Search Console?
  • ¿Qué aspecto tiene un mapa del sitio web?
  • ¿Qué es el crawling en el SEO?
  • ¿Cuál fue el primer motor de búsqueda creado?

Siguiente: Investigación de palabras clave
Anteriormente: SEO 101


Publicado en: 2020-09-10
Updated on: 2024-01-12

Avatar de Isaac Adams-Hands

Isaac Adams-Hands

Isaac Adams-Hands es el director de SEO en SEO North, una empresa que ofrece servicios de optimización de motores de búsqueda. Como profesional de SEO, Isaac tiene una considerable experiencia en SEO On-page, SEO Off-page y SEO Técnico, lo que le da una ventaja frente a la competencia.
es_ESSpanish