¿Por qué Screaming Frog no rastrea todas las URLs?

Screaming Frog (https://www.screamingfrog.co.uk) is an excellent tool for crawling websites and extracting data, but if it’s not crawling all URL, you won’t be performing a quality technical SEO audit (auditing on-page meta descriptions, response codes, internal linking, checking duplicate contents, page titles, backlinks, alt texts, etc) on your e-commerce sites. In this blog post, we’ll examine why Screaming Frog isn’t crawling all URLs and how you can fix the issue. So, if you’re having trouble getting Screaming Frog to crawl all of your URLs, stay tuned! You’re in for a treat.

rana que grita no se arrastra urls
Isaac Adams-Hands - ¿Por qué Screaming Frog no rastrea todas las URLs?

Cómo solucionar que Screaming Frog no rastree todas las URLs

There are several reasons Screaming Frog may not crawl all subdomains on a sitio webEl más común es que el sitio web haya sido configurado para bloquear rastreadores como Screaming Frog.

  1. El sitio está bloqueado por robots.txt.

    respetar el noindex

    Robots.txt puede bloquear La Rana Gritona crawl pages. You can configure the SEO Spider to ignore robots.txt by going to Configuración >> Araña >> Avanzado >> Desmarque Respect Noindex el escenario.

    You can also change your Agente del usuario a GoogleBot to see if the website allows that crawl.

    Robots.txt is used to instruct web crawlers, or “bots,” on what they are allowed to access on a given website. When a bot tries to access a page that is specifically disallowed in the robots.txt file, it will receive a message that the webmaster does not want this page crawled. In some cases, this may be intentional. For example, a site owner may want to prevent bots from indexing sensitive information. In other cases, it may simply be due to an oversight. Regardless of the reason, a site that is blocked by robots.txt will be inaccessible to anyone who tries to crawl it.

  2. El atributo "nofollow" está presente en los enlaces que no se rastrean.

    enlaces nofollow

    Los enlaces nofollow hacen lo que se pretende, dicen orugas not to follow the links. If all links are set to nofollow on a page, then Screaming Frog has nowhere to go. To bypass this, you can set Screaming Frog to follow internal nofollow internal links.

    Puede actualizar esta opción en Configuración >> Araña bajo el Pestaña "Crawl" (arrastrarse) by clicking on Seguimiento interno 'nofollow' enlaces.

  3. La página tiene un atributo 'nofollow' a nivel de página.

    respetar el noindex

    El atributo nofollow a nivel de página is set by either a meta robots tag or an X-Robots-Tag in the HTTP header. These can be seen in the “Directives” tab in the “Nofollow” filter. The page-level nofollow attribute is used to prevent search engines from following the links on a page.

    This is useful for pages that contain links to unreliable or unimportant sources. By setting the nofollow attribute, you are telling search engines that they should not follow the links on the page. This will help to improve your site’s search engine rankings but stop you from crawling the website.

    Para ignorar las etiquetas Noindex, debe ir a Configuración >> Araña >> Avanzado >> Desmarque el Respetar noindex el escenario.

  4. El User-Agent está siendo bloqueado.

    configuración del agente de usuario

    El Usuario-Agente es una cadena de texto que su navegador envía al sitio web que está visitando. El User-Agent puede proporcionar información sobre su navegador, sistema operativo e incluso su dispositivo. En función de esta información, el sitio web puede cambiar su comportamiento. Por ejemplo, si visita un sitio web utilizando un dispositivo móvil, el sitio web puede redirigirle a una versión del sitio adaptada a dispositivos móviles. Por otra parte, si cambia el User-Agent para simular ser un navegador diferente, es posible que pueda acceder a funciones que no están disponibles en su navegador real. Igualmente, algunos sitios pueden bloquear totalmente ciertos navegadores. Al cambiar el User-Agent, puede cambiar la forma en que un sitio se comporta, dándole más control sobre su experiencia de navegación.

    Puede cambiar el User-Agent en Configuración >> Usuario-Agente.

  5. El sitio requiere JavaScript.

    screaming frog javascript rendering

    JavaScript is a programming language that is commonly used to create interactive web pages. When JavaScript is enabled, it can run automatically when a page is loaded, making it possible for items on the page to change without the need to refresh the entire page. For example, JavaScript can be used to create drop-down menus, display images based on user input, and much more. While JavaScript can be beneficial, some users prefer to disable it in their browser for various reasons. One reason is that JavaScript can be used to track a user’s browsing activity. However, disabling JavaScript can also lead to issues with how a website is displayed or how certain features work.

    Prueba con habilitar la representación de javascript dentro de Screaming Frog bajo Configuración >> Araña >> Rendering.

  6. El sitio web requiere cookies.

    almacenamiento de cookies

    ¿Puede ver el sitio con las cookies desactivadas en su navegador? Los usuarios con licencia pueden habilitar las cookies accediendo a Configuración >> Araña y seleccionando Sólo sesión en Almacenamiento de galletas en el Pestaña avanzada.

  7. El sitio web utiliza conjuntos de marcos.

    marcos mixtos

    El SEO Spider no rastrea el atributo frame-src.

  8. La cabecera Content-Type no indica que la página sea HTML.

    tipo de contenido no válido

    Se muestra en la columna Contenido y debe ser texto/HTML o application/xhtml+xml.

Conclusión

The Screaming Frog SEO spider can be an excellent tool for auditing your website, but it’s vital to ensure that all URLs are crawled. If you’re not getting the complete data that you need from your audits, there may be an issue with how Screaming Frog is configured. This blog post looked at why La Rana Gritona might not be crawling all your URLs and how to fix the problem. By fixing these issues, you’ll be able to get more comprehensive data from your Screaming Frog audits and improve your SEO strategy. Have you tried using Screaming Frog for your website audits? What tips do you have for improving its functionality?

PREGUNTAS FRECUENTES

  • ¿Por qué Screaming Frog no rastrea todas las URLs?

Publicado en: 2022-06-07
Updated on: 2024-04-05

Avatar de Isaac Adams-Hands

Isaac Adams-Hands

Isaac Adams-Hands es el director de SEO en SEO North, una empresa que ofrece servicios de optimización de motores de búsqueda. Como profesional de SEO, Isaac tiene una considerable experiencia en SEO On-page, SEO Off-page y SEO Técnico, lo que le da una ventaja frente a la competencia.
es_ESSpanish