Extracciones personalizadas de Screaming Frog: Guía para la extracción de datos de rastreo

Screaming Frog (screamingfrog.co.uk) es una potente herramienta SEO con muchas características de optimización de motores de búsqueda, incluyendo extracciones personalizadas, que le permiten extraer datos de sus rastreos fácilmente. Esta entrada de blog discutirá cómo funciona Screaming Frog Custom Extraction y por qué puede ayudar a mejorar sus esfuerzos de SEO, marketing digital de comercio electrónico y estrategias de indexación.

Extracción personalizada de Screaming Frog

Los sitios web tienen una tonelada de información útil - la mayoría de las veces, es demasiado laborioso o complicado visitar cada página de un sitio web para copiar los datos del producto, metadatos, etiquetas de título y texto de anclaje en una hoja de cálculo. Aquí es donde Screaming Frog viene al rescate con extracciones de datos de búsqueda personalizadas, utilizando API y expresiones regulares para automatizar el proceso. Las extracciones personalizadas son una forma de raspado web, recolección web o extracción de datos web que se utiliza para raspar y extraer datos de sitios web, lo que le permite almacenarlos localmente en su ordenador.

Para los principiantes, algunas preguntas que pueden tener:

¿Qué es el Screaming Frog SEO Spider?

El software Screaming Frog SEO Spider es un rastreador de sitios web que mejora el SEO in situ extrayendo y analizando los datos estructurados de su sitio web mediante una interfaz gráfica de usuario (GUI), manejando eficazmente el contenido XML y JavaScript.

¿Cuáles son extracciones personalizadas?

Las extracciones personalizadas son funciones de la araña SEO de Screaming Frog para extraer información explícita de las páginas web. Estas extracciones ayudan a optimizar su sitio para una auditoría SEO Técnica, incluyendo resultados de búsqueda, recopilando datos esenciales sobre su copia, y ayudando a localizar y corregir errores en encabezados y otros elementos.

¿Cómo se hace la extracción de datos?

Utilice Screaming Frog si desea procesar la extracción de datos, que consiste en extraer los datos necesarios de su sitio web. La información se guarda dentro de la memoria de Screaming Frog, dándole la opción de exportar los resultados escaneados a Excel o Google Sheets para su posterior revisión. Esto puede incluir datos de menús desplegables y estructuras de enlaces internos.

¿Por qué es fundamental la extracción de datos?

La extracción de datos le permite recoger grandes cantidades de datos de forma rápida y eficaz. Esta automatización le proporciona resultados inmediatos de arquitectura web. Este proceso le ahorra tiempo y recursos mientras que le da los datos valiosos que necesitará para planificar y elaborar estrategias de optimización de motores de búsqueda. Screaming Frog es el go-to Web Scraper Tool para SEOs y un extractor de datos. Las opciones son infinitas; aquí hay un montón de sintaxis personalizadas de web-scraping. Echa un vistazo al tutorial a continuación.

Cómo extraer datos personalizados con Screaming Frog

Utilice Screaming Frog si desea procesar la extracción de datos, que consiste en extraer los datos necesarios de su sitio web. La información se guarda en la memoria de Screaming Frog, dándole la opción de exportar los resultados escaneados a Excel o Google Sheets para su posterior revisión. Para necesidades más avanzadas, puede incorporar expresiones regulares para apuntar con precisión y extraer patrones específicos de su contenido HTML o JavaScript renderizado, incluyendo nodos y fragmentos.

Al integrar estas técnicas, puede optimizar su estrategia SEO de forma eficaz, aprovechando la potencia de herramientas como Screaming Frog e incluso utilizando tecnologías de IA como ChatGPT para obtener información más profunda.

1. En ScreamingFrog, vaya a Configuración > Personalizada > Extracción.

Extracción personalizada de Screaming Frog
Extracción personalizada de Screaming Frog

2. A continuación, deberá +Añadir y configure sus reglas de extracción.

Ajustes de extracción personalizados
Seleccionar elementos de HTML interno mediante la pestaña de Extracción Personalizada

3. Añade un Título,
4. Seleccione si necesita CSSPath, XPath o Regex,
5. Añade tu función de búsqueda.

Si no está seguro de qué selector o función necesita, consulte los ejemplos siguientes o utilice la función de inspección de elementos en Herramientas de desarrollo de Google Chrome. Puede abrir Dev Tools haciendo "clic con el botón derecho" en el navegador Google Chrome.

Ejemplo:

He aquí un ejemplo raspar para un ID de píxel de Facebook

Extracción del ID del píxel de Facebook
Extracción del ID del píxel de Facebook

En el ResultadosComo puedes ver, a una de mis páginas le falta un píxel de Facebook:

Falta el ID de Facebook
Falta el ID de Facebook

A continuación encontrará conjuntos de datos de extracción personalizados predefinidos para que pueda empezar.

Sintaxis básica para utilizar XPath Web Scraping

SYNTAXFUNCIÓN
//Buscar en cualquier parte del documento
/Buscar dentro de la raíz del sitio web
@Seleccionar un atributo específico de un elemento
*El comodín se utiliza para seleccionar cualquier elemento
[ ]Buscar un elemento específico
.Especifica el elemento actual
..Especifica el elemento padre

XPath funciones

XPATHSALIDA
//h1Extraer todas las etiquetas H1
//h2[1]Extraer la primera etiqueta H2
//h2[2]Extraer la segunda etiqueta H2
//div/pExtrae cualquier <p> contenida en un <div>
//div[@class='author']Extrae cualquier <div> con clase "autor"
//p[@class='content']Extrae cualquier <p> con clase "contenido"
//*[@class='content']Extrae cualquier elemento con clase "contenido"
//ul/li[last()]Extrae el último
  • de un
    • //ol[@class='cat']/li[1]Extrae el primer
    • de un
        con clase "cat"
    • count(//h2)Cuenta el número de H2 (ajuste el filtro de extracción a "Valor de la función")
      //a[contiene(.,'saber más')]Extrae cualquier enlace con un texto de anclaje que contenga "aprender más"
      //a[empieza-con(@título,'Escrito por')]Extrae cualquier enlace con un título que empiece por "Escrito por".

      Cómo extraer elementos HTML comunes

      XPATHSALIDA
      //@hrefExtrae todos los enlaces
      //a[starts-with(@href,'mailto')]/@hrefExtrae el enlace que empieza por "mailto:" (dirección de correo electrónico)
      //a[comienza-con(@ref,'tel')]/@refExtrae el enlace que empieza por "tel:" (número de teléfono)
      //img/@srcExtrae todas las URLs de origen de las imágenes
      //img[contains(@class,'aligncenter')]/@srcExtrae todas las URLs de origen de las imágenes que contienen el nombre de clase "aligncenter".
      //link[@rel='alternate']Extrae los elementos con el atributo rel establecido como "alternate".
      //@hreflangExtrae todos los valores de hreflang

      Extraer las metaetiquetas (utilizar el elemento HTML interior)

      XPATHSALIDA
      //meta[@propiedad='artículo:hora de publicación']/@contenidoExtrae la fecha de publicación del artículo (etiqueta meta común en los sitios web de WordPress)

      Extraer el gráfico abierto

      XPATHSALIDA
      //meta[@property='og:type']/@contentExtrae el objeto de tipo Open Graph
      //meta[@propiedad='og:imagen']/@contenidoExtrae la URL de la imagen destacada de Open Graph
      //meta[@property='og:updated_time']/@contentExtrae la hora actualizada de Open Graph

      Extraer tarjetas de Twitter

      XPATHSALIDA
      //meta[@name='twitter:card']/@contentExtrae el tipo de tarjeta de Twitter
      //meta[@name='twitter:title']/@contentExtrae el título de la tarjeta de Twitter
      //meta[@name='twitter:site']/@contentExtrae el objeto del sitio de la tarjeta de Twitter (el mango de Twitter)

      Extraer tipos de esquemas

      XPATHSALIDA
      //*[@tipo de artículo]/@tipo de artículoExtrae todos los tipos de marcado del esquema en una página

      Extraer el esquema de migas de pan

      Estas son las extracciones personalizadas que se utilizan para comprobar las migas de pan en La Rana Gritona.

      XPATHSALIDA
      //*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop]/a/@hrefExtrae todos los enlaces de migas de pan
      //*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop][1]/a/@hrefExtrae el primer enlace de migas de pan
      //*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop]Extrae los nombres de las migas de pan (establezca el filtro de extracción en "Extraer texto")
      count(//*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop])Cuenta el número de elementos de la lista de migas de pan (ajuste el filtro de extracción a "Valor de la función")

      Extraer el esquema del producto

      XPATHSALIDA
      //*[@itemprop='nombre']/@contenidoExtrae el nombre del producto
      //*[@itemprop='descripción']/@contentExtrae la descripción del producto
      //*[@itemprop='precio']/@contenidoExtrae el precio del producto
      //*[@itemprop='precioMoneda']/@contentExtrae la moneda del producto
      //*[@itemprop='disponibilidad']/@hrefExtrae la disponibilidad de los productos
      //*[@itemprop='sku']/@contentExtrae el SKU del producto

      Extraer el esquema de revisión

      XPATHSALIDA
      //*[@itemprop='reviewCount']Recuento de la revisión de extractos
      //*[@itemprop='ratingValue']Extrae el valor de la calificación
      //*[@itemprop='bestRating']Extrae la mejor valoración de las críticas
      //*[@itemprop='revisión']/*[@itemprop='nombre']Extrae el nombre de la revisión
      //*[@itemprop='revisión']/*[@itemprop='autor']Extractos de la reseña del autor
      //*[@itemprop='revisión']/*[@itemprop='fechaPublicación']/@contentExtrae la fecha de publicación de las reseñas
      //*[@itemprop='review']/*[@itemprop='reviewBody']Extrae el contenido del cuerpo de las reseñas

      Extraer el esquema de empresas y organizaciones locales

      XPATHSALIDA
      //*[contains(@itemtype,'Organización')]/*[@itemprop='nombre']Extrae el nombre de la organización
      //*[@itemprop='dirección']/*[@itemprop='dirección']Extrae la dirección de la calle
      //*[@itemprop='dirección']/*[@itemprop='direcciónLocalidad']Extrae la localidad de la dirección
      //*[@itemprop='dirección']/*[@itemprop='direcciónRegión']Extrae la región de la dirección
      //*[@itemprop='teléfono']Extrae el número de teléfono
      //*[@itemprop='sameAs']/@hrefExtrae los enlaces "sameAs"

      Extraer el esquema del artículo

      XPATHSALIDA
      //*[contains(@itemtype,'Artículo')]/*[@itemprop='titular']Extrae el titular del artículo
      //*[@itemprop='autor']/*[@itemprop='nombre']/@contentExtrae el nombre del autor
      //*[@itemprop='editor']/*[@itemprop='nombre']/@contentExtrae el nombre del editor
      //*[@itemprop='datePublished']/@contentExtractos fecha de publicación
      //*[@itemprop='dateModified']/@contentExtrae la fecha de modificación

      Extracción de datos a medida con Regex

      Comodines

      SYNTAXFUNCIÓN
      .Coincidir con 1 carácter cualquiera
      *Coincidir con el carácter precedente 0 o más veces
      ?Coincidir con el carácter precedente 0 o 1 vez
      +Coincidir con el carácter anterior 1 o más veces
      |O

      Anclas

      SYNTAXFUNCIÓN
      ^La cadena comienza con el carácter siguiente.
      $La cadena termina con el carácter anterior.

      Grupos

      SYNTAXFUNCIÓN
      ( )Coincidir con los caracteres adjuntos en el orden exacto
      [ ]Coincidir con los caracteres encerrados en cualquier orden
      -Coincidir con cualquier carácter dentro del rango especificado

      Escape

      SYNTAXFUNCIÓN
      \Tratar el carácter literalmente, no como regex.

      Extracción de datos personalizados Regex

      REGEXSALIDA
      ["'](UA-.*?)["']Extraer el ID de seguimiento de Google Analytics
      ["'](G-.*?)["']Extraer el ID de seguimiento de Google Analytics 4 (GA4)
      ["'](AW-.*?)["']Extraer el ID de conversión de Google Ads y/o la etiqueta de remarketing
      ["'](GTM-.*?)["']Extraer el ID de Google Tag Manager y/o Google Optimize
      fbq\(["']init["'], ["'](.*?)["']Extraer el ID del píxel de Facebook
      \{{ti:["'](.*?)["']\N-}Extraer la etiqueta UET de Bing Ads
      adroll_adv_id = ["'](.*?)["']Extraer el ID de anunciante de AdRoll
      adroll_pix_id = ["'](.*?)["']Extraer el ID de píxel de AdRoll

      Extraer todo el marcado de esquema y los tipos de esquema

      REGEXSALIDA
      ["']application/ld\+json["']>(.*?)Extrae todas las marcas del esquema JSON-LD
      ["']@tipo["']: *["'](.*?)["']Extrae todos los tipos de marcado del esquema JSON-LD en una página

      Extraer el esquema de migas de pan

      REGEXSALIDA
      ["']item["']: *["']@id["']: *["'](.*?)["']Extrae los enlaces de migas de pan
      ["']item["']: *["']@id["']: *["'].*?["'], *["']nombre["']: *["'](.*?)["']Extrae los nombres de las migas de pan

      Extraer el esquema del producto

      REGEXSALIDA
      ["']@type["']: *["']Product["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del producto
      ["']@tipo["']: *["']Product["'].*?["']description["']: *["'](.*?)["']Extrae la descripción del producto
      ["']@tipo["']: *["']Product["'].*?["']price["']: *["'](.*?)["']Extrae el precio del producto
      ["']@type["']: *["']Product["'].*?["']priceCurrency["']: *["'](.*?)["']Extrae la moneda del producto
      ["']@type["']: *["']Product["'].*?["']availability["']: *["'](.*?)["']Extrae la disponibilidad de los productos
      ["']@type["']: *["']Product["'].*?["']sku["']: *["'](.*?)["']Extrae el SKU del producto

      Extraer el esquema de revisión

      REGEXSALIDA
      ["']reviewCount["']: *["'](.*?)["']Recuento de la revisión de extractos
      ["']ratingValue["']: *["'](.*?)["']Extrae el valor de la calificación
      ["']bestRating["']: *["'](.*?)["']Extrae la mejor calificación

      Extraer el esquema de empresas y organizaciones locales

      REGEXSALIDA
      ["']@tipo["']: *["']Organization["'].*?["']name["']: *["'](.*?)["']Extrae el nombre de la organización
      ["']dirección["']: *["'](.*?)["']Extrae la dirección de la calle
      ["']direcciónLocalidad["']: *["'](.*?)["']Extrae la localidad de la dirección
      ["']direcciónRegión["']: *["'](.*?)["']Extrae la región de la dirección
      ["']teléfono["']: *["'](.*?)["']Extrae el número de teléfono
      ["']sameAs["']: *\[(.*?)\]Extrae los enlaces "sameAs"

      Extraer el esquema del artículo o del blogposting

      REGEXSALIDA
      ["']titular["']: *["'](.*?)["']Extrae el titular del artículo
      ["']author["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del autor
      ["']publisher["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del editor
      ["']datePublished["']: *["'](.*?)["']Extractos fecha de publicación
      ["']dateModified["']: *["'](.*?)["']Extrae la fecha de modificación

      Las posibilidades son infinitas; por favor, hágame saber si quiere que se añada alguna extracción a esta lista.


      Publicado en: 2021-03-10
      Actualizado el: 2024-07-18

      Avatar de Isaac Adams-Hands

      Isaac Adams-Hands

      Isaac Adams-Hands es el director de SEO en SEO North, una empresa que ofrece servicios de optimización de motores de búsqueda. Como profesional de SEO, Isaac tiene una considerable experiencia en SEO On-page, SEO Off-page y SEO Técnico, lo que le da una ventaja frente a la competencia.
      es_ESSpanish