Extracciones personalizadas de Screaming Frog: Guía para la extracción de datos de rastreo

Screaming Frog es una poderosa herramienta de SEO con muchas características de optimización de motores de búsqueda. Una de las características menos conocidas, Screaming Frog Custom Extractions, le permite extraer fácilmente los datos de sus rastreos. ¡Esta entrada del blog discutirá cómo Screaming Frog Custom Extraction funciona y por qué puede ayudar a mejorar sus esfuerzos de SEO!

Extracción personalizada de Screaming Frog

Los sitios web tienen un montón de información útil; la mayoría de las veces, es demasiado laborioso o complicado visitar cada página de un sitio web para copiar los datos del producto, metadatos, etiquetas de títuloy texto de anclaje en una hoja de cálculo. Aquí es donde Screaming Frog viene al rescate con extracciones de datos personalizados para automatizar el proceso. Las extracciones personalizadas son una forma de raspado webweb harvesting, o web extracción de datos utilizado para raspar y extraer datos de sitios web, permitiéndole almacenarlos localmente en su ordenador.

Para los principiantes, algunas preguntas que pueden tener:

¿Qué es el Screaming Frog SEO Spider?

El Screaming Frog SEO Spider es un rastreador de sitios web que mejora el SEO in situ extrayendo y analizando los datos de su sitio web mediante una interfaz gráfica de usuario (GUI).

¿Qué son las extracciones a medida?

Las extracciones personalizadas son Ranas Gritonas SEO para extraer información explícita de las páginas web. Estas extracciones ayudan a optimizar su sitio para SEO técnico, incluidos los resultados de la búsqueda, recogen datos esenciales sobre su copia y ayudan a localizar y corregir errores.

¿Cómo se hace la extracción de datos?

El proceso de extracción de datos consiste en extraer los datos necesarios de su sitio web mediante una araña web de Screaming Frog. La información se guarda en Memoria de la Rana Gritonaque le ofrece la posibilidad de exportar los resultados escaneados a Excel o Hojas de cálculo de Google para su revisión.

¿Por qué es fundamental la extracción de datos?

La extracción de datos le permite recopilar grandes cantidades de datos de forma rápida y eficaz. Esta automatización le ofrece resultados inmediatos de arquitectura web. Este proceso le ahorra tiempo y recursos a la vez que le proporciona los valiosos datos que necesitará para planificar y elaborar estrategias de optimización de motores de búsqueda.  

Screaming Frog es la herramienta de raspado web para los SEO. Las opciones son infinitas; aquí hay un montón de sintaxis de raspado web personalizado.

Cómo extraer datos personalizados con Screaming Frog

1. En ScreamingFrog, vaya a Configuración > Personalizada > Extracción.

Extracción personalizada de Screaming Frog
Extracción personalizada de Screaming Frog

2. A continuación, deberá +Añadir y configure sus reglas de extracción.

Ajustes de extracción personalizados
Seleccionar elementos de HTML interno mediante la pestaña de Extracción Personalizada

3. Añade un Título,
4. Seleccione si necesita CSSPath, XPatho Regex,
5. Añade tu función de búsqueda.

Si no está seguro de qué selector o función necesita, consulte los ejemplos siguientes o utilice la función inspeccionar elemento en Herramientas de desarrollo de Google Chrome. Puede abrir Dev Tools haciendo "clic con el botón derecho" en el navegador Google Chrome.

Ejemplo:

Este es un ejemplo de cómo se puede buscar un ID de píxel de Facebook

Extracción del ID del píxel de Facebook
Extracción del ID del píxel de Facebook

En el ResultadosComo puedes ver, a una de mis páginas le falta un píxel de Facebook:

Falta el ID de Facebook
Falta el ID de Facebook

A continuación encontrará conjuntos de datos de extracción personalizados predefinidos para que pueda empezar.

Sintaxis básica para utilizar XPath Web Scraping

SYNTAXFUNCIÓN
//Buscar en cualquier parte del documento
/Buscar dentro de la raíz del sitio web
@Seleccionar un atributo específico de un elemento
*El comodín se utiliza para seleccionar cualquier elemento
[ ]Buscar un elemento específico
.Especifica el elemento actual
..Especifica el elemento padre

XPath funciones

XPATHSALIDA
//h1Extraer todas las etiquetas H1
//h2[1]Extraer la primera etiqueta H2
//h2[2]Extraer la segunda etiqueta H2
//div/pExtrae cualquier <p> contenida en un <div>
//div[@class='author']Extrae cualquier <div> con clase "autor"
//p[@class='content']Extrae cualquier <p> con clase "contenido"
//*[@class='content']Extrae cualquier elemento con clase "contenido"
//ul/li[last()]Extrae el último
  • de un
    • //ol[@class='cat']/li[1]Extrae el primer
    • de un
        con clase "cat"
    • count(//h2)Cuenta el número de H2 (ajuste el filtro de extracción a "Valor de la función")
      //a[contiene(.,'saber más')]Extrae cualquier enlace con un texto de anclaje que contenga "aprender más"
      //a[empieza-con(@título,'Escrito por')]Extrae cualquier enlace con un título que empiece por "Escrito por".

      Cómo extraer elementos HTML comunes

      XPATHSALIDA
      //@hrefExtrae todos los enlaces
      //a[starts-with(@href,'mailto')]/@hrefExtrae el enlace que empieza por "mailto:" (dirección de correo electrónico)
      //a[comienza-con(@ref,'tel')]/@refExtrae el enlace que empieza por "tel:" (número de teléfono)
      //img/@srcExtrae todas las URLs de origen de las imágenes
      //img[contains(@class,'aligncenter')]/@srcExtrae todas las URLs de origen de las imágenes que contienen el nombre de clase "aligncenter".
      //link[@rel='alternate']Extrae los elementos con el atributo rel establecido como "alternate".
      //@hreflangExtrae todos los valores de hreflang

      Extraer las metaetiquetas (utilizar el elemento HTML interior)

      XPATHSALIDA
      //meta[@propiedad='artículo:hora de publicación']/@contenidoExtrae la fecha de publicación del artículo (etiqueta meta común en los sitios web de WordPress)

      Extraer el gráfico abierto

      XPATHSALIDA
      //meta[@property='og:type']/@contentExtrae el objeto de tipo Open Graph
      //meta[@propiedad='og:imagen']/@contenidoExtrae la URL de la imagen destacada de Open Graph
      //meta[@property='og:updated_time']/@contentExtrae la hora actualizada de Open Graph

      Extraer tarjetas de Twitter

      XPATHSALIDA
      //meta[@name='twitter:card']/@contentExtrae el tipo de tarjeta de Twitter
      //meta[@name='twitter:title']/@contentExtrae el título de la tarjeta de Twitter
      //meta[@name='twitter:site']/@contentExtrae el objeto del sitio de la tarjeta de Twitter (el mango de Twitter)

      Extraer tipos de esquemas

      XPATHSALIDA
      //*[@tipo de artículo]/@tipo de artículoExtrae todos los tipos de marcado del esquema en una página

      Extraer el esquema de migas de pan

      Estas son las extracciones personalizadas que se utilizan para comprobar las migas de pan en La Rana Gritona.

      XPATHSALIDA
      //*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop]/a/@hrefExtrae todos los enlaces de migas de pan
      //*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop][1]/a/@hrefExtrae el primer enlace de migas de pan
      //*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop]Extrae los nombres de las migas de pan (establezca el filtro de extracción en "Extraer texto")
      count(//*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop])Cuenta el número de elementos de la lista de migas de pan (ajuste el filtro de extracción a "Valor de la función")

      Extraer el esquema del producto

      XPATHSALIDA
      //*[@itemprop='nombre']/@contenidoExtrae el nombre del producto
      //*[@itemprop='descripción']/@contentExtrae la descripción del producto
      //*[@itemprop='precio']/@contenidoExtrae el precio del producto
      //*[@itemprop='precioMoneda']/@contentExtrae la moneda del producto
      //*[@itemprop='disponibilidad']/@hrefExtrae la disponibilidad de los productos
      //*[@itemprop='sku']/@contentExtrae el SKU del producto

      Extraer el esquema de revisión

      XPATHSALIDA
      //*[@itemprop='reviewCount']Recuento de la revisión de extractos
      //*[@itemprop='ratingValue']Extrae el valor de la calificación
      //*[@itemprop='bestRating']Extrae la mejor valoración de las críticas
      //*[@itemprop='revisión']/*[@itemprop='nombre']Extrae el nombre de la revisión
      //*[@itemprop='revisión']/*[@itemprop='autor']Extractos de la reseña del autor
      //*[@itemprop='revisión']/*[@itemprop='fechaPublicación']/@contentExtrae la fecha de publicación de las reseñas
      //*[@itemprop='review']/*[@itemprop='reviewBody']Extrae el contenido del cuerpo de las reseñas

      Extraer el esquema de empresas y organizaciones locales

      XPATHSALIDA
      //*[contains(@itemtype,'Organización')]/*[@itemprop='nombre']Extrae el nombre de la organización
      //*[@itemprop='dirección']/*[@itemprop='dirección']Extrae la dirección de la calle
      //*[@itemprop='dirección']/*[@itemprop='direcciónLocalidad']Extrae la localidad de la dirección
      //*[@itemprop='dirección']/*[@itemprop='direcciónRegión']Extrae la región de la dirección
      //*[@itemprop='teléfono']Extrae el número de teléfono
      //*[@itemprop='sameAs']/@hrefExtrae los enlaces "sameAs"

      Extraer el esquema del artículo

      XPATHSALIDA
      //*[contains(@itemtype,'Artículo')]/*[@itemprop='titular']Extrae el titular del artículo
      //*[@itemprop='autor']/*[@itemprop='nombre']/@contentExtrae el nombre del autor
      //*[@itemprop='editor']/*[@itemprop='nombre']/@contentExtrae el nombre del editor
      //*[@itemprop='datePublished']/@contentExtractos fecha de publicación
      //*[@itemprop='dateModified']/@contentExtrae la fecha de modificación

      Extracción de datos a medida con Regex

      Comodines

      SYNTAXFUNCIÓN
      .Coincidir con 1 carácter cualquiera
      *Coincidir con el carácter precedente 0 o más veces
      ?Coincidir con el carácter precedente 0 o 1 vez
      +Coincidir con el carácter anterior 1 o más veces
      |O

      Anclas

      SYNTAXFUNCIÓN
      ^La cadena comienza con el carácter siguiente.
      $La cadena termina con el carácter anterior.

      Grupos

      SYNTAXFUNCIÓN
      ( )Coincidir con los caracteres adjuntos en el orden exacto
      [ ]Coincidir con los caracteres encerrados en cualquier orden
      -Coincidir con cualquier carácter dentro del rango especificado

      Escape

      SYNTAXFUNCIÓN
      \Tratar el carácter literalmente, no como regex.

      Extracción de datos personalizados Regex

      REGEXSALIDA
      ["'](UA-.*?)["']Extraer el ID de seguimiento de Google Analytics
      ["'](G-.*?)["']Extraer el ID de seguimiento de Google Analytics 4 (GA4)
      ["'](AW-.*?)["']Extraer el ID de conversión de Google Ads y/o la etiqueta de remarketing
      ["'](GTM-.*?)["']Extraer el ID de Google Tag Manager y/o Google Optimize
      fbq\(["']init["'], ["'](.*?)["']Extraer el ID del píxel de Facebook
      \{{ti:["'](.*?)["']\N-}Extraer la etiqueta UET de Bing Ads
      adroll_adv_id = ["'](.*?)["']Extraer el ID de anunciante de AdRoll
      adroll_pix_id = ["'](.*?)["']Extraer el ID de píxel de AdRoll

      Extraer todo el marcado de esquema y los tipos de esquema

      REGEXSALIDA
      ["']application/ld\+json["']>(.*?)Extrae todas las marcas del esquema JSON-LD
      ["']@tipo["']: *["'](.*?)["']Extrae todos los tipos de marcado del esquema JSON-LD en una página

      Extraer el esquema de migas de pan

      REGEXSALIDA
      ["']item["']: *["']@id["']: *["'](.*?)["']Extrae los enlaces de migas de pan
      ["']item["']: *["']@id["']: *["'].*?["'], *["']nombre["']: *["'](.*?)["']Extrae los nombres de las migas de pan

      Extraer el esquema del producto

      REGEXSALIDA
      ["']@type["']: *["']Product["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del producto
      ["']@tipo["']: *["']Product["'].*?["']description["']: *["'](.*?)["']Extrae la descripción del producto
      ["']@tipo["']: *["']Product["'].*?["']price["']: *["'](.*?)["']Extrae el precio del producto
      ["']@type["']: *["']Product["'].*?["']priceCurrency["']: *["'](.*?)["']Extrae la moneda del producto
      ["']@type["']: *["']Product["'].*?["']availability["']: *["'](.*?)["']Extrae la disponibilidad de los productos
      ["']@type["']: *["']Product["'].*?["']sku["']: *["'](.*?)["']Extrae el SKU del producto

      Extraer el esquema de revisión

      REGEXSALIDA
      ["']reviewCount["']: *["'](.*?)["']Recuento de la revisión de extractos
      ["']ratingValue["']: *["'](.*?)["']Extrae el valor de la calificación
      ["']bestRating["']: *["'](.*?)["']Extrae la mejor calificación

      Extraer el esquema de empresas y organizaciones locales

      REGEXSALIDA
      ["']@tipo["']: *["']Organization["'].*?["']name["']: *["'](.*?)["']Extrae el nombre de la organización
      ["']dirección["']: *["'](.*?)["']Extrae la dirección de la calle
      ["']direcciónLocalidad["']: *["'](.*?)["']Extrae la localidad de la dirección
      ["']direcciónRegión["']: *["'](.*?)["']Extrae la región de la dirección
      ["']teléfono["']: *["'](.*?)["']Extrae el número de teléfono
      ["']sameAs["']: *\[(.*?)\]Extrae los enlaces "sameAs"

      Extraer el esquema del artículo o del blogposting

      REGEXSALIDA
      ["']titular["']: *["'](.*?)["']Extrae el titular del artículo
      ["']author["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del autor
      ["']publisher["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del editor
      ["']datePublished["']: *["'](.*?)["']Extractos fecha de publicación
      ["']dateModified["']: *["'](.*?)["']Extrae la fecha de modificación

      Las posibilidades son infinitas; por favor, hágame saber si quiere que se añada alguna extracción a esta lista.


      Publicado en: 2021-03-10
      Actualizado el: 2023-02-22

      Avatar de Isaac Adams-Hands

      Isaac Adams-Hands

      Isaac Adams-Hands es el director de SEO en SEO North, una empresa que ofrece servicios de optimización de motores de búsqueda. Como profesional de SEO, Isaac tiene una considerable experiencia en SEO On-page, SEO Off-page y SEO Técnico, lo que le da una ventaja frente a la competencia.
      es_ESSpanish