Extracciones personalizadas de Screaming Frog: Guía para la extracción de datos de rastreo

Screaming Frog (screamingfrog.co.uk) is a powerful SEO tool with many search engine optimization features. One of the lesser-known features, Screaming Frog Custom Extractions, allows you to easily extract data from your crawls. This blog post will discuss how Screaming Frog Custom Extraction works and why it can help improve your SEO efforts and e-commerce digital marketing SEO strategies!

Extracción personalizada de Screaming Frog

Websites have a ton of helpful information—most times, it’s too laborious or complicated to visit every page on a website to copy product data, metadatos, etiquetas de títuloy texto de anclaje into a spreadsheet. Here is where Screaming Frog comes to the rescue with custom search data extractions to automate the process. Custom extractions are a form of raspado webweb harvesting, o web extracción de datos utilizado para raspar y extraer datos de sitios web, permitiéndole almacenarlos localmente en su ordenador.

Para los principiantes, algunas preguntas que pueden tener:

¿Qué es el Screaming Frog SEO Spider?

El Screaming Frog SEO Spider software is a website crawler that improves onsite SEO by extracting and analyzing your website’s structured data using a graphical user interface (GUI).

What are custom extractions?

Las extracciones personalizadas son Ranas Gritonas SEO para extraer información explícita de las páginas web. Estas extracciones ayudan a optimizar su sitio para SEO técnico audit, including search results, gather essential data on your copy, and help locate and fix errors.

¿Cómo se hace la extracción de datos?

Use Screaming Frog if you want to process data extraction, which involves pulling the required data from your website. The information is saved within Screaming Frog’s memoryque le ofrece la posibilidad de exportar los resultados escaneados a Excel o Hojas de cálculo de Google para su revisión.

¿Por qué es fundamental la extracción de datos?

La extracción de datos le permite recopilar grandes cantidades de datos de forma rápida y eficaz. Esta automatización le ofrece resultados inmediatos de arquitectura web. This process saves you time and resources while giving you the valuable data you’ll need to plan and strategize search engine optimization strategies.  Screaming Frog is the go-to Web Scraper Tool for SEOs and a data extractor. The options are endless; here are a ton of custom web-scraping syntaxes. Check the tutorial below.

Cómo extraer datos personalizados con Screaming Frog

1. En ScreamingFrog, vaya a Configuración > Personalizada > Extracción.

Extracción personalizada de Screaming Frog
Extracción personalizada de Screaming Frog

2. A continuación, deberá +Añadir y configure sus reglas de extracción.

Ajustes de extracción personalizados
Seleccionar elementos de HTML interno mediante la pestaña de Extracción Personalizada

3. Añade un Título,
4. Seleccione si necesita CSSPath, XPath o Regex,
5. Añade tu función de búsqueda.

If you aren’t sure which selector or function you need, look at the examples below or use the inspect element function in Herramientas de desarrollo de Google Chrome. You can open Dev Tools by using “right-click” in the Google Chrome browser.

Ejemplo:

Here is an example of how you would scrape for a Facebook Pixel ID

Extracción del ID del píxel de Facebook
Extracción del ID del píxel de Facebook

En el ResultadosComo puedes ver, a una de mis páginas le falta un píxel de Facebook:

Falta el ID de Facebook
Falta el ID de Facebook

A continuación encontrará conjuntos de datos de extracción personalizados predefinidos para que pueda empezar.

Sintaxis básica para utilizar XPath Web Scraping

SYNTAXFUNCIÓN
//Buscar en cualquier parte del documento
/Buscar dentro de la raíz del sitio web
@Seleccionar un atributo específico de un elemento
*El comodín se utiliza para seleccionar cualquier elemento
[ ]Buscar un elemento específico
.Especifica el elemento actual
..Especifica el elemento padre

XPath funciones

XPATHSALIDA
//h1Extraer todas las etiquetas H1
//h2[1]Extraer la primera etiqueta H2
//h2[2]Extraer la segunda etiqueta H2
//div/pExtrae cualquier <p> contenida en un <div>
//div[@class='author']Extrae cualquier <div> con clase "autor"
//p[@class='content']Extrae cualquier <p> con clase "contenido"
//*[@class='content']Extrae cualquier elemento con clase "contenido"
//ul/li[last()]Extrae el último
  • de un
    • //ol[@class='cat']/li[1]Extrae el primer
    • de un
        con clase "cat"
    • count(//h2)Cuenta el número de H2 (ajuste el filtro de extracción a "Valor de la función")
      //a[contiene(.,'saber más')]Extrae cualquier enlace con un texto de anclaje que contenga "aprender más"
      //a[empieza-con(@título,'Escrito por')]Extrae cualquier enlace con un título que empiece por "Escrito por".

      Cómo extraer elementos HTML comunes

      XPATHSALIDA
      //@hrefExtrae todos los enlaces
      //a[starts-with(@href,'mailto')]/@hrefExtrae el enlace que empieza por "mailto:" (dirección de correo electrónico)
      //a[comienza-con(@ref,'tel')]/@refExtrae el enlace que empieza por "tel:" (número de teléfono)
      //img/@srcExtrae todas las URLs de origen de las imágenes
      //img[contains(@class,'aligncenter')]/@srcExtrae todas las URLs de origen de las imágenes que contienen el nombre de clase "aligncenter".
      //link[@rel='alternate']Extrae los elementos con el atributo rel establecido como "alternate".
      //@hreflangExtrae todos los valores de hreflang

      Extraer las metaetiquetas (utilizar el elemento HTML interior)

      XPATHSALIDA
      //meta[@propiedad='artículo:hora de publicación']/@contenidoExtrae la fecha de publicación del artículo (etiqueta meta común en los sitios web de WordPress)

      Extraer el gráfico abierto

      XPATHSALIDA
      //meta[@property='og:type']/@contentExtrae el objeto de tipo Open Graph
      //meta[@propiedad='og:imagen']/@contenidoExtrae la URL de la imagen destacada de Open Graph
      //meta[@property='og:updated_time']/@contentExtrae la hora actualizada de Open Graph

      Extraer tarjetas de Twitter

      XPATHSALIDA
      //meta[@name='twitter:card']/@contentExtrae el tipo de tarjeta de Twitter
      //meta[@name='twitter:title']/@contentExtrae el título de la tarjeta de Twitter
      //meta[@name='twitter:site']/@contentExtrae el objeto del sitio de la tarjeta de Twitter (el mango de Twitter)

      Extraer tipos de esquemas

      XPATHSALIDA
      //*[@tipo de artículo]/@tipo de artículoExtrae todos los tipos de marcado del esquema en una página

      Extraer el esquema de migas de pan

      Estas son las extracciones personalizadas que se utilizan para comprobar las migas de pan en La Rana Gritona.

      XPATHSALIDA
      //*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop]/a/@hrefExtrae todos los enlaces de migas de pan
      //*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop][1]/a/@hrefExtrae el primer enlace de migas de pan
      //*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop]Extrae los nombres de las migas de pan (establezca el filtro de extracción en "Extraer texto")
      count(//*[contains(@itemtype,'BreadcrumbList')]/*[@itemprop])Cuenta el número de elementos de la lista de migas de pan (ajuste el filtro de extracción a "Valor de la función")

      Extraer el esquema del producto

      XPATHSALIDA
      //*[@itemprop='nombre']/@contenidoExtrae el nombre del producto
      //*[@itemprop='descripción']/@contentExtrae la descripción del producto
      //*[@itemprop='precio']/@contenidoExtrae el precio del producto
      //*[@itemprop='precioMoneda']/@contentExtrae la moneda del producto
      //*[@itemprop='disponibilidad']/@hrefExtrae la disponibilidad de los productos
      //*[@itemprop='sku']/@contentExtrae el SKU del producto

      Extraer el esquema de revisión

      XPATHSALIDA
      //*[@itemprop='reviewCount']Recuento de la revisión de extractos
      //*[@itemprop='ratingValue']Extrae el valor de la calificación
      //*[@itemprop='bestRating']Extrae la mejor valoración de las críticas
      //*[@itemprop='revisión']/*[@itemprop='nombre']Extrae el nombre de la revisión
      //*[@itemprop='revisión']/*[@itemprop='autor']Extractos de la reseña del autor
      //*[@itemprop='revisión']/*[@itemprop='fechaPublicación']/@contentExtrae la fecha de publicación de las reseñas
      //*[@itemprop='review']/*[@itemprop='reviewBody']Extrae el contenido del cuerpo de las reseñas

      Extraer el esquema de empresas y organizaciones locales

      XPATHSALIDA
      //*[contains(@itemtype,'Organización')]/*[@itemprop='nombre']Extrae el nombre de la organización
      //*[@itemprop='dirección']/*[@itemprop='dirección']Extrae la dirección de la calle
      //*[@itemprop='dirección']/*[@itemprop='direcciónLocalidad']Extrae la localidad de la dirección
      //*[@itemprop='dirección']/*[@itemprop='direcciónRegión']Extrae la región de la dirección
      //*[@itemprop='teléfono']Extrae el número de teléfono
      //*[@itemprop='sameAs']/@hrefExtrae los enlaces "sameAs"

      Extraer el esquema del artículo

      XPATHSALIDA
      //*[contains(@itemtype,'Artículo')]/*[@itemprop='titular']Extrae el titular del artículo
      //*[@itemprop='autor']/*[@itemprop='nombre']/@contentExtrae el nombre del autor
      //*[@itemprop='editor']/*[@itemprop='nombre']/@contentExtrae el nombre del editor
      //*[@itemprop='datePublished']/@contentExtractos fecha de publicación
      //*[@itemprop='dateModified']/@contentExtrae la fecha de modificación

      Extracción de datos a medida con Regex

      Comodines

      SYNTAXFUNCIÓN
      .Coincidir con 1 carácter cualquiera
      *Coincidir con el carácter precedente 0 o más veces
      ?Coincidir con el carácter precedente 0 o 1 vez
      +Coincidir con el carácter anterior 1 o más veces
      |O

      Anclas

      SYNTAXFUNCIÓN
      ^La cadena comienza con el carácter siguiente.
      $La cadena termina con el carácter anterior.

      Grupos

      SYNTAXFUNCIÓN
      ( )Coincidir con los caracteres adjuntos en el orden exacto
      [ ]Coincidir con los caracteres encerrados en cualquier orden
      -Coincidir con cualquier carácter dentro del rango especificado

      Escape

      SYNTAXFUNCIÓN
      \Tratar el carácter literalmente, no como regex.

      Extracción de datos personalizados Regex

      REGEXSALIDA
      ["'](UA-.*?)["']Extraer el ID de seguimiento de Google Analytics
      ["'](G-.*?)["']Extraer el ID de seguimiento de Google Analytics 4 (GA4)
      ["'](AW-.*?)["']Extraer el ID de conversión de Google Ads y/o la etiqueta de remarketing
      ["'](GTM-.*?)["']Extraer el ID de Google Tag Manager y/o Google Optimize
      fbq\(["']init["'], ["'](.*?)["']Extraer el ID del píxel de Facebook
      \{{ti:["'](.*?)["']\N-}Extraer la etiqueta UET de Bing Ads
      adroll_adv_id = ["'](.*?)["']Extraer el ID de anunciante de AdRoll
      adroll_pix_id = ["'](.*?)["']Extraer el ID de píxel de AdRoll

      Extraer todo el marcado de esquema y los tipos de esquema

      REGEXSALIDA
      ["']application/ld\+json["']>(.*?)Extrae todas las marcas del esquema JSON-LD
      ["']@tipo["']: *["'](.*?)["']Extrae todos los tipos de marcado del esquema JSON-LD en una página

      Extraer el esquema de migas de pan

      REGEXSALIDA
      ["']item["']: *["']@id["']: *["'](.*?)["']Extrae los enlaces de migas de pan
      ["']item["']: *["']@id["']: *["'].*?["'], *["']nombre["']: *["'](.*?)["']Extrae los nombres de las migas de pan

      Extraer el esquema del producto

      REGEXSALIDA
      ["']@type["']: *["']Product["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del producto
      ["']@tipo["']: *["']Product["'].*?["']description["']: *["'](.*?)["']Extrae la descripción del producto
      ["']@tipo["']: *["']Product["'].*?["']price["']: *["'](.*?)["']Extrae el precio del producto
      ["']@type["']: *["']Product["'].*?["']priceCurrency["']: *["'](.*?)["']Extrae la moneda del producto
      ["']@type["']: *["']Product["'].*?["']availability["']: *["'](.*?)["']Extrae la disponibilidad de los productos
      ["']@type["']: *["']Product["'].*?["']sku["']: *["'](.*?)["']Extrae el SKU del producto

      Extraer el esquema de revisión

      REGEXSALIDA
      ["']reviewCount["']: *["'](.*?)["']Recuento de la revisión de extractos
      ["']ratingValue["']: *["'](.*?)["']Extrae el valor de la calificación
      ["']bestRating["']: *["'](.*?)["']Extrae la mejor calificación

      Extraer el esquema de empresas y organizaciones locales

      REGEXSALIDA
      ["']@tipo["']: *["']Organization["'].*?["']name["']: *["'](.*?)["']Extrae el nombre de la organización
      ["']dirección["']: *["'](.*?)["']Extrae la dirección de la calle
      ["']direcciónLocalidad["']: *["'](.*?)["']Extrae la localidad de la dirección
      ["']direcciónRegión["']: *["'](.*?)["']Extrae la región de la dirección
      ["']teléfono["']: *["'](.*?)["']Extrae el número de teléfono
      ["']sameAs["']: *\[(.*?)\]Extrae los enlaces "sameAs"

      Extraer el esquema del artículo o del blogposting

      REGEXSALIDA
      ["']titular["']: *["'](.*?)["']Extrae el titular del artículo
      ["']author["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del autor
      ["']publisher["'].*?["']name["']: *["'](.*?)["']Extrae el nombre del editor
      ["']datePublished["']: *["'](.*?)["']Extractos fecha de publicación
      ["']dateModified["']: *["'](.*?)["']Extrae la fecha de modificación

      Las posibilidades son infinitas; por favor, hágame saber si quiere que se añada alguna extracción a esta lista.


      Publicado en: 2021-03-10
      Updated on: 2024-04-05

      Avatar de Isaac Adams-Hands

      Isaac Adams-Hands

      Isaac Adams-Hands es el director de SEO en SEO North, una empresa que ofrece servicios de optimización de motores de búsqueda. Como profesional de SEO, Isaac tiene una considerable experiencia en SEO On-page, SEO Off-page y SEO Técnico, lo que le da una ventaja frente a la competencia.
      es_ESSpanish