¿Qué son las extracciones a medida?

Las extracciones personalizadas son funciones de la araña SEO de Screaming Frog para extraer información explícita de las páginas web. Estas extracciones ayudan a optimizar su sitio para una auditoría técnica de SEO, incluyendo los resultados de búsqueda, la recopilación de datos esenciales en su copia, y ayudar a localizar y corregir errores en los encabezados y otros elementos. Leer más

Extracciones personalizadas de Screaming Frog: Una guía para la extracción de datos de rastreo - Una hoja de trucos de extracción personalizada

Q: ¿Qué son las extracciones a medida?

Las extracciones personalizadas son un conjunto de funciones en la araña SEO de Screaming Frogs para extraer información explícita de las páginas web. Estas extracciones ayudan a optimizar su sitio para el SEO técnico; que incluye los resultados de búsqueda, recopilar datos esenciales en su copia, y ayudar a localizar y corregir errores.

Q: ¿Cómo se hace la extracción de datos?

El proceso de extracción de datos consiste en extraer los datos requeridos en su sitio web utilizando una araña web de Screaming Frog. La información se guarda dentro de la memoria de Screaming Frog, dándole la opción de exportar los resultados escaneados a Excel o Google Sheets para su posterior revisión.

Screaming Frog (screamingfrog.co.uk) es una potente herramienta SEO con muchas características de optimización de motores de búsqueda, incluyendo extracciones personalizadas, que le permiten extraer datos de sus rastreos fácilmente. Esta entrada de blog discutirá cómo funciona Screaming Frog Custom Extraction y por qué puede ayudar a mejorar sus esfuerzos de SEO, marketing digital de comercio electrónico y estrategias de indexación.

Extracción personalizada de Screaming Frog

Los sitios web tienen una tonelada de información útil - la mayoría de las veces, es demasiado laborioso o complicado visitar cada página de un sitio web para copiar los datos del producto, metadatos, etiquetas de título y texto de anclaje en una hoja de cálculo. Aquí es donde Screaming Frog viene al rescate con extracciones de datos de búsqueda personalizadas, utilizando API y expresiones regulares para automatizar el proceso. Las extracciones personalizadas son una forma de raspado web, recolección web o extracción de datos web que se utiliza para raspar y extraer datos de sitios web, lo que le permite almacenarlos localmente en su ordenador.

Para los principiantes, algunas preguntas que pueden tener:

Índice de contenidos

¿Qué es el Screaming Frog SEO Spider?
¿Qué son las extracciones a medida?
¿Cómo se hace la extracción de datos?
¿Por qué es fundamental la extracción de datos?
Cómo extraer datos personalizados con Screaming Frog
- Ejemplo:
Sintaxis básica para utilizar XPath Web Scraping
Funciones XPath
Cómo extraer elementos HTML comunes
Extraer las metaetiquetas (utilizar el elemento HTML interior)
Extraer el gráfico abierto
Extraer tarjetas de Twitter
Extraer tipos de esquemas
Extraer el esquema de migas de pan
Extraer el esquema del producto
Extraer el esquema de revisión
Extraer el esquema de empresas y organizaciones locales
Extraer el esquema del artículo
Extracción de datos personalizada con Regex
- Comodines
- Anclas
- Grupos
- Escape
Extracción de datos personalizados Regex
Extraer todo el marcado de esquema y los tipos de esquema
- Extraer el esquema de migas de pan
- Extraer el esquema del producto
- Extraer el esquema de revisión
- Extraer el esquema de empresas y organizaciones locales
- Extraer el esquema del artículo o del blogposting
¿Ha respondido este artículo a sus preguntas?

¿Qué es el Screaming Frog SEO Spider?

El software Screaming Frog SEO Spider es un rastreador de sitios web que mejora el SEO in situ extrayendo y analizando los datos estructurados de su sitio web mediante una interfaz gráfica de usuario (GUI), manejando eficazmente el contenido XML y JavaScript.

¿Cuáles son extracciones personalizadas?

Las extracciones personalizadas son funciones de la araña SEO de Screaming Frog para extraer información explícita de las páginas web. Estas extracciones ayudan a optimizar su sitio para una auditoría SEO Técnica, incluyendo resultados de búsqueda, recopilando datos esenciales sobre su copia, y ayudando a localizar y corregir errores en encabezados y otros elementos.

¿Cómo se hace la extracción de datos?

Utilice Screaming Frog si desea procesar la extracción de datos, que consiste en extraer los datos necesarios de su sitio web. La información se guarda dentro de la memoria de Screaming Frog, dándole la opción de exportar los resultados escaneados a Excel o Google Sheets para su posterior revisión. Esto puede incluir datos de menús desplegables y estructuras de enlaces internos.

¿Por qué es fundamental la extracción de datos?

La extracción de datos le permite recoger grandes cantidades de datos de forma rápida y eficaz. Esta automatización le proporciona resultados inmediatos de arquitectura web. Este proceso le ahorra tiempo y recursos mientras que le da los datos valiosos que necesitará para planificar y elaborar estrategias de optimización de motores de búsqueda. Screaming Frog es el go-to Web Scraper Tool para SEOs y un extractor de datos. Las opciones son infinitas; aquí hay un montón de sintaxis personalizadas de web-scraping. Echa un vistazo al tutorial a continuación.

Cómo extraer datos personalizados con Screaming Frog

Utilice Screaming Frog si desea procesar la extracción de datos, que consiste en extraer los datos necesarios de su sitio web. La información se guarda en la memoria de Screaming Frog, dándole la opción de exportar los resultados escaneados a Excel o Google Sheets para su posterior revisión. Para necesidades más avanzadas, puede incorporar expresiones regulares para apuntar con precisión y extraer patrones específicos de su contenido HTML o JavaScript renderizado, incluyendo nodos y fragmentos.

Al integrar estas técnicas, puede optimizar su estrategia SEO de forma eficaz, aprovechando la potencia de herramientas como Screaming Frog e incluso utilizando tecnologías de IA como ChatGPT para obtener información más profunda.

1. En ScreamingFrog, vaya a Configuración > Personalizada > Extracción.

2. A continuación, deberá +Añadir y configure sus reglas de extracción.

Ajustes de extracción personalizados — Seleccionar elementos de HTML interno mediante la pestaña de Extracción Personalizada

3. Añade un Título,
4. Seleccione si necesita CSSPath, XPatho Regex,
5. Añade tu función de búsqueda.

Si no está seguro de qué selector o función necesita, consulte los ejemplos siguientes o utilice la función de inspección de elementos en Herramientas de desarrollo de Google Chrome. Puede abrir Dev Tools haciendo "clic con el botón derecho" en el navegador Google Chrome.

Ejemplo:

He aquí un ejemplo raspar para un ID de píxel de Facebook

En el ResultadosComo puedes ver, a una de mis páginas le falta un píxel de Facebook:

A continuación encontrará conjuntos de datos de extracción personalizados predefinidos para que pueda empezar.

Sintaxis básica para utilizar XPath Web Scraping

SYNTAX	FUNCIÓN
`//`	Buscar en cualquier parte del documento
`/`	Buscar dentro de la raíz del sitio web
`@`	Seleccionar un atributo específico de un elemento
`*`	El comodín se utiliza para seleccionar cualquier elemento
`[ ]`	Buscar un elemento específico
`.`	Especifica el elemento actual
`..`	Especifica el elemento padre

XPath funciones

XPATH	SALIDA
`//h1`	Extraer todas las etiquetas H1
`//h2[1]`	Extraer la primera etiqueta H2
`//h2[2]`	Extraer la segunda etiqueta H2
`//div/p`	Extrae cualquier <p> contenida en un <div>
`//div[@class='author']`	Extrae cualquier <div> con clase "autor"
`//p[@class='content']`	Extrae cualquier <p> con clase "contenido"
`//*[@class='content']`	Extrae cualquier elemento con clase "contenido"
`//ul/li[last()]`	Extrae el último de un
`//ol[@class='cat']/li[1]`	Extrae el primer de un con clase "cat"
`count(//h2)`	Cuenta el número de H2 (ajuste el filtro de extracción a "Valor de la función")
`//a[contiene(.,'saber más')]`	Extrae cualquier enlace con un texto de anclaje que contenga "aprender más"
`//a[empieza-con(@título,'Escrito por')]`	Extrae cualquier enlace con un título que empiece por "Escrito por".

Cómo extraer elementos HTML comunes

XPATH	SALIDA
`//@href`	Extrae todos los enlaces
`//a[starts-with(@href,'mailto')]/@href`	Extrae el enlace que empieza por "mailto:" (dirección de correo electrónico)
`//a[comienza-con(@ref,'tel')]/@ref`	Extrae el enlace que empieza por "tel:" (número de teléfono)
`//img/@src`	Extrae todas las URLs de origen de las imágenes
`//img[contains(@class,'aligncenter')]/@src`	Extrae todas las URLs de origen de las imágenes que contienen el nombre de clase "aligncenter".
`//link[@rel='alternate']`	Extrae los elementos con el atributo rel establecido como "alternate".
`//@hreflang`	Extrae todos los valores de hreflang

Extraer las metaetiquetas (utilizar el elemento HTML interior)

XPATH	SALIDA
`//meta[@propiedad='artículo:hora de publicación']/@contenido`	Extrae la fecha de publicación del artículo (etiqueta meta común en los sitios web de WordPress)

Extraer el gráfico abierto

XPATH	SALIDA
`//meta[@property='og:type']/@content`	Extrae el objeto de tipo Open Graph
`//meta[@propiedad='og:imagen']/@contenido`	Extrae la URL de la imagen destacada de Open Graph
`//meta[@property='og:updated_time']/@content`	Extrae la hora actualizada de Open Graph

Extraer tarjetas de Twitter

XPATH	SALIDA
`//meta[@name='twitter:card']/@content`	Extrae el tipo de tarjeta de Twitter
`//meta[@name='twitter:title']/@content`	Extrae el título de la tarjeta de Twitter
`//meta[@name='twitter:site']/@content`	Extrae el objeto del sitio de la tarjeta de Twitter (el mango de Twitter)

Extraer tipos de esquemas

XPATH	SALIDA
`//*[@tipo de artículo]/@tipo de artículo`	Extrae todos los tipos de marcado del esquema en una página

Extraer el esquema de migas de pan

Estas son las extracciones personalizadas que se utilizan para comprobar las migas de pan en La Rana Gritona.

XPATH	SALIDA
`//[contains(@itemtype,'BreadcrumbList')]/[@itemprop]/a/@href`	Extrae todos los enlaces de migas de pan
`//[contains(@itemtype,'BreadcrumbList')]/[@itemprop][1]/a/@href`	Extrae el primer enlace de migas de pan
`//[contains(@itemtype,'BreadcrumbList')]/[@itemprop]`	Extrae los nombres de las migas de pan (establezca el filtro de extracción en "Extraer texto")
`count(//[contains(@itemtype,'BreadcrumbList')]/[@itemprop])`	Cuenta el número de elementos de la lista de migas de pan (ajuste el filtro de extracción a "Valor de la función")

Extraer el esquema del producto

XPATH	SALIDA
`//*[@itemprop='nombre']/@contenido`	Extrae el nombre del producto
`//*[@itemprop='descripción']/@content`	Extrae la descripción del producto
`//*[@itemprop='precio']/@contenido`	Extrae el precio del producto
`//*[@itemprop='precioMoneda']/@content`	Extrae la moneda del producto
`//*[@itemprop='disponibilidad']/@href`	Extrae la disponibilidad de los productos
`//*[@itemprop='sku']/@content`	Extrae el SKU del producto

Extraer el esquema de revisión

XPATH	SALIDA
`//*[@itemprop='reviewCount']`	Recuento de la revisión de extractos
`//*[@itemprop='ratingValue']`	Extrae el valor de la calificación
`//*[@itemprop='bestRating']`	Extrae la mejor valoración de las críticas
`//[@itemprop='revisión']/[@itemprop='nombre']`	Extrae el nombre de la revisión
`//[@itemprop='revisión']/[@itemprop='autor']`	Extractos de la reseña del autor
`//[@itemprop='revisión']/[@itemprop='fechaPublicación']/@content`	Extrae la fecha de publicación de las reseñas
`//[@itemprop='review']/[@itemprop='reviewBody']`	Extrae el contenido del cuerpo de las reseñas

Extraer el esquema de empresas y organizaciones locales

XPATH	SALIDA
`//[contains(@itemtype,'Organización')]/[@itemprop='nombre']`	Extrae el nombre de la organización
`//[@itemprop='dirección']/[@itemprop='dirección']`	Extrae la dirección de la calle
`//[@itemprop='dirección']/[@itemprop='direcciónLocalidad']`	Extrae la localidad de la dirección
`//[@itemprop='dirección']/[@itemprop='direcciónRegión']`	Extrae la región de la dirección
`//*[@itemprop='teléfono']`	Extrae el número de teléfono
`//*[@itemprop='sameAs']/@href`	Extrae los enlaces "sameAs"

Extraer el esquema del artículo

XPATH	SALIDA
`//[contains(@itemtype,'Artículo')]/[@itemprop='titular']`	Extrae el titular del artículo
`//[@itemprop='autor']/[@itemprop='nombre']/@content`	Extrae el nombre del autor
`//[@itemprop='editor']/[@itemprop='nombre']/@content`	Extrae el nombre del editor
`//*[@itemprop='datePublished']/@content`	Extractos fecha de publicación
`//*[@itemprop='dateModified']/@content`	Extrae la fecha de modificación

Extracción de datos a medida con Regex

Comodines

SYNTAX	FUNCIÓN
`.`	Coincidir con 1 carácter cualquiera
`*`	Coincidir con el carácter precedente 0 o más veces
`?`	Coincidir con el carácter precedente 0 o 1 vez
`+`	Coincidir con el carácter anterior 1 o más veces
`\|`	O

Anclas

SYNTAX	FUNCIÓN
`^`	La cadena comienza con el carácter siguiente.
`$`	La cadena termina con el carácter anterior.

Grupos

SYNTAX	FUNCIÓN
`( )`	Coincidir con los caracteres adjuntos en el orden exacto
`[ ]`	Coincidir con los caracteres encerrados en cualquier orden
`-`	Coincidir con cualquier carácter dentro del rango especificado

Escape

SYNTAX	FUNCIÓN
`\`	Tratar el carácter literalmente, no como regex.

Extracción de datos personalizados Regex

REGEX	SALIDA
`["'](UA-.*?)["']`	Extraer el ID de seguimiento de Google Analytics
`["'](G-.*?)["']`	Extraer el ID de seguimiento de Google Analytics 4 (GA4)
`["'](AW-.*?)["']`	Extraer el ID de conversión de Google Ads y/o la etiqueta de remarketing
`["'](GTM-.*?)["']`	Extraer el ID de Google Tag Manager y/o Google Optimize
`fbq\(["']init["'], ["'](.*?)["']`	Extraer el ID del píxel de Facebook
`\{{ti:["'](.*?)["']\N-}`	Extraer la etiqueta UET de Bing Ads
`adroll_adv_id = ["'](.*?)["']`	Extraer el ID de anunciante de AdRoll
`adroll_pix_id = ["'](.*?)["']`	Extraer el ID de píxel de AdRoll

Extraer todo el marcado de esquema y los tipos de esquema

REGEX	SALIDA
`["']application/ld\+json["']>(.*?)`	Extrae todas las marcas del esquema JSON-LD
`["']@tipo["']: ["'](.?)["']`	Extrae todos los tipos de marcado del esquema JSON-LD en una página

Extraer el esquema de migas de pan

REGEX	SALIDA
`["']item["']: ["']@id["']: ["'](.*?)["']`	Extrae los enlaces de migas de pan
`["']item["']: ["']@id["']: ["'].?["'], ["']nombre["']: ["'](.?)["']`	Extrae los nombres de las migas de pan

Extraer el esquema del producto

REGEX	SALIDA
`["']@type["']: ["']Product["'].?["']name["']: ["'](.?)["']`	Extrae el nombre del producto
`["']@tipo["']: ["']Product["'].?["']description["']: ["'](.?)["']`	Extrae la descripción del producto
`["']@tipo["']: ["']Product["'].?["']price["']: ["'](.?)["']`	Extrae el precio del producto
`["']@type["']: ["']Product["'].?["']priceCurrency["']: ["'](.?)["']`	Extrae la moneda del producto
`["']@type["']: ["']Product["'].?["']availability["']: ["'](.?)["']`	Extrae la disponibilidad de los productos
`["']@type["']: ["']Product["'].?["']sku["']: ["'](.?)["']`	Extrae el SKU del producto

Extraer el esquema de revisión

REGEX	SALIDA
`["']reviewCount["']: ["'](.?)["']`	Recuento de la revisión de extractos
`["']ratingValue["']: ["'](.?)["']`	Extrae el valor de la calificación
`["']bestRating["']: ["'](.?)["']`	Extrae la mejor calificación

Extraer el esquema de empresas y organizaciones locales

REGEX	SALIDA
`["']@tipo["']: ["']Organization["'].?["']name["']: ["'](.?)["']`	Extrae el nombre de la organización
`["']dirección["']: ["'](.?)["']`	Extrae la dirección de la calle
`["']direcciónLocalidad["']: ["'](.?)["']`	Extrae la localidad de la dirección
`["']direcciónRegión["']: ["'](.?)["']`	Extrae la región de la dirección
`["']teléfono["']: ["'](.?)["']`	Extrae el número de teléfono
`["']sameAs["']: \[(.?)\]`	Extrae los enlaces "sameAs"

Extraer el esquema del artículo o del blogposting

REGEX	SALIDA
`["']titular["']: ["'](.?)["']`	Extrae el titular del artículo
`["']author["'].?["']name["']: ["'](.*?)["']`	Extrae el nombre del autor
`["']publisher["'].?["']name["']: ["'](.*?)["']`	Extrae el nombre del editor
`["']datePublished["']: ["'](.?)["']`	Extractos fecha de publicación
`["']dateModified["']: ["'](.?)["']`	Extrae la fecha de modificación

Las posibilidades son infinitas; por favor, hágame saber si quiere que se añada alguna extracción a esta lista.

Publicado en: 2021-03-10
Actualizado el: 2025-02-15

Isaac Adams-Hands

Isaac Adams-Hands es el director de SEO en SEO North, una empresa que ofrece servicios de optimización de motores de búsqueda. Como profesional de SEO, Isaac tiene una considerable experiencia en SEO On-page, SEO Off-page y SEO Técnico, lo que le da una ventaja frente a la competencia.

¿Qué es el Screaming Frog SEO Spider?

¿Cuáles son extracciones personalizadas?

¿Cómo se hace la extracción de datos?

¿Por qué es fundamental la extracción de datos?

Cómo extraer datos personalizados con Screaming Frog

Ejemplo:

Sintaxis básica para utilizar XPath Web Scraping

XPath funciones

Cómo extraer elementos HTML comunes

Extraer las metaetiquetas (utilizar el elemento HTML interior)

Extraer el gráfico abierto

Extraer tarjetas de Twitter

Extraer tipos de esquemas

Extraer el esquema de migas de pan

Extraer el esquema del producto

Extraer el esquema de revisión

Extraer el esquema de empresas y organizaciones locales

Extraer el esquema del artículo

Extracción de datos a medida con Regex

Comodines

Anclas

Grupos

Escape

Extracción de datos personalizados Regex

Extraer todo el marcado de esquema y los tipos de esquema

Extraer el esquema de migas de pan

Extraer el esquema del producto

Extraer el esquema de revisión

Extraer el esquema de empresas y organizaciones locales

Extraer el esquema del artículo o del blogposting

¿Ha respondido este artículo a sus preguntas?

¿Ha respondido este artículo a sus preguntas?

Isaac Adams-Hands