Extrações personalizadas de rãs gritantes: Um guia para extração de dados de rastejamento

Screaming Frog (screamingfrog.co.uk) is a powerful SEO tool with many search engine optimization features. One of the lesser-known features, Screaming Frog Custom Extractions, allows you to easily extract data from your crawls. This blog post will discuss how Screaming Frog Custom Extraction works and why it can help improve your SEO efforts and e-commerce digital marketing SEO strategies!

Extração personalizada de sapo gritante

Websites have a ton of helpful information—most times, it’s too laborious or complicated to visit every page on a website to copy product data, metadados, etiquetas de títuloe texto de ancoragem into a spreadsheet. Here is where Screaming Frog comes to the rescue with custom search data extractions to automate the process. Custom extractions are a form of raspagem da webcolheita em rede, ou web extração de dados usado para raspar e extrair dados de websites, permitindo que você os armazene localmente em seu computador.

Para os iniciantes, algumas perguntas que você pode ter:

O que é o Aranha SEO Rã Gritante?

O Aranha SEO Rã Gritante software is a website crawler that improves onsite SEO by extracting and analyzing your website’s structured data using a graphical user interface (GUI).

What are custom extractions?

As extrações personalizadas são rãs gritantes SEO funções de aranha para extrair informações explícitas de páginas web. Estas extrações ajudam a otimizar seu site para SEO técnico audit, including search results, gather essential data on your copy, and help locate and fix errors.

Como é feita a extração de dados?

Use Screaming Frog if you want to process data extraction, which involves pulling the required data from your website. The information is saved within Screaming Frog’s memorydando a você a opção de exportar seus resultados escaneados para Excel ou Google Sheets para revisão posterior.

Por que a extração de dados é fundamental?

A extração de dados permite coletar grandes quantidades de dados de forma rápida e eficiente. Esta automação lhe dá resultados imediatos de arquitetura da web. This process saves you time and resources while giving you the valuable data you’ll need to plan and strategize search engine optimization strategies.  Screaming Frog is the go-to Web Scraper Tool for SEOs and a data extractor. The options are endless; here are a ton of custom web-scraping syntaxes. Check the tutorial below.

Como extrair dados personalizados usando o Screaming Frog

1. Em ScreamingFrog, vá para Configuração > Personalizado > Extração.

Extração personalizada de sapo gritante
Extração personalizada de sapo gritante

2. A seguir, você precisará +Add e estabeleça suas regras de extração.

Configurações personalizadas de extração
Selecione elementos de HTML interno usando a aba Extração personalizada

3. Adicione um Título,
4. Selecione se você precisar CSSPath, XPathou Regex,
5. Adicione seu função de busca.

If you aren’t sure which selector or function you need, look at the examples below or use the inspect element function in Ferramentas Google Chrome Dev. You can open Dev Tools by using “right-click” in the Google Chrome browser.

Exemplo:

Here is an example of how you would scrape for a Facebook Pixel ID

Extração de Pixel ID no Facebook
Extração de Pixel ID no Facebook

No Resultados, você pode ver, uma de minhas páginas está faltando um Pixel do Facebook:

Falta o ID do Facebook
Falta o ID do Facebook

Abaixo estão os conjuntos de dados de extração personalizados predefinidos para que você possa começar.

Sintaxe básica para o uso do XPath Web Scraping

SYNTAXFUNÇÃO
//Pesquisar em qualquer lugar dentro do documento
/Busca dentro da raiz do website
@Selecione um atributo específico de um elemento
*Wildcard é usado para selecionar qualquer elemento
[ ]Encontre um elemento específico
.Especifica o elemento atual
..Especifica o elemento pai

XPath funções

XPATHSAÍDA
//h1Extrair todas as etiquetas H1
//h2[1]Extrair a primeira etiqueta H2
//h2[2]Extrair a segunda etiqueta H2
//div/pExtrai qualquer <p> contida em um <div>
//div[@class='autor']Extrai qualquer <div> com a classe "autor".
//p[@class='content']Extrai qualquer <p> com "conteúdo" de classe
//*[@class='content']Extrai qualquer elemento com "conteúdo" de classe
//ul/li[last()]Extrai o último
  • em um
    • //ol[@class='cat']/li[1]Extrai o primeiro
    • em um
        com classe "gato".
    • contagem(//h2)Conta o número de H2's (definir filtro de extração para "Valor da Função")
      //a[contém(.,'saiba mais')]Extrai qualquer link com texto de âncora contendo "saiba mais".
      //a[começa- com(@title,'Written by')]Extrai qualquer link com um título que começa com "Escrito por".

      Como extrair elementos HTML comuns

      XPATHSAÍDA
      //@hrefExtrai todos os links
      //a[começa-com(@href,'mailto')]/@hrefExtrai o link que começa com "mailto:" (endereço de e-mail)
      //a[começa-com(@href,'tel')]/@hrefExtrai o link que começa com "tel:" (número de telefone)
      //img/@srcExtrai todas as URLs de origem das imagens
      //img[contains(@class,'aligncenter')]/@srcExtrai todas as URLs de origem das imagens que contêm o nome da classe "aligncenter".
      //link[@rel='suplente']Extrai elementos com o atributo rel definido para "alternar".
      //@hreflangExtrai todos os valores hreflang

      Extrair Meta Tags (usar elemento HTML interno)

      XPATHSAÍDA
      //meta[@property='article:published_time']/@contentExtrai a data de publicação do artigo (meta tag comumente encontrada nos sites WordPress)

      Extrato de gráfico aberto

      XPATHSAÍDA
      //meta[@property='og:type']/@contentExtrai o objeto do tipo Open Graph
      //meta[@property='og:image']/@contentExtrai a URL da imagem em destaque no gráfico aberto
      //meta[@property='og:update_time']/@contentExtrai o tempo de atualização do gráfico aberto

      Extrair Cartões do Twitter

      XPATHSAÍDA
      //meta[@name='twitter:card']/@contentExtrai o tipo de cartão Twitter
      //meta[@name='twitter:title']/@contentExtrai o título do Twitter Card
      //meta[@name='twitter:site']/@contentExtrai o objeto do site Twitter Card (alça do Twitter)

      Tipos de Esquemas de Extratos

      XPATHSAÍDA
      //*[@itemtype]/@itemtypeExtrai todos os tipos de marcação de esquemas em uma página

      Esquema do Extracto de Migalhas de Pão

      Aqui estão as extrações personalizadas que você usa para verificar migalhas de pão em Sapo gritante.

      XPATHSAÍDA
      //*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop]/a/@hrefExtrai todos os elos de migalhas de pão
      //*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop][1]/a/@hrefExtrai o primeiro elo de migalhas de pão
      //*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop]Extrai nomes de migalhas de pão (definir filtro de extração para "Extrair texto")
      count(//*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop])Conta o número de itens da lista de migalhas de pão (definir filtro de extração como "Valor da Função")

      Esquema do produto extraído

      XPATHSAÍDA
      //*[@itemprop='name']/@contentExtrai o nome do produto
      //*[@itemprop='description']/@contentExtratos descrição do produto
      //*[@itemprop='price']/@contentExtrai o preço do produto
      //*[@itemprop='priceCurrency']/@contentExtrai a moeda do produto
      //*[@itemprop='disponibilidade']/@hrefExtrai a disponibilidade do produto
      //*[@itemprop='sku']/@contenteExtrai o produto SKU

      Esquema de revisão do extrato

      XPATHSAÍDA
      //*[@itemprop='reviewCount']Contagem dos extratos de revisão
      //*[@itemprop='ratingValue']Valor de classificação dos extratos
      //*[@itemprop='bestRating']Extrai a melhor classificação de revisão
      //*[@itemprop='revisão']/*[@itemprop='nome']Nome de revisão dos extratos
      //*[@itemprop='revisão']/*[@itemprop='autor']Autor da revisão dos extratos
      //*[@itemprop='revisão']/*[@itemprop='dataPublished']/@contentExtrai a data de publicação das revisões
      //*[@itemprop='review']/*[@itemprop='reviewBody']Extrai o conteúdo corporal das revisões

      Extrato do esquema local de negócios e organização

      XPATHSAÍDA
      //*[contains(@itemtype,'Organization')]/*[@itemprop='name']Extrai o nome da organização
      //*[@itemprop='address']/*[@itemprop='streetAddress']Extrai o endereço de rua
      //*[@itemprop='endereço']/*[@itemprop='endereçoLocalidade']Extrai a localidade de endereço
      //*[@itemprop='endereço']/*[@itemprop='endereçoRegião']Extrai o endereço da região
      //*[@itemprop='telefone']Extrai o número de telefone
      //*[@itemprop='sameAs']/@hrefExtrai os links "sameAs".

      Extrato do esquema do artigo

      XPATHSAÍDA
      //*[contém(@itemtype,'Artigo')]/*[@itemprop='manchete']Extrai a manchete do artigo
      //*[@itemprop='autor']/*[@itemprop='nome']/@contenteExtratos de nome de autor
      //*[@itemprop='publisher']/*[@itemprop='name']/@contentExtratos nome da editora
      //*[@itemprop='datePublished']/@contentData de publicação dos extratos
      //*[@itemprop='dateModified']/@contentExtractos data modificada

      Extração de dados personalizada com Regex

      Wildcards

      SYNTAXFUNÇÃO
      .Combine qualquer 1 personagem
      *Corresponde ao caráter anterior 0 ou mais vezes
      ?Corresponde ao caráter anterior 0 ou 1 vez
      +Combinar o personagem anterior 1 ou mais vezes
      |OU

      Âncoras

      SYNTAXFUNÇÃO
      ^A corda começa com o caráter de sucesso.
      $O fio termina com o caráter anterior.

      Grupos

      SYNTAXFUNÇÃO
      ( )Combine os caracteres anexos na ordem exata
      [ ]Combine os caracteres anexos em qualquer ordem
      Combine quaisquer caracteres dentro da faixa especificada

      Fuga

      SYNTAXFUNÇÃO
      \Tratar o caráter literalmente, não como regex.

      Extração de dados personalizados Regex

      REGEXSAÍDA
      ["'](UA-.*?')["']Extrair o ID de rastreamento do Google Analytics
      ["'](G-.*?)["']Extrair o ID de rastreamento do Google Analytics 4 (GA4)
      ["'](AW-.*?')["']Extrair o ID de conversão e/ou a etiqueta de remarketing do Google Ads
      ["'](GTM-.*?')["']Extrair o Google Tag Manager e/ou Google Optimize ID
      fbq\(["']init["'], ["'](.*?)["']Extrair o Pixel ID do Facebook
      \["["](.*?)["](.*?)["]Extrair a etiqueta Bing Ads UET
      adroll_adv_id = ["'](.*?)["']Extrair o ID do Anunciante AdRoll
      adroll_pix_id = ["'](.*?)["']Extrair o AdRoll Pixel ID

      Extrair todas as marcas e tipos de esquemas

      REGEXSAÍDA
      ["']application/ld\+json["']>(.*?)Extrai todas as marcações do esquema JSON-LD
      ["']@type["']: *["'](.*?)["']Extrai todos os tipos de marcação do esquema JSON-LD em uma página

      Esquema do Extracto de Migalhas de Pão

      REGEXSAÍDA
      ["']item["'']: *\["["']@id["']: *["'](.*?)["']Extrai links de migalhas de pão
      ["']item["'']: *\["["']@id["']: *["'].*?["'], *["']nome["']: *["'](.*?)["']Extrai nomes de migalhas de pão

      Esquema do produto extraído

      REGEXSAÍDA
      ["']@type["']: *["']Product["'].*?["']name["']: *["'](.*?)["']Extrai o nome do produto
      ["']@type["']: *["']Product["'].*?["']description["']: *["'](.*?)["']Extratos descrição do produto
      ["']@type["']: *["']Product["'].*?["']price["']: *["'](.*?)["']Extrai o preço do produto
      ["']@type["']: *["']Product["'].*?["']priceCurrency["']: *["'](.*?)["']Extrai a moeda do produto
      ["']@type["']: *["']Product["'].*?["']availability["']: *["'](.*?)["']Extrai a disponibilidade do produto
      ["']@type["']: *["']Product["'].*?["']sku["']: *["'](.*?)["']Extrai o produto SKU

      Esquema de revisão do extrato

      REGEXSAÍDA
      ["']reviewCount["']: *["'](.*?)["']Contagem dos extratos de revisão
      [valor de classificação["'']: *["'](.*?)["']Valor de classificação dos extratos
      bestRating["']bestRating["']: *["'](.*?)["']Extrai a melhor classificação

      Extrato do esquema local de negócios e organização

      REGEXSAÍDA
      ["']@type["']: *["']Organization["'].*?["']name["']: *["'](.*?)["']Nome da organização dos extratos
      ["']streetAddress["']: *["'](.*?)["']Extrai o endereço de rua
      ["']endereçoLocalidade["']: *["'](.*?)["']Extrai a localidade de endereço
      Região ["'] addressRegion["']: *["'](.*?)["']Extrai o endereço da região
      ["']telefone["']: *["'](.*?)["']Extrai o número de telefone
      ["']sameAs["'']: *\[(.*?)\]Extrai os links "sameAs".

      Extrair Artigo ou BlogEsquema de Postagem

      REGEXSAÍDA
      manchete ["']manchete["']: *["'](.*?)["']Extrai manchete do artigo
      ["']author["'].*?["']name["']: *["'](.*?)["']Extratos de nome de autor
      ["']publisher["'].*?["']name["']: *["'](.*?)["']Extratos nome da editora
      ["']dataPublicado["']: *["'](.*?)["']Data de publicação dos extratos
      ["']dataModificado["']: *["'](.*?)["']Extractos data modificada

      As possibilidades são infinitas; por favor, avise-me se você quiser alguma extrações adicionadas a esta lista.


      Publicado em: 2021-03-10
      Updated on: 2024-04-05

      Avatar para Isaac Adams-Hands

      Isaac Adams-Hands

      Isaac Adams-Hands é o Diretor de SEO da SEO North, uma empresa que presta serviços de Search Engine Optimization. Como profissional de SEO, Isaac tem uma experiência considerável em SEO On-page, SEO Off-page e SEO Técnico, o que lhe dá uma vantagem contra a concorrência.
      pt_BRPortuguese