Extrações personalizadas de rãs gritantes: Um guia para extração de dados de rastejamento

O Screaming Frog (screamingfrog.co.uk) é uma poderosa ferramenta de SEO com muitos recursos de otimização de mecanismos de busca, incluindo extrações personalizadas, que permitem extrair dados de seus rastreamentos com facilidade. Esta postagem do blog discutirá como funciona a extração personalizada do Screaming Frog e por que ela pode ajudar a melhorar seus esforços de SEO, marketing digital de comércio eletrônico e estratégias de indexação.

Extração personalizada de sapo gritante

Os sites têm uma tonelada de informações úteis - na maioria das vezes, é muito trabalhoso ou complicado visitar todas as páginas de um site para copiar dados de produtos, metadados, tags de título e texto âncora em uma planilha. É aqui que o Screaming Frog vem ao resgate com extrações personalizadas de dados de pesquisa, usando APIs e expressões regulares para automatizar o processo. As extrações personalizadas são uma forma de raspagem da Web, coleta da Web ou extração de dados da Web usada para raspar e extrair dados de sites, permitindo que você os armazene localmente em seu computador.

Para os iniciantes, algumas perguntas que você pode ter:

O que é o Aranha SEO Rã Gritante?

O software Screaming Frog SEO Spider é um rastreador de sites que aprimora o SEO no local extraindo e analisando os dados estruturados do seu site usando uma interface gráfica do usuário (GUI), lidando de forma eficaz com conteúdo XML e renderizado em JavaScript.

O que são extrações personalizadas?

As extrações personalizadas são funções de SEO spider do Screaming Frog para extrair informações explícitas de páginas da web. Essas extrações ajudam a otimizar seu site para uma auditoria técnica de SEO, incluindo resultados de pesquisa, coletando dados essenciais sobre sua cópia e ajudando a localizar e corrigir erros em cabeçalhos e outros elementos.

Como é feita a extração de dados?

Use o Screaming Frog se quiser processar a extração de dados, o que envolve extrair os dados necessários de seu site. As informações são salvas na memória do Screaming Frog, o que lhe dá a opção de exportar os resultados digitalizados para o Excel ou o Google Sheets para análise posterior. Isso pode incluir dados de menus suspensos e estruturas de links internos.

Por que a extração de dados é fundamental?

A extração de dados permite que você colete grandes quantidades de dados de forma rápida e eficiente. Essa automação fornece resultados imediatos da arquitetura da Web. Esse processo economiza tempo e recursos e, ao mesmo tempo, fornece os dados valiosos de que você precisa para planejar e criar estratégias de otimização de mecanismos de busca. O Screaming Frog é a ferramenta de raspagem da Web ideal para SEOs e um extrator de dados. As opções são infinitas; há uma tonelada de sintaxes de web-scraping personalizadas. Confira o tutorial abaixo.

Como extrair dados personalizados usando o Screaming Frog

Use o Screaming Frog se quiser processar a extração de dados, o que envolve extrair os dados necessários de seu site. As informações são salvas na memória do Screaming Frog, o que lhe dá a opção de exportar os resultados digitalizados para o Excel ou o Google Sheets para análise posterior. Para necessidades mais avançadas, você pode incorporar expressões regulares para direcionar e extrair com precisão padrões específicos do conteúdo renderizado em HTML ou JavaScript, incluindo nós e snippets.

Ao integrar essas técnicas, você pode otimizar sua estratégia de SEO de forma eficaz, aproveitando o poder de ferramentas como o Screaming Frog e até mesmo utilizando tecnologias de IA como o ChatGPT para obter insights mais profundos.

1. Em ScreamingFrog, vá para Configuração > Personalizado > Extração.

Extração personalizada de sapo gritante
Extração personalizada de sapo gritante

2. A seguir, você precisará +Add e estabeleça suas regras de extração.

Configurações personalizadas de extração
Selecione elementos de HTML interno usando a aba Extração personalizada

3. Adicione um Título,
4. Selecione se você precisar CSSPath, XPath ou Regex,
5. Adicione seu função de busca.

Se você não tiver certeza de qual seletor ou função precisa, veja os exemplos abaixo ou use a função inspecionar elemento em Ferramentas Google Chrome Dev. Você pode abrir o Dev Tools clicando com o botão direito do mouse no navegador Google Chrome.

Exemplo:

Aqui está um exemplo de como você faria raspagem para uma ID de pixel do Facebook

Extração de Pixel ID no Facebook
Extração de Pixel ID no Facebook

No Resultados, você pode ver, uma de minhas páginas está faltando um Pixel do Facebook:

Falta o ID do Facebook
Falta o ID do Facebook

Abaixo estão os conjuntos de dados de extração personalizados predefinidos para que você possa começar.

Sintaxe básica para o uso do XPath Web Scraping

SYNTAXFUNÇÃO
//Pesquisar em qualquer lugar dentro do documento
/Busca dentro da raiz do website
@Selecione um atributo específico de um elemento
*Wildcard é usado para selecionar qualquer elemento
[ ]Encontre um elemento específico
.Especifica o elemento atual
..Especifica o elemento pai

XPath funções

XPATHSAÍDA
//h1Extrair todas as etiquetas H1
//h2[1]Extrair a primeira etiqueta H2
//h2[2]Extrair a segunda etiqueta H2
//div/pExtrai qualquer <p> contida em um <div>
//div[@class='autor']Extrai qualquer <div> com a classe "autor".
//p[@class='content']Extrai qualquer <p> com "conteúdo" de classe
//*[@class='content']Extrai qualquer elemento com "conteúdo" de classe
//ul/li[last()]Extrai o último
  • em um
    • //ol[@class='cat']/li[1]Extrai o primeiro
    • em um
        com classe "gato".
    • contagem(//h2)Conta o número de H2's (definir filtro de extração para "Valor da Função")
      //a[contém(.,'saiba mais')]Extrai qualquer link com texto de âncora contendo "saiba mais".
      //a[começa- com(@title,'Written by')]Extrai qualquer link com um título que começa com "Escrito por".

      Como extrair elementos HTML comuns

      XPATHSAÍDA
      //@hrefExtrai todos os links
      //a[começa-com(@href,'mailto')]/@hrefExtrai o link que começa com "mailto:" (endereço de e-mail)
      //a[começa-com(@href,'tel')]/@hrefExtrai o link que começa com "tel:" (número de telefone)
      //img/@srcExtrai todas as URLs de origem das imagens
      //img[contains(@class,'aligncenter')]/@srcExtrai todas as URLs de origem das imagens que contêm o nome da classe "aligncenter".
      //link[@rel='suplente']Extrai elementos com o atributo rel definido para "alternar".
      //@hreflangExtrai todos os valores hreflang

      Extrair Meta Tags (usar elemento HTML interno)

      XPATHSAÍDA
      //meta[@property='article:published_time']/@contentExtrai a data de publicação do artigo (meta tag comumente encontrada nos sites WordPress)

      Extrato de gráfico aberto

      XPATHSAÍDA
      //meta[@property='og:type']/@contentExtrai o objeto do tipo Open Graph
      //meta[@property='og:image']/@contentExtrai a URL da imagem em destaque no gráfico aberto
      //meta[@property='og:update_time']/@contentExtrai o tempo de atualização do gráfico aberto

      Extrair Cartões do Twitter

      XPATHSAÍDA
      //meta[@name='twitter:card']/@contentExtrai o tipo de cartão Twitter
      //meta[@name='twitter:title']/@contentExtrai o título do Twitter Card
      //meta[@name='twitter:site']/@contentExtrai o objeto do site Twitter Card (alça do Twitter)

      Tipos de Esquemas de Extratos

      XPATHSAÍDA
      //*[@itemtype]/@itemtypeExtrai todos os tipos de marcação de esquemas em uma página

      Esquema do Extracto de Migalhas de Pão

      Aqui estão as extrações personalizadas que você usa para verificar migalhas de pão em Sapo gritante.

      XPATHSAÍDA
      //*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop]/a/@hrefExtrai todos os elos de migalhas de pão
      //*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop][1]/a/@hrefExtrai o primeiro elo de migalhas de pão
      //*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop]Extrai nomes de migalhas de pão (definir filtro de extração para "Extrair texto")
      count(//*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop])Conta o número de itens da lista de migalhas de pão (definir filtro de extração como "Valor da Função")

      Esquema do produto extraído

      XPATHSAÍDA
      //*[@itemprop='name']/@contentExtrai o nome do produto
      //*[@itemprop='description']/@contentExtratos descrição do produto
      //*[@itemprop='price']/@contentExtrai o preço do produto
      //*[@itemprop='priceCurrency']/@contentExtrai a moeda do produto
      //*[@itemprop='disponibilidade']/@hrefExtrai a disponibilidade do produto
      //*[@itemprop='sku']/@contenteExtrai o produto SKU

      Esquema de revisão do extrato

      XPATHSAÍDA
      //*[@itemprop='reviewCount']Contagem dos extratos de revisão
      //*[@itemprop='ratingValue']Valor de classificação dos extratos
      //*[@itemprop='bestRating']Extrai a melhor classificação de revisão
      //*[@itemprop='revisão']/*[@itemprop='nome']Nome de revisão dos extratos
      //*[@itemprop='revisão']/*[@itemprop='autor']Autor da revisão dos extratos
      //*[@itemprop='revisão']/*[@itemprop='dataPublished']/@contentExtrai a data de publicação das revisões
      //*[@itemprop='review']/*[@itemprop='reviewBody']Extrai o conteúdo corporal das revisões

      Extrato do esquema local de negócios e organização

      XPATHSAÍDA
      //*[contains(@itemtype,'Organization')]/*[@itemprop='name']Extrai o nome da organização
      //*[@itemprop='address']/*[@itemprop='streetAddress']Extrai o endereço de rua
      //*[@itemprop='endereço']/*[@itemprop='endereçoLocalidade']Extrai a localidade de endereço
      //*[@itemprop='endereço']/*[@itemprop='endereçoRegião']Extrai o endereço da região
      //*[@itemprop='telefone']Extrai o número de telefone
      //*[@itemprop='sameAs']/@hrefExtrai os links "sameAs".

      Extrato do esquema do artigo

      XPATHSAÍDA
      //*[contém(@itemtype,'Artigo')]/*[@itemprop='manchete']Extrai a manchete do artigo
      //*[@itemprop='autor']/*[@itemprop='nome']/@contenteExtratos de nome de autor
      //*[@itemprop='publisher']/*[@itemprop='name']/@contentExtratos nome da editora
      //*[@itemprop='datePublished']/@contentData de publicação dos extratos
      //*[@itemprop='dateModified']/@contentExtractos data modificada

      Extração de dados personalizada com Regex

      Wildcards

      SYNTAXFUNÇÃO
      .Combine qualquer 1 personagem
      *Corresponde ao caráter anterior 0 ou mais vezes
      ?Corresponde ao caráter anterior 0 ou 1 vez
      +Combinar o personagem anterior 1 ou mais vezes
      |OU

      Âncoras

      SYNTAXFUNÇÃO
      ^A corda começa com o caráter de sucesso.
      $O fio termina com o caráter anterior.

      Grupos

      SYNTAXFUNÇÃO
      ( )Combine os caracteres anexos na ordem exata
      [ ]Combine os caracteres anexos em qualquer ordem
      Combine quaisquer caracteres dentro da faixa especificada

      Fuga

      SYNTAXFUNÇÃO
      \Tratar o caráter literalmente, não como regex.

      Extração de dados personalizados Regex

      REGEXSAÍDA
      ["'](UA-.*?')["']Extrair o ID de rastreamento do Google Analytics
      ["'](G-.*?)["']Extrair o ID de rastreamento do Google Analytics 4 (GA4)
      ["'](AW-.*?')["']Extrair o ID de conversão e/ou a etiqueta de remarketing do Google Ads
      ["'](GTM-.*?')["']Extrair o Google Tag Manager e/ou Google Optimize ID
      fbq\(["']init["'], ["'](.*?)["']Extrair o Pixel ID do Facebook
      \["["](.*?)["](.*?)["]Extrair a etiqueta Bing Ads UET
      adroll_adv_id = ["'](.*?)["']Extrair o ID do Anunciante AdRoll
      adroll_pix_id = ["'](.*?)["']Extrair o AdRoll Pixel ID

      Extrair todas as marcas e tipos de esquemas

      REGEXSAÍDA
      ["']application/ld\+json["']>(.*?)Extrai todas as marcações do esquema JSON-LD
      ["']@type["']: *["'](.*?)["']Extrai todos os tipos de marcação do esquema JSON-LD em uma página

      Esquema do Extracto de Migalhas de Pão

      REGEXSAÍDA
      ["']item["'']: *\["["']@id["']: *["'](.*?)["']Extrai links de migalhas de pão
      ["']item["'']: *\["["']@id["']: *["'].*?["'], *["']nome["']: *["'](.*?)["']Extrai nomes de migalhas de pão

      Esquema do produto extraído

      REGEXSAÍDA
      ["']@type["']: *["']Product["'].*?["']name["']: *["'](.*?)["']Extrai o nome do produto
      ["']@type["']: *["']Product["'].*?["']description["']: *["'](.*?)["']Extratos descrição do produto
      ["']@type["']: *["']Product["'].*?["']price["']: *["'](.*?)["']Extrai o preço do produto
      ["']@type["']: *["']Product["'].*?["']priceCurrency["']: *["'](.*?)["']Extrai a moeda do produto
      ["']@type["']: *["']Product["'].*?["']availability["']: *["'](.*?)["']Extrai a disponibilidade do produto
      ["']@type["']: *["']Product["'].*?["']sku["']: *["'](.*?)["']Extrai o produto SKU

      Esquema de revisão do extrato

      REGEXSAÍDA
      ["']reviewCount["']: *["'](.*?)["']Contagem dos extratos de revisão
      [valor de classificação["'']: *["'](.*?)["']Valor de classificação dos extratos
      bestRating["']bestRating["']: *["'](.*?)["']Extrai a melhor classificação

      Extrato do esquema local de negócios e organização

      REGEXSAÍDA
      ["']@type["']: *["']Organization["'].*?["']name["']: *["'](.*?)["']Nome da organização dos extratos
      ["']streetAddress["']: *["'](.*?)["']Extrai o endereço de rua
      ["']endereçoLocalidade["']: *["'](.*?)["']Extrai a localidade de endereço
      Região ["'] addressRegion["']: *["'](.*?)["']Extrai o endereço da região
      ["']telefone["']: *["'](.*?)["']Extrai o número de telefone
      ["']sameAs["'']: *\[(.*?)\]Extrai os links "sameAs".

      Extrair Artigo ou BlogEsquema de Postagem

      REGEXSAÍDA
      manchete ["']manchete["']: *["'](.*?)["']Extrai manchete do artigo
      ["']author["'].*?["']name["']: *["'](.*?)["']Extratos de nome de autor
      ["']publisher["'].*?["']name["']: *["'](.*?)["']Extratos nome da editora
      ["']dataPublicado["']: *["'](.*?)["']Data de publicação dos extratos
      ["']dataModificado["']: *["'](.*?)["']Extractos data modificada

      As possibilidades são infinitas; por favor, avise-me se você quiser alguma extrações adicionadas a esta lista.


      Publicado em: 2021-03-10
      Atualizado em: 2024-07-18

      Avatar para Isaac Adams-Hands

      Isaac Adams-Hands

      Isaac Adams-Hands é o Diretor de SEO da SEO North, uma empresa que presta serviços de Search Engine Optimization. Como profissional de SEO, Isaac tem uma experiência considerável em SEO On-page, SEO Off-page e SEO Técnico, o que lhe dá uma vantagem contra a concorrência.
      pt_BRPortuguese