Extrações personalizadas de rãs gritantes: Um guia para extração de dados de rastejamento

Screaming Frog é uma poderosa ferramenta SEO com muitas características de otimização para mecanismos de busca. Uma das características menos conhecidas, Screaming Frog Custom Extractions, permite que você extraia facilmente dados de suas rastejadas. Este post no blog discutirá como funciona o Screaming Frog Custom Extraction e porque ele pode ajudar a melhorar seus esforços de SEO!

Extração personalizada de sapo gritante

Os websites têm uma tonelada de informações úteis - na maioria das vezes, é muito trabalhoso ou complicado visitar cada página de um website para copiar dados de produtos, metadados, etiquetas de títuloe texto de ancoragem em uma planilha de cálculo. Aqui é onde o Screaming Frog vem em socorro com extrações personalizadas de dados para automatizar o processo. As extrações personalizadas são uma forma de raspagem da webcolheita em rede, ou web extração de dados usado para raspar e extrair dados de websites, permitindo que você os armazene localmente em seu computador.

Para os iniciantes, algumas perguntas que você pode ter:

O que é a Aranha SEO do Sapo Gritante?

O Aranha SEO Rã Gritante O software é um rastreador de website que melhora a SEO no local, extraindo e analisando os dados de seu website usando uma interface gráfica de usuário (GUI).

O que são extrações personalizadas?

As extrações personalizadas são rãs gritantes SEO funções de aranha para extrair informações explícitas de páginas web. Estas extrações ajudam a otimizar seu site para SEO técnicoincluindo os resultados da pesquisa, reunir dados essenciais em sua cópia, e ajudar a localizar e corrigir erros.

Como é feita a extração de dados?

O processo de extração de dados envolve puxar os dados necessários em seu website usando uma aranha de teia de sapo Screaming Frog. A informação é salva dentro de Gritando a memória de Frogdando a você a opção de exportar seus resultados escaneados para Excel ou Google Sheets para revisão posterior.

Por que a extração de dados é fundamental?

A extração de dados permite coletar grandes quantidades de dados de forma rápida e eficiente. Esta automação lhe dá resultados imediatos de arquitetura da web. Este processo lhe economiza tempo e recursos, ao mesmo tempo em que lhe dá os dados valiosos que você precisará para planejar e estrategizar estratégias de otimização para mecanismos de busca.  

Screaming Frog é a ferramenta de raspagem da Web para SEOs. As opções são infinitas; aqui estão uma tonelada de sintaxes personalizadas de raspagem da web.

Como extrair dados personalizados usando o Screaming Frog

1. Em ScreamingFrog, vá para Configuração > Personalizado > Extração.

Extração personalizada de sapo gritante
Extração personalizada de sapo gritante

2. A seguir, você precisará +Add e estabeleça suas regras de extração.

Configurações personalizadas de extração
Selecione elementos de HTML interno usando a aba Extração personalizada

3. Adicione um Título,
4. Selecione se você precisar CSSPath, XPathou Regex,
5. Adicione seu função de busca.

Se você não tiver certeza de qual seletor ou função você precisa, veja os exemplos abaixo ou use a função de elemento de inspeção em Ferramentas Google Chrome Dev. Você pode abrir Dev Tools usando o "clique com o botão direito do mouse" no navegador Google Chrome.

Exemplo:

Aqui está um exemplo de como você rasparia por um Pixel ID do Facebook

Extração de Pixel ID no Facebook
Extração de Pixel ID no Facebook

No Resultados, você pode ver, uma de minhas páginas está faltando um Pixel do Facebook:

Falta o ID do Facebook
Falta o ID do Facebook

Abaixo estão os conjuntos de dados de extração personalizados predefinidos para que você possa começar.

Sintaxe básica para o uso do XPath Web Scraping

SYNTAXFUNÇÃO
//Pesquisar em qualquer lugar dentro do documento
/Busca dentro da raiz do website
@Selecione um atributo específico de um elemento
*Wildcard é usado para selecionar qualquer elemento
[ ]Encontre um elemento específico
.Especifica o elemento atual
..Especifica o elemento pai

XPath funções

XPATHSAÍDA
//h1Extrair todas as etiquetas H1
//h2[1]Extrair a primeira etiqueta H2
//h2[2]Extrair a segunda etiqueta H2
//div/pExtrai qualquer <p> contida em um <div>
//div[@class='autor']Extrai qualquer <div> com a classe "autor".
//p[@class='content']Extrai qualquer <p> com "conteúdo" de classe
//*[@class='content']Extrai qualquer elemento com "conteúdo" de classe
//ul/li[last()]Extrai o último
  • em um
    • //ol[@class='cat']/li[1]Extrai o primeiro
    • em um
        com classe "gato".
    • contagem(//h2)Conta o número de H2's (definir filtro de extração para "Valor da Função")
      //a[contém(.,'saiba mais')]Extrai qualquer link com texto de âncora contendo "saiba mais".
      //a[começa- com(@title,'Written by')]Extrai qualquer link com um título que começa com "Escrito por".

      Como extrair elementos HTML comuns

      XPATHSAÍDA
      //@hrefExtrai todos os links
      //a[começa-com(@href,'mailto')]/@hrefExtrai o link que começa com "mailto:" (endereço de e-mail)
      //a[começa-com(@href,'tel')]/@hrefExtrai o link que começa com "tel:" (número de telefone)
      //img/@srcExtrai todas as URLs de origem das imagens
      //img[contains(@class,'aligncenter')]/@srcExtrai todas as URLs de origem das imagens que contêm o nome da classe "aligncenter".
      //link[@rel='suplente']Extrai elementos com o atributo rel definido para "alternar".
      //@hreflangExtrai todos os valores hreflang

      Extrair Meta Tags (usar elemento HTML interno)

      XPATHSAÍDA
      //meta[@property='article:published_time']/@contentExtrai a data de publicação do artigo (meta tag comumente encontrada nos sites WordPress)

      Extrato de gráfico aberto

      XPATHSAÍDA
      //meta[@property='og:type']/@contentExtrai o objeto do tipo Open Graph
      //meta[@property='og:image']/@contentExtrai a URL da imagem em destaque no gráfico aberto
      //meta[@property='og:update_time']/@contentExtrai o tempo de atualização do gráfico aberto

      Extrair Cartões do Twitter

      XPATHSAÍDA
      //meta[@name='twitter:card']/@contentExtrai o tipo de cartão Twitter
      //meta[@name='twitter:title']/@contentExtrai o título do Twitter Card
      //meta[@name='twitter:site']/@contentExtrai o objeto do site Twitter Card (alça do Twitter)

      Tipos de Esquemas de Extratos

      XPATHSAÍDA
      //*[@itemtype]/@itemtypeExtrai todos os tipos de marcação de esquemas em uma página

      Esquema do Extracto de Migalhas de Pão

      Aqui estão as extrações personalizadas que você usa para verificar migalhas de pão em Sapo gritante.

      XPATHSAÍDA
      //*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop]/a/@hrefExtrai todos os elos de migalhas de pão
      //*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop][1]/a/@hrefExtrai o primeiro elo de migalhas de pão
      //*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop]Extrai nomes de migalhas de pão (definir filtro de extração para "Extrair texto")
      count(//*[contém(@itemtype,'BreadcrumbList')]/*[@itemprop])Conta o número de itens da lista de migalhas de pão (definir filtro de extração como "Valor da Função")

      Esquema do produto extraído

      XPATHSAÍDA
      //*[@itemprop='name']/@contentExtrai o nome do produto
      //*[@itemprop='description']/@contentExtratos descrição do produto
      //*[@itemprop='price']/@contentExtrai o preço do produto
      //*[@itemprop='priceCurrency']/@contentExtrai a moeda do produto
      //*[@itemprop='disponibilidade']/@hrefExtrai a disponibilidade do produto
      //*[@itemprop='sku']/@contenteExtrai o produto SKU

      Esquema de revisão do extrato

      XPATHSAÍDA
      //*[@itemprop='reviewCount']Contagem dos extratos de revisão
      //*[@itemprop='ratingValue']Valor de classificação dos extratos
      //*[@itemprop='bestRating']Extrai a melhor classificação de revisão
      //*[@itemprop='revisão']/*[@itemprop='nome']Nome de revisão dos extratos
      //*[@itemprop='revisão']/*[@itemprop='autor']Autor da revisão dos extratos
      //*[@itemprop='revisão']/*[@itemprop='dataPublished']/@contentExtrai a data de publicação das revisões
      //*[@itemprop='review']/*[@itemprop='reviewBody']Extrai o conteúdo corporal das revisões

      Extrato do esquema local de negócios e organização

      XPATHSAÍDA
      //*[contains(@itemtype,'Organization')]/*[@itemprop='name']Extrai o nome da organização
      //*[@itemprop='address']/*[@itemprop='streetAddress']Extrai o endereço de rua
      //*[@itemprop='endereço']/*[@itemprop='endereçoLocalidade']Extrai a localidade de endereço
      //*[@itemprop='endereço']/*[@itemprop='endereçoRegião']Extrai o endereço da região
      //*[@itemprop='telefone']Extrai o número de telefone
      //*[@itemprop='sameAs']/@hrefExtrai os links "sameAs".

      Extrato do esquema do artigo

      XPATHSAÍDA
      //*[contém(@itemtype,'Artigo')]/*[@itemprop='manchete']Extrai a manchete do artigo
      //*[@itemprop='autor']/*[@itemprop='nome']/@contenteExtratos de nome de autor
      //*[@itemprop='publisher']/*[@itemprop='name']/@contentExtratos nome da editora
      //*[@itemprop='datePublished']/@contentData de publicação dos extratos
      //*[@itemprop='dateModified']/@contentExtractos data modificada

      Extração de dados personalizada com Regex

      Wildcards

      SYNTAXFUNÇÃO
      .Combine qualquer 1 personagem
      *Corresponde ao caráter anterior 0 ou mais vezes
      ?Corresponde ao caráter anterior 0 ou 1 vez
      +Combinar o personagem anterior 1 ou mais vezes
      |OU

      Âncoras

      SYNTAXFUNÇÃO
      ^A corda começa com o caráter de sucesso.
      $O fio termina com o caráter anterior.

      Grupos

      SYNTAXFUNÇÃO
      ( )Combine os caracteres anexos na ordem exata
      [ ]Combine os caracteres anexos em qualquer ordem
      Combine quaisquer caracteres dentro da faixa especificada

      Fuga

      SYNTAXFUNÇÃO
      \Tratar o caráter literalmente, não como regex.

      Extração de dados personalizados Regex

      REGEXSAÍDA
      ["'](UA-.*?')["']Extrair o ID de rastreamento do Google Analytics
      ["'](G-.*?)["']Extrair o ID de rastreamento do Google Analytics 4 (GA4)
      ["'](AW-.*?')["']Extrair o ID de conversão e/ou a etiqueta de remarketing do Google Ads
      ["'](GTM-.*?')["']Extrair o Google Tag Manager e/ou Google Optimize ID
      fbq\(["']init["'], ["'](.*?)["']Extrair o Pixel ID do Facebook
      \["["](.*?)["](.*?)["]Extrair a etiqueta Bing Ads UET
      adroll_adv_id = ["'](.*?)["']Extrair o ID do Anunciante AdRoll
      adroll_pix_id = ["'](.*?)["']Extrair o AdRoll Pixel ID

      Extrair todas as marcas e tipos de esquemas

      REGEXSAÍDA
      ["']application/ld\+json["']>(.*?)Extrai todas as marcações do esquema JSON-LD
      ["']@type["']: *["'](.*?)["']Extrai todos os tipos de marcação do esquema JSON-LD em uma página

      Esquema do Extracto de Migalhas de Pão

      REGEXSAÍDA
      ["']item["'']: *\["["']@id["']: *["'](.*?)["']Extrai links de migalhas de pão
      ["']item["'']: *\["["']@id["']: *["'].*?["'], *["']nome["']: *["'](.*?)["']Extrai nomes de migalhas de pão

      Esquema do produto extraído

      REGEXSAÍDA
      ["']@type["']: *["']Product["'].*?["']name["']: *["'](.*?)["']Extrai o nome do produto
      ["']@type["']: *["']Product["'].*?["']description["']: *["'](.*?)["']Extratos descrição do produto
      ["']@type["']: *["']Product["'].*?["']price["']: *["'](.*?)["']Extrai o preço do produto
      ["']@type["']: *["']Product["'].*?["']priceCurrency["']: *["'](.*?)["']Extrai a moeda do produto
      ["']@type["']: *["']Product["'].*?["']availability["']: *["'](.*?)["']Extrai a disponibilidade do produto
      ["']@type["']: *["']Product["'].*?["']sku["']: *["'](.*?)["']Extrai o produto SKU

      Esquema de revisão do extrato

      REGEXSAÍDA
      ["']reviewCount["']: *["'](.*?)["']Contagem dos extratos de revisão
      [valor de classificação["'']: *["'](.*?)["']Valor de classificação dos extratos
      bestRating["']bestRating["']: *["'](.*?)["']Extrai a melhor classificação

      Extrato do esquema local de negócios e organização

      REGEXSAÍDA
      ["']@type["']: *["']Organization["'].*?["']name["']: *["'](.*?)["']Nome da organização dos extratos
      ["']streetAddress["']: *["'](.*?)["']Extrai o endereço de rua
      ["']endereçoLocalidade["']: *["'](.*?)["']Extrai a localidade de endereço
      Região ["'] addressRegion["']: *["'](.*?)["']Extrai o endereço da região
      ["']telefone["']: *["'](.*?)["']Extrai o número de telefone
      ["']sameAs["'']: *\[(.*?)\]Extrai os links "sameAs".

      Extrair Artigo ou BlogEsquema de Postagem

      REGEXSAÍDA
      manchete ["']manchete["']: *["'](.*?)["']Extrai manchete do artigo
      ["']author["'].*?["']name["']: *["'](.*?)["']Extratos de nome de autor
      ["']publisher["'].*?["']name["']: *["'](.*?)["']Extratos nome da editora
      ["']dataPublicado["']: *["'](.*?)["']Data de publicação dos extratos
      ["']dataModificado["']: *["'](.*?)["']Extractos data modificada

      As possibilidades são infinitas; por favor, avise-me se você quiser alguma extrações adicionadas a esta lista.


      Publicado em: 2021-03-10
      Atualizado em: 2023-02-22

      Avatar para Isaac Adams-Hands

      Isaac Adams-Hands

      Isaac Adams-Hands é o Diretor de SEO da SEO North, uma empresa que presta serviços de Search Engine Optimization. Como profissional de SEO, Isaac tem uma experiência considerável em SEO On-page, SEO Off-page e SEO Técnico, o que lhe dá uma vantagem contra a concorrência.
      pt_BRPortuguese