Screaming Frog Custom Extractions : Un guide pour l'extraction des données de crawl

Screaming Frog (screamingfrog.co.uk) is a powerful SEO tool with many search engine optimization features. One of the lesser-known features, Screaming Frog Custom Extractions, allows you to easily extract data from your crawls. This blog post will discuss how Screaming Frog Custom Extraction works and why it can help improve your SEO efforts and e-commerce digital marketing SEO strategies!

Extraction personnalisée Screaming Frog

Websites have a ton of helpful information—most times, it’s too laborious or complicated to visit every page on a website to copy product data, métadonnées, balises de titreet texte d'ancrage into a spreadsheet. Here is where Screaming Frog comes to the rescue with custom search data extractions to automate the process. Custom extractions are a form of scraping web, la collecte de données sur le web, ou le web extraction de données utilisé pour récupérer et extraire des données de sites web, ce qui vous permet de les stocker localement sur votre ordinateur.

Pour les débutants, quelques questions que vous pourriez vous poser :

Quel est le Screaming Frog SEO Spider?

Le site Screaming Frog SEO Spider software is a website crawler that improves onsite SEO by extracting and analyzing your website’s structured data using a graphical user interface (GUI).

What are custom extractions?

Les extractions sur mesure sont des grenouilles de bénitier SEO pour extraire des informations explicites des pages web. Ces extractions permettent d'optimiser votre site pour Référencement technique audit, including search results, gather essential data on your copy, and help locate and fix errors.

Comment se fait l'extraction des données ?

Use Screaming Frog if you want to process data extraction, which involves pulling the required data from your website. The information is saved within Screaming Frog’s memoryVous avez la possibilité d'exporter les résultats de vos numérisations vers les sites suivants Excel ou Google Sheets pour un examen plus approfondi.

Pourquoi l'extraction de données est-elle essentielle ?

L'extraction de données vous permet de récolter rapidement et efficacement de grandes quantités de données. Cette automatisation vous donne des résultats immédiats de architecture web. This process saves you time and resources while giving you the valuable data you’ll need to plan and strategize search engine optimization strategies.  Screaming Frog is the go-to Web Scraper Tool for SEOs and a data extractor. The options are endless; here are a ton of custom web-scraping syntaxes. Check the tutorial below.

Comment extraire des données personnalisées avec Screaming Frog ?

1. Dans ScreamingFrog, allez dans Configuration > Personnalisée > Extraction.

Extraction personnalisée Screaming Frog
Extraction personnalisée Screaming Frog

2. Ensuite, vous devrez +Ajouter et configurez vos règles d'extraction.

Paramètres d'extraction personnalisés
Sélectionner des éléments du HTML interne à l'aide de l'onglet Extraction personnalisée

3. Ajoutez un Titre,
4. Sélectionnez si vous avez besoin de CSSPath, XPath ou Regex,
5. Ajoutez votre fonction de recherche.

If you aren’t sure which selector or function you need, look at the examples below or use the inspect element function in Outils de développement Google Chrome. You can open Dev Tools by using “right-click” in the Google Chrome browser.

Exemple :

Here is an example of how you would scrape for a Facebook Pixel ID

Extraction de l'ID du pixel Facebook
Extraction de l'ID du pixel Facebook

Dans le RésultatsComme vous pouvez le constater, il manque un pixel Facebook sur l'une de mes pages :

Identifiant Facebook manquant
Identifiant Facebook manquant

Vous trouverez ci-dessous des ensembles de données d'extraction personnalisés prédéfinis pour vous aider à démarrer.

Syntaxe de base pour l'utilisation de XPath Web Scraping

SYNTAXFONCTION
//Rechercher n'importe où dans le document
/Cherchez dans la racine de la site web
@Sélectionner un attribut spécifique d'un élément
*Le caractère générique est utilisé pour sélectionner n'importe quel élément
[ ]Trouver un élément spécifique
.Spécifie l'élément courant
..Spécifie l'élément parent

XPath fonctions

XPATHSORTIE
//h1Extraire toutes les balises H1
//h2[1]Extraire la première balise H2
//h2[2]Extraire la deuxième balise H2
//div/pExtrait tout <p> contenu dans un <div>
//div[@class='auteur']Extrait tout <div> avec la classe "auteur".
//p[@class='content']Extrait tout <p> avec la classe " contenu ".
//* [@class='content']Extrait tout élément avec la classe "content".
//ul/li[last()]Extrait le dernier
  • d'un
      .
  • //ol[@class='cat']/li[1]Extrait le premier
  • dans un
      avec la classe "cat".
  • compte(//h2)Compte le nombre de H2 (définir le filtre d'extraction sur "Valeur de la fonction").
    //a[contient(., 'en savoir plus')]Extraire tout lien dont le texte d'ancrage contient "en savoir plus".
    //a[starts-with(@title, 'Written by')]Extrait tout lien dont le titre commence par "Écrit par".

    Comment extraire les éléments HTML courants

    XPATHSORTIE
    //@hrefExtraction de tous les liens
    //a[starts-with(@href, 'mailto')]/@hrefExtrait le lien qui commence par "mailto :" (adresse électronique)
    //a[starts-with(@href, 'tel')]/@hrefExtrait le lien qui commence par "tel :" (numéro de téléphone)
    //img/@srcExtraction de toutes les URL des sources d'images
    //img[contient(@class, 'aligncenter')]/@srcExtrait toutes les URLs des sources d'images contenant le nom de classe "aligncenter".
    //lien[@rel='alternate']Extrait les éléments dont l'attribut rel est défini sur "alternate".
    //@hreflangExtraction de toutes les valeurs hreflang

    Extraire les métabalises (utiliser l'élément HTML interne)

    XPATHSORTIE
    //meta[@property='article:published_time']/@contentExtraction de la date de publication de l'article (balise méta fréquemment trouvée sur les sites Web WordPress).

    Extrait de l'Open Graph

    XPATHSORTIE
    //meta[@property='og:type']/@contentExtrait l'objet de type Open Graph
    //meta[@property='og:image']/@contentExtraction de l'URL de l'image vedette Open Graph
    //meta[@property='og:updated_time']/@contentExtraction de l'heure de mise à jour de l'Open Graph

    Extraire des cartes Twitter

    XPATHSORTIE
    //meta[@name='twitter:card']/@contentExtrait le type de carte Twitter
    //meta[@name='twitter:title']/@contentExtrait le titre de la carte Twitter
    //meta[@name='twitter:site']/@contentExtrait l'objet du site de la carte Twitter (poignée Twitter)

    Extraire les types de schémas

    XPATHSORTIE
    //*[@itemtype]/@itemtypeExtraction de tous les types de balisage de schéma sur une page

    Extraire le schéma du fil d'Ariane

    Voici les extractions personnalisées que vous utilisez pour vérifier les breadcrumbs en Grenouille hurlante.

    XPATHSORTIE
    //*[contient(@itemtype, 'BreadcrumbList')]/*[@itemprop]/a/@hrefExtraire tous les liens du fil d'Ariane
    //*[contains(@itemtype, 'BreadcrumbList')]/*[@itemprop][1]/a/@hrefExtrait le premier lien du fil d'Ariane
    //*[contient(@itemtype, 'BreadcrumbList')]/*[@itemprop]Extraire les noms des fils d'Ariane (définir le filtre d'extraction à "Extraire le texte")
    count(//*[contains(@itemtype, 'BreadcrumbList')]/*[@itemprop])Compte le nombre d'éléments de la liste de fil d'Ariane (définir le filtre d'extraction à "Valeur de la fonction")

    Extraire le schéma du produit

    XPATHSORTIE
    //*[@itemprop='nom']/@contentExtrait le nom du produit
    //*[@itemprop='description']/@contentExtrait la description du produit
    //*[@itemprop='prix']/@contentExtrait le prix du produit
    //*[@itemprop='priceCurrency']/@contentExtraction de la devise du produit
    //*[@itemprop='disponibilité']/@hrefExtrait la disponibilité des produits
    //*[@itemprop='sku']/@contentExtraits du produit SKU

    Extrait du schéma de révision

    XPATHSORTIE
    //* [@itemprop='reviewCount']Extraction du nombre de révisions
    //* [@itemprop='ratingValue']Extrait la valeur de la notation
    //* [@itemprop='bestRating']Extraction de la meilleure note d'évaluation
    //*[@itemprop='review']/*[@itemprop='name']Extrait le nom de la revue
    //*[@itemprop='review']/*[@itemprop='author']Auteur de la revue Extraits
    //*[@itemprop='review']/*[@itemprop='datePublished']/@contentExtrait la date de publication des revues
    //*[@itemprop='review']/*[@itemprop='reviewBody']Extraire le contenu du corps des commentaires

    Extraire le schéma des entreprises et organisations locales

    XPATHSORTIE
    //*[contains(@itemtype, 'Organization')]/*[@itemprop='name']Extrait le nom de l'organisation
    //*[@itemprop='adresse']/*[@itemprop='streetAddress']Extrait l'adresse de la rue
    //*[@itemprop='address']/*[@itemprop='addressLocality']Extrait la localité de l'adresse
    //*[@itemprop='address']/*[@itemprop='addressRegion']Extrait la région d'adresse
    //* [@itemprop='telephone']Extrait le numéro de téléphone
    //*[@itemprop='sameAs']/@hrefExtraction des liens "sameAs".

    Extraire le schéma de l'article

    XPATHSORTIE
    //*[contains(@itemtype, 'Article')]/*[@itemprop='headline']Extrait le titre de l'article
    //*[@itemprop='auteur']/*[@itemprop='nom']/@contentExtrait le nom de l'auteur
    //*[@itemprop='publisher']/*[@itemprop='name']/@contentExtrait le nom de l'éditeur
    //*[@itemprop='datePublished']/@contentExtraits de la date de publication
    //*[@itemprop='dateModified']/@contentExtrait la date de modification

    Extraction de données personnalisées avec Regex

    Wildcards

    SYNTAXFONCTION
    .Correspond à un caractère quelconque
    *Faire correspondre le caractère précédent 0 fois ou plus
    ?Faire correspondre le caractère précédent 0 ou 1 fois
    +Faire correspondre le caractère précédent 1 ou plusieurs fois
    |OU

    Ancres

    SYNTAXFONCTION
    ^La chaîne de caractères commence par le caractère suivant.
    $La chaîne de caractères se termine par le caractère précédent.

    Groupes

    SYNTAXFONCTION
    ( )Faire correspondre les caractères joints dans l'ordre exact
    [ ]Faire correspondre les caractères joints dans n'importe quel ordre
    -Correspond à tous les caractères dans la plage spécifiée

    Escape

    SYNTAXFONCTION
    \Traite le caractère littéralement, pas comme une regex.

    Extraction de données personnalisée Regex

    REGEXSORTIE
    ["'](UA-.* ?)["']Extraire l'ID de suivi de Google Analytics
    ["'](G-.* ?)["']Extraire l'ID de suivi de Google Analytics 4 (GA4)
    ["' "](AW-.* ?) ["' "]Extraire l'ID de conversion Google Ads et/ou le tag de remarketing
    ["'](GTM-.* ?)["']Extraire l'ID de Google Tag Manager et/ou de Google Optimize
    fbq\(["']init["'], ["'](.*?)["']Extraire l'ID du pixel Facebook
    \{ti :["'](.* ?)["']\}Extraire la balise UET de Bing Ads
    adroll_adv_id = ["'](.* ?) ["']Extraire l'ID de l'annonceur AdRoll
    adroll_pix_id = ["'](.* ?) ["']Extraire l'ID du pixel AdRoll

    Extraire tout le balisage de schéma et les types de schéma

    REGEXSORTIE
    ["']application/ld\+json["']>(.* ?)Extraction de toutes les balises du schéma JSON-LD.
    ["']@type["'] : *["'](.* ?)["']Extrait tous les types de balises de schéma JSON-LD d'une page.

    Extraire le schéma du fil d'Ariane

    REGEXSORTIE
    ["']item["'] : *["']@id["'] : *["'](.* ?)["']Extraction des liens du fil d'Ariane
    ["']item["'] : *["']@id["'] : *["'].* ?["'], *["']nom["'] : *["'](.* ?)["']Extraction des noms de fil d'Ariane

    Extraire le schéma du produit

    REGEXSORTIE
    ["']@type["'] : *["']Product["'].*?["']name["']: *["'](.* ?)["']Extrait le nom du produit
    ["']@type["'] : *["']Product["'].*?["']description["']: *["'](.* ?)["']Extrait la description du produit
    ["']@type["'] : *["']Product["'].*?["']price["']: *["'](.* ?)["']Extrait le prix du produit
    ["']@type["'] : *["']Product["'].*?["']priceCurrency["']: *["'](.* ?)["']Extraction de la devise du produit
    ["']@type["'] : *["']Product["'].*?["']availability["']: *["'](.* ?)["']Extrait la disponibilité des produits
    ["']@type["'] : *["']Product["'].*?["']sku["']: *["'](.* ?)["']Extraits du produit SKU

    Extrait du schéma de révision

    REGEXSORTIE
    ["']reviewCount["'] : *["'](.* ?)["']Extraction du nombre de révisions
    ["']ratingValue["'] : *["'](.* ?)["']Extrait la valeur de la notation
    ["']bestRating["'] : *["'](.* ?)["']Extraire la meilleure note

    Extraire le schéma des entreprises et organisations locales

    REGEXSORTIE
    ["']@type["'] : *["']Organization["'].*?["']name["']: *["'](.* ?)["']Extrait le nom de l'organisation
    ["']streetAddress["'] : *["'](.* ?)["']Extrait l'adresse de la rue
    ["']addressLocality["'] : *["'](.* ?)["']Extrait la localité de l'adresse
    ["']addressRegion["'] : *["'](.* ?)["']Extrait la région d'adresse
    ["']téléphone["'] : *["'](.* ?)["']Extrait le numéro de téléphone
    ["']sameAs["'] : *\[(.* ?)\]Extraction des liens "sameAs".

    Extraire le schéma d'un article ou d'un billet de blog

    REGEXSORTIE
    ["']headline["'] : *["'](.* ?)["']Extrait du titre de l'article
    ["']author["'].*?["']name["']: *["'](.* ?)["']Extrait le nom de l'auteur
    ["']publisher["'].*?["']name["']: *["'](.* ?)["']Extrait le nom de l'éditeur
    ["']datePublished["'] : *["'](.* ?)["']Extraits de la date de publication
    ["']dateModified["'] : *["'](.* ?)["']Extrait la date de modification

    Les possibilités sont infinies ; n'hésitez pas à me faire savoir si vous souhaitez que des extractions soient ajoutées à cette liste.


    Publié le : 2021-03-10
    Updated on: 2024-04-05

    Avatar pour Isaac Adams-Hands

    Isaac Adams-Hands

    Isaac Adams-Hands est le directeur du référencement chez SEO North, une entreprise qui fournit des services d'optimisation des moteurs de recherche. En tant que professionnel du référencement, Isaac possède une expertise considérable en matière de référencement sur page, de référencement hors page et de référencement technique, ce qui lui donne une longueur d'avance sur la concurrence.
    fr_FRFrench