Screaming Frog Custom Extractions : Un guide pour l'extraction des données de crawl

Screaming Frog (screamingfrog.co.uk) est un outil de référencement puissant qui offre de nombreuses fonctionnalités d'optimisation pour les moteurs de recherche, notamment les extractions personnalisées, qui vous permettent d'extraire facilement des données de vos crawls. Cet article de blog explique comment fonctionne l'extraction personnalisée de Screaming Frog et pourquoi elle peut vous aider à améliorer vos efforts de référencement, votre marketing numérique de commerce électronique et vos stratégies d'indexation.

Extraction personnalisée Screaming Frog

Les sites Web contiennent une tonne d'informations utiles. La plupart du temps, il est trop laborieux ou compliqué de visiter chaque page d'un site Web pour copier les données produit, les métadonnées, les balises de titre et le texte d'ancrage dans une feuille de calcul. C'est là que Screaming Frog vient à la rescousse avec des extractions de données de recherche personnalisées, en utilisant des API et des expressions régulières pour automatiser le processus. Les extractions personnalisées sont une forme de web scraping, de web harvesting ou d'extraction de données web utilisée pour récupérer et extraire des données de sites web, ce qui vous permet de les stocker localement sur votre ordinateur.

Pour les débutants, quelques questions que vous pourriez vous poser :

Quel est le Screaming Frog SEO Spider?

Le logiciel Screaming Frog SEO Spider est un robot d'exploration de sites web qui améliore le référencement sur site en extrayant et en analysant les données structurées de votre site web à l'aide d'une interface utilisateur graphique (GUI), en gérant efficacement les contenus XML et JavaScript.

Quels sont les extractions sur mesure?

Les extractions personnalisées sont des fonctions de l'araignée SEO de Screaming Frog qui permettent d'extraire des informations explicites des pages Web. Ces extractions aident à optimiser votre site pour un audit SEO technique, y compris les résultats de recherche, en recueillant des données essentielles sur votre copie, et en aidant à localiser et à corriger les erreurs dans les en-têtes et d'autres éléments.

Comment se fait l'extraction des données ?

Utilisez Screaming Frog si vous souhaitez procéder à l'extraction de données, qui consiste à extraire les données requises de votre site web. Les informations sont enregistrées dans la mémoire de Screaming Frog, ce qui vous permet d'exporter les résultats de l'analyse vers Excel ou Google Sheets pour un examen plus approfondi. Il peut s'agir de données provenant de menus déroulants et de structures de liens internes.

Pourquoi l'extraction de données est-elle essentielle ?

L'extraction de données vous permet de récolter de grandes quantités de données rapidement et efficacement. Cette automatisation vous donne des résultats immédiats sur l'architecture web. Ce processus vous permet d'économiser du temps et des ressources tout en vous fournissant les données précieuses dont vous avez besoin pour planifier et élaborer des stratégies d'optimisation pour les moteurs de recherche. Screaming Frog est l'outil de scraper Web le plus utilisé par les référenceurs et un extracteur de données. Les options sont infinies ; il y a une tonne de syntaxes de web-scraping personnalisées. Consultez le tutoriel ci-dessous.

Comment extraire des données personnalisées avec Screaming Frog ?

Utilisez Screaming Frog si vous souhaitez procéder à l'extraction de données, qui consiste à extraire les données requises de votre site web. Les informations sont enregistrées dans la mémoire de Screaming Frog, ce qui vous permet d'exporter les résultats de l'analyse vers Excel ou Google Sheets pour un examen plus approfondi. Pour des besoins plus avancés, vous pouvez incorporer des expressions régulières afin de cibler et d'extraire avec précision des modèles spécifiques à partir de votre contenu HTML ou JavaScript, y compris les nœuds et les snippets.

En intégrant ces techniques, vous pouvez optimiser votre stratégie de référencement de manière efficace, en tirant parti de la puissance d'outils tels que Screaming Frog et même en utilisant des technologies d'IA telles que ChatGPT pour obtenir des informations plus approfondies.

1. Dans ScreamingFrog, allez dans Configuration > Personnalisée > Extraction.

Extraction personnalisée Screaming Frog
Extraction personnalisée Screaming Frog

2. Ensuite, vous devrez +Ajouter et configurez vos règles d'extraction.

Paramètres d'extraction personnalisés
Sélectionner des éléments du HTML interne à l'aide de l'onglet Extraction personnalisée

3. Ajoutez un Titre,
4. Sélectionnez si vous avez besoin de CSSPath, XPath ou Regex,
5. Ajoutez votre fonction de recherche.

Si vous n'êtes pas sûr du sélecteur ou de la fonction dont vous avez besoin, regardez les exemples ci-dessous ou utilisez la fonction inspecter l'élément dans la rubrique Outils de développement Google Chrome. Vous pouvez ouvrir les outils de développement en cliquant avec le bouton droit de la souris dans le navigateur Google Chrome.

Exemple :

Voici un exemple de la façon de procéder gratter pour un identifiant de pixel Facebook

Extraction de l'ID du pixel Facebook
Extraction de l'ID du pixel Facebook

Dans le RésultatsComme vous pouvez le constater, il manque un pixel Facebook sur l'une de mes pages :

Identifiant Facebook manquant
Identifiant Facebook manquant

Vous trouverez ci-dessous des ensembles de données d'extraction personnalisés prédéfinis pour vous aider à démarrer.

Syntaxe de base pour l'utilisation de XPath Web Scraping

SYNTAXFONCTION
//Rechercher n'importe où dans le document
/Cherchez dans la racine de la site web
@Sélectionner un attribut spécifique d'un élément
*Le caractère générique est utilisé pour sélectionner n'importe quel élément
[ ]Trouver un élément spécifique
.Spécifie l'élément courant
..Spécifie l'élément parent

XPath fonctions

XPATHSORTIE
//h1Extraire toutes les balises H1
//h2[1]Extraire la première balise H2
//h2[2]Extraire la deuxième balise H2
//div/pExtrait tout <p> contenu dans un <div>
//div[@class='auteur']Extrait tout <div> avec la classe "auteur".
//p[@class='content']Extrait tout <p> avec la classe " contenu ".
//* [@class='content']Extrait tout élément avec la classe "content".
//ul/li[last()]Extrait le dernier
  • d'un
      .
  • //ol[@class='cat']/li[1]Extrait le premier
  • dans un
      avec la classe "cat".
  • compte(//h2)Compte le nombre de H2 (définir le filtre d'extraction sur "Valeur de la fonction").
    //a[contient(., 'en savoir plus')]Extraire tout lien dont le texte d'ancrage contient "en savoir plus".
    //a[starts-with(@title, 'Written by')]Extrait tout lien dont le titre commence par "Écrit par".

    Comment extraire les éléments HTML courants

    XPATHSORTIE
    //@hrefExtraction de tous les liens
    //a[starts-with(@href, 'mailto')]/@hrefExtrait le lien qui commence par "mailto :" (adresse électronique)
    //a[starts-with(@href, 'tel')]/@hrefExtrait le lien qui commence par "tel :" (numéro de téléphone)
    //img/@srcExtraction de toutes les URL des sources d'images
    //img[contient(@class, 'aligncenter')]/@srcExtrait toutes les URLs des sources d'images contenant le nom de classe "aligncenter".
    //lien[@rel='alternate']Extrait les éléments dont l'attribut rel est défini sur "alternate".
    //@hreflangExtraction de toutes les valeurs hreflang

    Extraire les métabalises (utiliser l'élément HTML interne)

    XPATHSORTIE
    //meta[@property='article:published_time']/@contentExtraction de la date de publication de l'article (balise méta fréquemment trouvée sur les sites Web WordPress).

    Extrait de l'Open Graph

    XPATHSORTIE
    //meta[@property='og:type']/@contentExtrait l'objet de type Open Graph
    //meta[@property='og:image']/@contentExtraction de l'URL de l'image vedette Open Graph
    //meta[@property='og:updated_time']/@contentExtraction de l'heure de mise à jour de l'Open Graph

    Extraire des cartes Twitter

    XPATHSORTIE
    //meta[@name='twitter:card']/@contentExtrait le type de carte Twitter
    //meta[@name='twitter:title']/@contentExtrait le titre de la carte Twitter
    //meta[@name='twitter:site']/@contentExtrait l'objet du site de la carte Twitter (poignée Twitter)

    Extraire les types de schémas

    XPATHSORTIE
    //*[@itemtype]/@itemtypeExtraction de tous les types de balisage de schéma sur une page

    Extraire le schéma du fil d'Ariane

    Voici les extractions personnalisées que vous utilisez pour vérifier les breadcrumbs en Grenouille hurlante.

    XPATHSORTIE
    //*[contient(@itemtype, 'BreadcrumbList')]/*[@itemprop]/a/@hrefExtraire tous les liens du fil d'Ariane
    //*[contains(@itemtype, 'BreadcrumbList')]/*[@itemprop][1]/a/@hrefExtrait le premier lien du fil d'Ariane
    //*[contient(@itemtype, 'BreadcrumbList')]/*[@itemprop]Extraire les noms des fils d'Ariane (définir le filtre d'extraction à "Extraire le texte")
    count(//*[contains(@itemtype, 'BreadcrumbList')]/*[@itemprop])Compte le nombre d'éléments de la liste de fil d'Ariane (définir le filtre d'extraction à "Valeur de la fonction")

    Extraire le schéma du produit

    XPATHSORTIE
    //*[@itemprop='nom']/@contentExtrait le nom du produit
    //*[@itemprop='description']/@contentExtrait la description du produit
    //*[@itemprop='prix']/@contentExtrait le prix du produit
    //*[@itemprop='priceCurrency']/@contentExtraction de la devise du produit
    //*[@itemprop='disponibilité']/@hrefExtrait la disponibilité des produits
    //*[@itemprop='sku']/@contentExtraits du produit SKU

    Extrait du schéma de révision

    XPATHSORTIE
    //* [@itemprop='reviewCount']Extraction du nombre de révisions
    //* [@itemprop='ratingValue']Extrait la valeur de la notation
    //* [@itemprop='bestRating']Extraction de la meilleure note d'évaluation
    //*[@itemprop='review']/*[@itemprop='name']Extrait le nom de la revue
    //*[@itemprop='review']/*[@itemprop='author']Auteur de la revue Extraits
    //*[@itemprop='review']/*[@itemprop='datePublished']/@contentExtrait la date de publication des revues
    //*[@itemprop='review']/*[@itemprop='reviewBody']Extraire le contenu du corps des commentaires

    Extraire le schéma des entreprises et organisations locales

    XPATHSORTIE
    //*[contains(@itemtype, 'Organization')]/*[@itemprop='name']Extrait le nom de l'organisation
    //*[@itemprop='adresse']/*[@itemprop='streetAddress']Extrait l'adresse de la rue
    //*[@itemprop='address']/*[@itemprop='addressLocality']Extrait la localité de l'adresse
    //*[@itemprop='address']/*[@itemprop='addressRegion']Extrait la région d'adresse
    //* [@itemprop='telephone']Extrait le numéro de téléphone
    //*[@itemprop='sameAs']/@hrefExtraction des liens "sameAs".

    Extraire le schéma de l'article

    XPATHSORTIE
    //*[contains(@itemtype, 'Article')]/*[@itemprop='headline']Extrait le titre de l'article
    //*[@itemprop='auteur']/*[@itemprop='nom']/@contentExtrait le nom de l'auteur
    //*[@itemprop='publisher']/*[@itemprop='name']/@contentExtrait le nom de l'éditeur
    //*[@itemprop='datePublished']/@contentExtraits de la date de publication
    //*[@itemprop='dateModified']/@contentExtrait la date de modification

    Extraction de données personnalisées avec Regex

    Wildcards

    SYNTAXFONCTION
    .Correspond à un caractère quelconque
    *Faire correspondre le caractère précédent 0 fois ou plus
    ?Faire correspondre le caractère précédent 0 ou 1 fois
    +Faire correspondre le caractère précédent 1 ou plusieurs fois
    |OU

    Ancres

    SYNTAXFONCTION
    ^La chaîne de caractères commence par le caractère suivant.
    $La chaîne de caractères se termine par le caractère précédent.

    Groupes

    SYNTAXFONCTION
    ( )Faire correspondre les caractères joints dans l'ordre exact
    [ ]Faire correspondre les caractères joints dans n'importe quel ordre
    -Correspond à tous les caractères dans la plage spécifiée

    Escape

    SYNTAXFONCTION
    \Traite le caractère littéralement, pas comme une regex.

    Extraction de données personnalisée Regex

    REGEXSORTIE
    ["'](UA-.* ?)["']Extraire l'ID de suivi de Google Analytics
    ["'](G-.* ?)["']Extraire l'ID de suivi de Google Analytics 4 (GA4)
    ["' "](AW-.* ?) ["' "]Extraire l'ID de conversion Google Ads et/ou le tag de remarketing
    ["'](GTM-.* ?)["']Extraire l'ID de Google Tag Manager et/ou de Google Optimize
    fbq\(["']init["'], ["'](.*?)["']Extraire l'ID du pixel Facebook
    \{ti :["'](.* ?)["']\}Extraire la balise UET de Bing Ads
    adroll_adv_id = ["'](.* ?) ["']Extraire l'ID de l'annonceur AdRoll
    adroll_pix_id = ["'](.* ?) ["']Extraire l'ID du pixel AdRoll

    Extraire tout le balisage de schéma et les types de schéma

    REGEXSORTIE
    ["']application/ld\+json["']>(.* ?)Extraction de toutes les balises du schéma JSON-LD.
    ["']@type["'] : *["'](.* ?)["']Extrait tous les types de balises de schéma JSON-LD d'une page.

    Extraire le schéma du fil d'Ariane

    REGEXSORTIE
    ["']item["'] : *["']@id["'] : *["'](.* ?)["']Extraction des liens du fil d'Ariane
    ["']item["'] : *["']@id["'] : *["'].* ?["'], *["']nom["'] : *["'](.* ?)["']Extraction des noms de fil d'Ariane

    Extraire le schéma du produit

    REGEXSORTIE
    ["']@type["'] : *["']Product["'].*?["']name["']: *["'](.* ?)["']Extrait le nom du produit
    ["']@type["'] : *["']Product["'].*?["']description["']: *["'](.* ?)["']Extrait la description du produit
    ["']@type["'] : *["']Product["'].*?["']price["']: *["'](.* ?)["']Extrait le prix du produit
    ["']@type["'] : *["']Product["'].*?["']priceCurrency["']: *["'](.* ?)["']Extraction de la devise du produit
    ["']@type["'] : *["']Product["'].*?["']availability["']: *["'](.* ?)["']Extrait la disponibilité des produits
    ["']@type["'] : *["']Product["'].*?["']sku["']: *["'](.* ?)["']Extraits du produit SKU

    Extrait du schéma de révision

    REGEXSORTIE
    ["']reviewCount["'] : *["'](.* ?)["']Extraction du nombre de révisions
    ["']ratingValue["'] : *["'](.* ?)["']Extrait la valeur de la notation
    ["']bestRating["'] : *["'](.* ?)["']Extraire la meilleure note

    Extraire le schéma des entreprises et organisations locales

    REGEXSORTIE
    ["']@type["'] : *["']Organization["'].*?["']name["']: *["'](.* ?)["']Extrait le nom de l'organisation
    ["']streetAddress["'] : *["'](.* ?)["']Extrait l'adresse de la rue
    ["']addressLocality["'] : *["'](.* ?)["']Extrait la localité de l'adresse
    ["']addressRegion["'] : *["'](.* ?)["']Extrait la région d'adresse
    ["']téléphone["'] : *["'](.* ?)["']Extrait le numéro de téléphone
    ["']sameAs["'] : *\[(.* ?)\]Extraction des liens "sameAs".

    Extraire le schéma d'un article ou d'un billet de blog

    REGEXSORTIE
    ["']headline["'] : *["'](.* ?)["']Extrait du titre de l'article
    ["']author["'].*?["']name["']: *["'](.* ?)["']Extrait le nom de l'auteur
    ["']publisher["'].*?["']name["']: *["'](.* ?)["']Extrait le nom de l'éditeur
    ["']datePublished["'] : *["'](.* ?)["']Extraits de la date de publication
    ["']dateModified["'] : *["'](.* ?)["']Extrait la date de modification

    Les possibilités sont infinies ; n'hésitez pas à me faire savoir si vous souhaitez que des extractions soient ajoutées à cette liste.


    Publié le : 2021-03-10
    Mise à jour le : 2024-07-18

    Avatar pour Isaac Adams-Hands

    Isaac Adams-Hands

    Isaac Adams-Hands est le directeur du référencement chez SEO North, une entreprise qui fournit des services d'optimisation des moteurs de recherche. En tant que professionnel du référencement, Isaac possède une expertise considérable en matière de référencement sur page, de référencement hors page et de référencement technique, ce qui lui donne une longueur d'avance sur la concurrence.
    fr_FRFrench