Screaming Frog Custom Extractions : Un guide pour l'extraction des données de crawl

Question 1

Qu'est-ce que le Screaming Frog SEO Spider ?

Accepted Answer

Le logiciel Screaming Frog SEO Spider est un robot d'exploration de sites Web qui améliore le référencement sur site en extrayant et en analysant les données de votre site Web à l'aide d'une interface utilisateur graphique (GUI).

Question 2

Que sont les extractions personnalisées ?

Accepted Answer

Les extractions personnalisées sont un ensemble de fonctions de l'araignée Screaming Frogs SEO permettant d'extraire des informations explicites des pages Web. Ces extractions permettent d'optimiser votre site pour le référencement technique, ce qui inclut les résultats de recherche, de recueillir des données essentielles sur votre copie, et d'aider à localiser et à corriger les erreurs.

Question 3

Comment se fait l'extraction des données ?

Accepted Answer

Le processus d'extraction de données consiste à extraire les données requises sur votre site Web à l'aide d'un web spider de Screaming Frog. Les informations sont enregistrées dans la mémoire de Screaming Frog, ce qui vous donne la possibilité d'exporter les résultats de l'analyse vers Excel ou Google Sheets pour un examen plus approfondi.

Question 4

Pourquoi l'extraction de données est-elle essentielle ?

Accepted Answer

L'extraction de données vous permet de récolter rapidement et efficacement de grandes quantités de données. Cette automatisation vous donne des résultats immédiats de l'architecture web. Ce processus vous permet d'économiser du temps et des ressources tout en vous fournissant les données précieuses dont vous aurez besoin pour planifier et élaborer des stratégies d'optimisation des moteurs de recherche.

Question 5

Qu'est-ce que le Screaming Frog SEO Spider ?

Accepted Answer

Le logiciel Screaming Frog SEO Spider est un robot d'exploration de sites Web qui améliore le référencement sur site en extrayant et en analysant les données structurées de votre site Web à l'aide d'une interface utilisateur graphique (GUI), en gérant efficacement le contenu XML et JavaScript.

Question 6

Que sont les extractions personnalisées ?

Accepted Answer

Les extractions personnalisées sont des fonctions du spider SEO de Screaming Frog permettant d'extraire des informations explicites des pages web. Ces extractions aident à optimiser votre site pour un audit SEO technique, y compris les résultats de recherche, en rassemblant des données essentielles sur votre copie, et en aidant à localiser et à corriger les erreurs dans les en-têtes et d'autres éléments.

Question 7

Comment se fait l'extraction des données ?

Accepted Answer

Utilisez Screaming Frog si vous souhaitez procéder à l'extraction de données, ce qui implique d'extraire les données requises de votre site web. Les informations sont enregistrées dans la mémoire de Screaming Frog, ce qui vous donne la possibilité d'exporter les résultats de l'analyse vers Excel ou Google Sheets pour un examen plus approfondi. Il peut s'agir de données provenant de menus déroulants et de structures de liens internes.

Question 8

Pourquoi l'extraction de données est-elle essentielle ?

Accepted Answer

L'extraction de données vous permet de récolter de grandes quantités de données rapidement et efficacement. Cette automatisation vous donne des résultats immédiats sur l'architecture web. Ce processus vous permet d'économiser du temps et des ressources tout en vous fournissant les données précieuses dont vous avez besoin pour planifier et élaborer des stratégies d'optimisation pour les moteurs de recherche. Screaming Frog est l'outil de scraper Web le plus utilisé par les référenceurs et un extracteur de données. Les options sont infinies ; il y a une tonne de syntaxes de web-scraping personnalisées. Consultez le tutoriel ci-dessous.

Question 9

Comment extraire des données personnalisées avec Screaming Frog ?

Accepted Answer

Utilisez Screaming Frog si vous souhaitez procéder à l'extraction de données, ce qui implique d'extraire les données requises de votre site web. Les informations sont enregistrées dans la mémoire de Screaming Frog, ce qui vous donne la possibilité d'exporter les résultats de l'analyse vers Excel ou Google Sheets pour un examen plus approfondi. Pour des besoins plus avancés, vous pouvez incorporer des expressions régulières pour cibler précisément et extraire des modèles spécifiques de votre contenu HTML ou JavaScript, y compris les nœuds et les extraits.

Question 10

Extraire le schéma du fil d'Ariane

Accepted Answer

Voici les extractions personnalisées que vous utilisez pour vérifier les breadcrumbs en Grenouille hurlante.

Question 11

Extraire tout le balisage de schéma et les types de schéma

Accepted Answer

Les possibilités sont infinies ; n'hésitez pas à me faire savoir si vous souhaitez que des extractions soient ajoutées à cette liste.

SYNTAX	FONCTION
`//`	Rechercher n'importe où dans le document
`/`	Cherchez dans la racine de la site web
`@`	Sélectionner un attribut spécifique d'un élément
`*`	Le caractère générique est utilisé pour sélectionner n'importe quel élément
`[ ]`	Trouver un élément spécifique
`.`	Spécifie l'élément courant
`..`	Spécifie l'élément parent

XPATH	SORTIE
`//h1`	Extraire toutes les balises H1
`//h2[1]`	Extraire la première balise H2
`//h2[2]`	Extraire la deuxième balise H2
`//div/p`	Extrait tout <p> contenu dans un <div>
`//div[@class='auteur']`	Extrait tout <div> avec la classe "auteur".
`//p[@class='content']`	Extrait tout <p> avec la classe " contenu ".
`//* [@class='content']`	Extrait tout élément avec la classe "content".
`//ul/li[last()]`	Extrait le dernier d'un .
`//ol[@class='cat']/li[1]`	Extrait le premier dans un avec la classe "cat".
`compte(//h2)`	Compte le nombre de H2 (définir le filtre d'extraction sur "Valeur de la fonction").
`//a[contient(., 'en savoir plus')]`	Extraire tout lien dont le texte d'ancrage contient "en savoir plus".
`//a[starts-with(@title, 'Written by')]`	Extrait tout lien dont le titre commence par "Écrit par".

XPATH	SORTIE
`//@href`	Extraction de tous les liens
`//a[starts-with(@href, 'mailto')]/@href`	Extrait le lien qui commence par "mailto :" (adresse électronique)
`//a[starts-with(@href, 'tel')]/@href`	Extrait le lien qui commence par "tel :" (numéro de téléphone)
`//img/@src`	Extraction de toutes les URL des sources d'images
`//img[contient(@class, 'aligncenter')]/@src`	Extrait toutes les URLs des sources d'images contenant le nom de classe "aligncenter".
`//lien[@rel='alternate']`	Extrait les éléments dont l'attribut rel est défini sur "alternate".
`//@hreflang`	Extraction de toutes les valeurs hreflang

XPATH	SORTIE
`//meta[@property='article:published_time']/@content`	Extraction de la date de publication de l'article (balise méta fréquemment trouvée sur les sites Web WordPress).

XPATH	SORTIE
`//meta[@property='og:type']/@content`	Extrait l'objet de type Open Graph
`//meta[@property='og:image']/@content`	Extraction de l'URL de l'image vedette Open Graph
`//meta[@property='og:updated_time']/@content`	Extraction de l'heure de mise à jour de l'Open Graph

Screaming Frog Custom Extractions : Un guide pour l'extraction des données de crawl

Quel est le Screaming Frog SEO Spider?

Quels sont les extractions sur mesure?

Comment se fait l'extraction des données ?

Pourquoi l'extraction de données est-elle essentielle ?

Comment extraire des données personnalisées avec Screaming Frog ?

Exemple :

Syntaxe de base pour l'utilisation de XPath Web Scraping

XPath fonctions

Comment extraire les éléments HTML courants

Extraire les métabalises (utiliser l'élément HTML interne)

Extrait de l'Open Graph

Extraire des cartes Twitter

Extraire les types de schémas

Extraire le schéma du fil d'Ariane

Extraire le schéma du produit

Extrait du schéma de révision

Extraire le schéma des entreprises et organisations locales

Extraire le schéma de l'article

Extraction de données personnalisées avec Regex

Wildcards

Ancres

Groupes

Escape

Extraction de données personnalisée Regex

Extraire tout le balisage de schéma et les types de schéma

Extraire le schéma du fil d'Ariane

Extraire le schéma du produit

Extrait du schéma de révision

Extraire le schéma des entreprises et organisations locales

Extraire le schéma d'un article ou d'un billet de blog

Cet article a-t-il répondu à vos questions ?

Cet article a-t-il répondu à vos questions ?

Isaac Adams-Hands

XPATH	SORTIE
`//meta[@name='twitter:card']/@content`	Extrait le type de carte Twitter
`//meta[@name='twitter:title']/@content`	Extrait le titre de la carte Twitter
`//meta[@name='twitter:site']/@content`	Extrait l'objet du site de la carte Twitter (poignée Twitter)

XPATH	SORTIE
`//*[@itemtype]/@itemtype`	Extraction de tous les types de balisage de schéma sur une page

XPATH	SORTIE
`//[contient(@itemtype, 'BreadcrumbList')]/[@itemprop]/a/@href`	Extraire tous les liens du fil d'Ariane
`//[contains(@itemtype, 'BreadcrumbList')]/[@itemprop][1]/a/@href`	Extrait le premier lien du fil d'Ariane
`//[contient(@itemtype, 'BreadcrumbList')]/[@itemprop]`	Extraire les noms des fils d'Ariane (définir le filtre d'extraction à "Extraire le texte")
`count(//[contains(@itemtype, 'BreadcrumbList')]/[@itemprop])`	Compte le nombre d'éléments de la liste de fil d'Ariane (définir le filtre d'extraction à "Valeur de la fonction")

XPATH	SORTIE
`//*[@itemprop='nom']/@content`	Extrait le nom du produit
`//*[@itemprop='description']/@content`	Extrait la description du produit
`//*[@itemprop='prix']/@content`	Extrait le prix du produit
`//*[@itemprop='priceCurrency']/@content`	Extraction de la devise du produit
`//*[@itemprop='disponibilité']/@href`	Extrait la disponibilité des produits
`//*[@itemprop='sku']/@content`	Extraits du produit SKU

XPATH	SORTIE
`//* [@itemprop='reviewCount']`	Extraction du nombre de révisions
`//* [@itemprop='ratingValue']`	Extrait la valeur de la notation
`//* [@itemprop='bestRating']`	Extraction de la meilleure note d'évaluation
`//[@itemprop='review']/[@itemprop='name']`	Extrait le nom de la revue
`//[@itemprop='review']/[@itemprop='author']`	Auteur de la revue Extraits
`//[@itemprop='review']/[@itemprop='datePublished']/@content`	Extrait la date de publication des revues
`//[@itemprop='review']/[@itemprop='reviewBody']`	Extraire le contenu du corps des commentaires

XPATH	SORTIE
`//[contains(@itemtype, 'Organization')]/[@itemprop='name']`	Extrait le nom de l'organisation
`//[@itemprop='adresse']/[@itemprop='streetAddress']`	Extrait l'adresse de la rue
`//[@itemprop='address']/[@itemprop='addressLocality']`	Extrait la localité de l'adresse
`//[@itemprop='address']/[@itemprop='addressRegion']`	Extrait la région d'adresse
`//* [@itemprop='telephone']`	Extrait le numéro de téléphone
`//*[@itemprop='sameAs']/@href`	Extraction des liens "sameAs".

XPATH	SORTIE
`//[contains(@itemtype, 'Article')]/[@itemprop='headline']`	Extrait le titre de l'article
`//[@itemprop='auteur']/[@itemprop='nom']/@content`	Extrait le nom de l'auteur
`//[@itemprop='publisher']/[@itemprop='name']/@content`	Extrait le nom de l'éditeur
`//*[@itemprop='datePublished']/@content`	Extraits de la date de publication
`//*[@itemprop='dateModified']/@content`	Extrait la date de modification

SYNTAX	FONCTION
`.`	Correspond à un caractère quelconque
`*`	Faire correspondre le caractère précédent 0 fois ou plus
`?`	Faire correspondre le caractère précédent 0 ou 1 fois
`+`	Faire correspondre le caractère précédent 1 ou plusieurs fois
`\|`	OU

SYNTAX	FONCTION
`^`	La chaîne de caractères commence par le caractère suivant.
`$`	La chaîne de caractères se termine par le caractère précédent.

SYNTAX	FONCTION
`( )`	Faire correspondre les caractères joints dans l'ordre exact
`[ ]`	Faire correspondre les caractères joints dans n'importe quel ordre
`-`	Correspond à tous les caractères dans la plage spécifiée

SYNTAX	FONCTION
`\`	Traite le caractère littéralement, pas comme une regex.

REGEX	SORTIE
`["'](UA-.* ?)["']`	Extraire l'ID de suivi de Google Analytics
`["'](G-.* ?)["']`	Extraire l'ID de suivi de Google Analytics 4 (GA4)
`["' "](AW-.* ?) ["' "]`	Extraire l'ID de conversion Google Ads et/ou le tag de remarketing
`["'](GTM-.* ?)["']`	Extraire l'ID de Google Tag Manager et/ou de Google Optimize
`fbq\(["']init["'], ["'](.*?)["']`	Extraire l'ID du pixel Facebook
`\{ti :["'](.* ?)["']\}`	Extraire la balise UET de Bing Ads
`adroll_adv_id = ["'](.* ?) ["']`	Extraire l'ID de l'annonceur AdRoll
`adroll_pix_id = ["'](.* ?) ["']`	Extraire l'ID du pixel AdRoll

REGEX	SORTIE
`["']item["'] : ["']@id["'] : ["'](.* ?)["']`	Extraction des liens du fil d'Ariane
`["']item["'] : ["']@id["'] : ["'].* ?["'], ["']nom["'] : ["'](.* ?)["']`	Extraction des noms de fil d'Ariane

REGEX	SORTIE
`["']@type["'] : ["']Product["'].?["']name["']: ["'](. ?)["']`	Extrait le nom du produit
`["']@type["'] : ["']Product["'].?["']description["']: ["'](. ?)["']`	Extrait la description du produit
`["']@type["'] : ["']Product["'].?["']price["']: ["'](. ?)["']`	Extrait le prix du produit
`["']@type["'] : ["']Product["'].?["']priceCurrency["']: ["'](. ?)["']`	Extraction de la devise du produit
`["']@type["'] : ["']Product["'].?["']availability["']: ["'](. ?)["']`	Extrait la disponibilité des produits
`["']@type["'] : ["']Product["'].?["']sku["']: ["'](. ?)["']`	Extraits du produit SKU

REGEX	SORTIE
`["']application/ld\+json["']>(.* ?)`	Extraction de toutes les balises du schéma JSON-LD.
`["']@type["'] : ["'](. ?)["']`	Extrait tous les types de balises de schéma JSON-LD d'une page.

REGEX	SORTIE
`["']reviewCount["'] : ["'](. ?)["']`	Extraction du nombre de révisions
`["']ratingValue["'] : ["'](. ?)["']`	Extrait la valeur de la notation
`["']bestRating["'] : ["'](. ?)["']`	Extraire la meilleure note

REGEX	SORTIE
`["']@type["'] : ["']Organization["'].?["']name["']: ["'](. ?)["']`	Extrait le nom de l'organisation
`["']streetAddress["'] : ["'](. ?)["']`	Extrait l'adresse de la rue
`["']addressLocality["'] : ["'](. ?)["']`	Extrait la localité de l'adresse
`["']addressRegion["'] : ["'](. ?)["']`	Extrait la région d'adresse
`["']téléphone["'] : ["'](. ?)["']`	Extrait le numéro de téléphone
`["']sameAs["'] : \[(. ?)\]`	Extraction des liens "sameAs".

REGEX	SORTIE
`["']headline["'] : ["'](. ?)["']`	Extrait du titre de l'article
`["']author["'].?["']name["']: ["'](.* ?)["']`	Extrait le nom de l'auteur
`["']publisher["'].?["']name["']: ["'](.* ?)["']`	Extrait le nom de l'éditeur
`["']datePublished["'] : ["'](. ?)["']`	Extraits de la date de publication
`["']dateModified["'] : ["'](. ?)["']`	Extrait la date de modification