Comment fonctionnent les moteurs de recherche : Exploration, indexation et classement

Guide du référencement pour les débutants

comment fonctionne un moteur de recherche

Les moteurs de recherche sont conçus pour trouver des réponses pour les internautes. Ils organisent l'internet de manière à ce que vous puissiez découvrir instantanément des résultats de recherche pertinents. Pour que votre site apparaisse dans les résultats, vous devez être classé dans les moteurs de recherche. moteur de recherche. C'est pourquoi l'optimisation des moteurs de recherche (SEO) est si importante. Vous avez besoin de techniques de référencement de premier ordre si vous voulez figurer dans les pages de résultats des moteurs de recherche (SERP).

Comment fonctionnent les moteurs de recherche

A moteur de recherche est fait pour explorer, indexer et classer l'internet. Le crawling consiste à rechercher du contenu sur le web. Le processus d'indexation consiste à organiser le contenu de l'internet. Après l'indexation d'une page, celle-ci apparaîtra en tant que réponse aux requêtes de recherche. Ensuite, le processus de classement consiste à déterminer quels éléments de contenu sont les meilleurs résultats pour des requêtes spécifiques.

Recherche Web simplifiée
Recherche Web simplifiée

Un moteur de recherche parcourt un site et envoie des robots de recherche. Ces robots sont également connus sous le nom d'araignées. Ils explorent chaque page de contenu en suivant les liens de certaines pages vers de nouvelles URL. Lorsque les araignées trouvent du nouveau contenu, elles le transmettent à un index appelé Caffeine. Cet index est une base de données d'URL qui peut être récupérée par les moteurs de recherche chaque fois qu'une personne effectue une recherche.

Comment un moteur de recherche indexe-t-il et classe-t-il le contenu ?

L'index d'un moteur de recherche stocke tout le contenu qu'un moteur de recherche trouve et stocke. Lorsqu'une personne tape une requête de recherche, le moteur effectue une recherche dans l'index pour trouver du contenu pertinent. Le moteur de recherche classe ces résultats en fonction de leur pertinence. Un site Web ayant un classement élevé signifie que le moteur de recherche pense qu'il est plus pertinent que les autres résultats.

Vous pouvez empêcher les robots d'exploration de parcourir vos pages Web si vous le souhaitez. Vous pouvez également demander aux moteurs de recherche de ne plus stocker vos pages dans leur index. À moins que vous n'ayez une raison de le faire, vous devriez l'éviter. Si les moteurs de recherche ne peuvent pas explorer et stocker vos pages, celles-ci sont essentiellement invisibles pour les moteurs de recherche.

Des moteurs de recherche différents donnent de meilleurs résultats

Bien qu'ils puissent se ressembler, les différents moteurs de recherche diffèrent. Google possède la plus grande part du marché, mais il existe plus de 30 grands moteurs de recherche. La plupart des rédacteurs de contenu et des concepteurs de sites Web se concentrent principalement sur Google car 90 % des recherches se font sur ce site. Il est 20 fois plus important que Yahoo et Bing réunis.

Les moteurs de recherche peuvent-ils découvrir votre site ?

Si vous voulez que votre site apparaisse dans les SERP, les araignées doivent pouvoir explorer vos pages. Vous pouvez savoir si votre site est explorable en regardant combien de pages du site sont incluses dans l'index. Pour ce faire, vous pouvez taper "site:votredomaine.com" dans la barre de recherche de Google. Les résultats sont toutes les pages de votre site que Google a indexées.

Console de recherche Google

Bien que le nombre de pages ne soit pas exact, il constitue un bon point de référence. Vous pouvez essayer d'utiliser le rapport de couverture de l'index de Google Search Console si vous souhaitez obtenir des résultats extrêmement précis. Cet outil vous permet de soumettre un sitemap et de déterminer rapidement le nombre de pages incluses dans l'index de Google.

Il existe quelques raisons courantes pour lesquelles vous pourriez ne pas apparaître dans les moteurs de recherche.

  • Votre site est entièrement nouveau et n'a pas encore été exploré.
  • La navigation du site rend difficile l'exploration de votre site par un robot.
  • Votre site n'est pas encore lié à des sites externes.
  • Les moteurs de recherche vous pénalisent pour les tactiques de type spam.
  • Votre site a des directives de crawler qui empêchent moteurs de recherche de l'explorer et de l'indexer.

Montrez aux moteurs de recherche la bonne façon d'explorer votre site Web

Si vos pages ne sont pas indexées correctement, vous pouvez prendre certaines mesures. Vous pouvez indiquer à Googlebot comment vous souhaitez qu'il explore votre contenu. Bien que vous souhaitiez que Googlebot explore la plupart de vos pages, il se peut que vous ne souhaitiez pas qu'il le fasse pour certaines URL en double, certaines pages de mise en page et certains contenus fins.

Robots.txt

Ces fichiers sont placés dans le répertoire racine du site en guise de suggestion aux moteurs de recherche. Ils indiquent aux moteurs de recherche les pages qu'ils doivent explorer et la vitesse à laquelle ils doivent le faire. Lorsque Googlebot ne voit pas de fichier robots.txt, il explore l'ensemble du site comme d'habitude. S'il découvre un fichier robots.txt, il écoute généralement les suggestions du fichier. S'il y a une erreur dans le fichier robots.txt, il n'explorera pas du tout le site.

Mettez votre budget rampant au travail

Votre site a un budget d'exploration qui détermine le nombre d'URL que Googlebot va généralement examiner avant de partir. Si vous optimisez votre budget d'exploration, vous pouvez faire en sorte que Googlebot explore vos pages les plus importantes au lieu de celles qui ne le sont pas. Le budget d'exploration devient incroyablement important lorsqu'un site compte des milliers ou des millions d'URL.

Lorsque vous optimisez votre budget d'exploration, faites attention aux balises noindex et canoniques. Vous ne voulez pas bloquer les robots d'exploration des pages avec d'autres directives. Si vous bloquez Googlebot, il ne pourra pas voir les balises canonical ou noindex.

Certains robots ne prêtent pas attention à robots.txt. Les escrocs et les mauvais acteurs peuvent même utiliser robots.txt comme guide pour trouver où vous avez placé votre contenu privé. Bien que le blocage des pages de connexion et du contenu privé par les robots d'exploration semble intuitif, il convient d'être prudent. Vous rendez leur emplacement public en plaçant ces URL dans un fichier robots.txt. Vous devriez plutôt utiliser noindex sur ces pages et ajouter un formulaire de connexion.

Définition des paramètres de l'URL

Les sites tels que les sites de commerce électronique permettent de faire apparaître le même contenu sur différentes URL en y joignant certains paramètres. Par exemple, vous pouvez affiner votre recherche de manteaux sur Amazon en sélectionnant la taille, le style, la marque et la couleur du manteau. L'URL change un peu à chaque fois que vous affinez votre recherche.

Bien que le moteur de recherche de Google soit tout à fait capable de déterminer l'URL la plus représentative sans aide, vous pouvez aider les moteurs de recherche en utilisant la fonctionnalité Paramètres d'URL de Google Search Console. Cette fonction vous permet d'indiquer à Googlebot qu'il ne doit plus explorer les URL contenant des paramètres spécifiques. En substance, vous masquez aux moteurs de recherche les pages dont le contenu est dupliqué.

Les crawlers trouveront-ils votre contenu le plus important ?

Il est utile de tenir les robots d'exploration à l'écart de certaines pages, mais vous souhaitez également que Googlebot trouve immédiatement vos pages essentielles. Vous pouvez atteindre cet objectif en vous assurant que Googlebot peut parcourir votre site facilement. Certains sites sont comme un mur que les robots d'exploration peuvent atteindre, mais ils ne peuvent pas dépasser la page d'accueil initiale. Si votre contenu est caché derrière des formulaires de connexion, un robot d'exploration ne peut pas y accéder.

Quelle est la meilleure façon de fournir des instructions d'exploration à un moteur de recherche ?

Création d'un Sitemap est la meilleure façon de fournir aux moteurs de recherche des instructions d'exploration.; les articles récemment mis à jour et les nouvelles pages sont les pages web que vous souhaitez voir explorées en premier sur votre site web. Les sitemaps contiennent une liste d'URL avec la date de dernière modification, fournissant aux moteurs de recherche une liste de pages à explorer.

création de liens

De même, les robots sont incapables d'utiliser les formulaires de recherche. Ils ne peuvent pas non plus lire le contenu non textuel comme les images. Si les moteurs de recherche veulent comprendre les images de votre site, vous devez ajouter du texte dans le balisage HTML de votre page Web.

En outre, les moteurs de recherche doivent pouvoir suivre un chemin de liens d'une page à l'autre. Si une page n'est pas liée à une autre page, elle est invisible pour les moteurs de recherche. Vous devez structurer votre navigation de manière à ce que les crawlers puissent naviguer facilement.

Les erreurs de navigation à éviter

  • Il faut éviter d'avoir une navigation mobile et une navigation de bureau qui affichent des résultats différents.
  • Votre navigation doit comporter des éléments de menu en HTML. Par exemple, la navigation en JavaScript peut encore être difficile à explorer et à comprendre pour un moteur de recherche.
  • La personnalisation de la navigation pour certains types d'utilisateurs peut prendre la forme suivante dissimulation à Googlebot.
  • Si vous ne créez pas de liens vers les pages principales de votre site Web, les robots d'exploration ne pourront pas les trouver. Les liens sont le principal moyen pour les robots d'accéder aux nouvelles pages.

Vérifiez votre architecture d'information

Votre site utilise-t-il une architecture d'information propre ? L'architecture de l'information est la manière dont le contenu du site est organisé et étiqueté. Une architecture d'information propre est intuitive pour les utilisateurs, qui peuvent ainsi trouver efficacement tout ce qu'ils veulent.

Révisez vos sitemaps

Un plan de site est une sorte de carte des URL présentes sur votre site. Il indique à Google quelles sont les pages les plus prioritaires et celles qui sont sans importance. Si la navigation sur votre site doit rester excellente, le plan du site aide les robots d'exploration à déterminer les pages les plus importantes. Vous devez vous assurer de ne répertorier que les URL que vous souhaitez voir indexées. Si vous n'avez pas encore de liens avec d'autres sites, Google Search Console vous permet de soumettre un sitemap XML pour que votre site soit indexé.

Votre site présente-t-il des erreurs de référencement ?

Idéalement, les crawlers devraient pouvoir voir votre site sans aucun problème. Vous pouvez consulter Google Search Console si vous souhaitez obtenir un rapport sur les erreurs d'exploration. Ce rapport vous indiquera les URL qui posent problème. Les fichiers journaux de votre serveur contiennent également ces informations, mais les débutants peuvent trouver difficile d'accéder à ce journal.

Codes 4xx

These kinds of errors happen because of client errors. This means the requested URL cannot be fulfilled. It may also contain some wrong syntax. A 404 error is the most common type of error. It happens because there was a broken redirect, a deleted page, or a typo in the URL.

Codes 5xx

Ces codes sont des erreurs de serveur. Elles se produisent si le serveur ne répond pas à la demande du chercheur. Cela se produit généralement parce que l'URL a expiré, ce qui signifie que le robot a abandonné sa tentative d'accès à la page.

Créer une page 404 personnalisée

Vous pouvez améliorer votre taux de rebond grâce à une page 404 personnalisée. Pour ce faire, vous devez ajouter des liens vers d'autres pages importantes de votre site ou vers une fonction de recherche. Une autre option consiste à utiliser une redirection 301 pour envoyer les utilisateurs d'une ancienne URL vers une nouvelle.

erreurs

Créer une redirection 301

Vous pouvez utiliser un 301 pour renforcer l'équité des liens en transférant les internautes de votre ancienne page vers votre nouvelle. Cela aide également Google à découvrir et à indexer votre nouvelle page. Si les erreurs 404 ne nuisent pas à vos performances globales, vous pouvez perdre votre classement sur ces pages spécifiques.

Pour cette raison, vous pouvez utiliser un code d'état 301. Il indique que la page a été définitivement déplacée vers un nouvel emplacement. En revanche, une page de redirection 302 représente un déplacement temporaire.

Vous devez éviter de créer une chaîne de redirections. Googlebot a du mal à passer par plusieurs codes de statut 301 pour atteindre une page. C'est pourquoi vous devez vous en tenir autant que possible à une seule page de redirection.

Comment votre site est indexé

Votre premier objectif est de vous assurer que Google peut explorer vos sites. L'étape suivante consiste à l'indexer. L'indexation est la manière dont les moteurs de recherche stockent vos pages. En substance, un moteur de recherche stocke un rendu de votre page comme une bibliothèque stocke un livre.

À quoi ressemblent mes pages pour les moteurs de recherche ?

Vous pouvez facilement voir la dernière version en cache de chaque page de votre site. Lorsque vous consultez les SERP, cliquez sur la flèche déroulante située à côté de l'URL de la page. Ensuite, sélectionnez l'option de mise en cache. Les sites populaires et établis ont tendance à être explorés et mis en cache plus fréquemment. Vous pouvez également consulter une version texte de chaque page mise en cache.

Il existe de nombreuses raisons pour lesquelles un index peut supprimer une page. Voici quelques-unes des raisons les plus courantes.

  • L'URL a été pénalisée pour une violation des directives du moteur de recherche.
  • L'URL a bloqué les crawlers à cause d'un mot de passe obligatoire.
  • L'URL renvoie une erreur 4xx ou 5xx.
  • L'URL a une directive noindex.

Vous pouvez essayer l'outil d'inspection des URL si vous pensez qu'il y a un problème. Vous pouvez également récupérer la page en tant que Google. Vous pourrez alors voir si la page est correctement rendue par Google.

Montrez aux moteurs de recherche comment indexer correctement votre site

Les méta-directives sont également connues sous le nom de métabalises. Ces balises sont des instructions qui indiquent aux moteurs de recherche comment regarder vos pages. Vous pouvez créer des balises méta qui empêchent les moteurs de recherche d'indexer une page. Ces instructions sont généralement placées dans l'en-tête de vos pages HTM ou dans votre X-Robots-Tag dans votre en-tête HTTP.

Apprenez à connaître les différentes balises Meta de Robots

Index/non index : Cela indique aux moteurs de recherche s'ils doivent ou non explorer la page.

Suivre/suivre : Cela indique si les robots doivent suivre les liens que vous avez sur votre page ou non.

Noarchive : Cela indique aux moteurs de recherche qu'ils ne doivent pas conserver une copie en cache d'une page spécifique.

Les méta-directives vous permettent de modifier la manière dont vos pages sont indexées. Elles n'affectent pas la manière dont les pages sont explorées. Pour suivre la directive, le robot d'exploration doit explorer la page pour les voir.

X-robots-tag : Cette balise peut être placée dans l'en-tête HTTP de votre URL pour bloquer les moteurs de recherche.

Comment les moteurs de recherche classent-ils les pages de votre site ?

Votre classement correspond à la position de votre page dans la liste des résultats du moteur de recherche. La plupart des gens cliquent sur les trois premiers résultats, et votre classement détermine donc le nombre de visiteurs que vous recevez. Les moteurs de recherche utilisent des formules et des algorithmes pour déterminer comment les informations sont stockées. Ces algorithmes changent constamment, Google s'efforçant d'améliorer la qualité des recherches.

Les moteurs de recherche veulent donner aux chercheurs les meilleures réponses à leurs questions. Au fil du temps, les moteurs de recherche sont devenus plus aptes à comprendre la sémantique. Alors que des pratiques telles que le bourrage de mots-clés sont utilisées pour tromper les moteurs de recherche, ces derniers sont désormais capables de dire quand une page est artificiellement bourrée de mots-clés.

Liens et référencement

Les liens sont essentiels pour le référencement. Les moteurs de recherche examinent vos liens internes et vos liens entrants. Les liens entrants sont les liens que vous recevez d'autres sites web et qui mènent à votre site. Ils sont en quelque sorte la version en ligne du bouche-à-oreille. Bien que les moteurs de recherche ne s'appuient plus autant sur ces liens qu'auparavant, ils jouent toujours un rôle dans la détermination de votre classement dans les moteurs de recherche. L'algorithme PageRank de Google analyse la quantité et la qualité de chaque lien qui mène à vos pages.

Contenu et référencement

Le contenu joue également un rôle dans la détermination de votre classement dans les moteurs de recherche. Les robots d'exploration analysent votre contenu pour déterminer le sujet de votre page. Ensuite, ils trouvent le contenu le plus pertinent possible pour chaque requête de recherche. L'objectif principal étant de satisfaire l'utilisateur, il n'existe pas de règle fixe concernant la longueur du contenu.

RankBrain et le référencement

Contenu, liens et RankBrain sont les principaux facteurs déterminant le classement de votre site par Google. RankBrain fait appel à l'apprentissage automatique. Il peut utiliser des observations pour s'auto-apprendre au fil du temps. Comme il s'améliore constamment, les résultats de recherche s'améliorent également. Si une URL est plus pertinente pour l'utilisateur, elle sera mieux classée. Cela signifie que la meilleure chose que vous puissiez faire est d'améliorer votre expérience utilisateur et de vous assurer que votre contenu est pertinent.

Qu'en est-il des mesures d'engagement ?

Les mesures d'engagement sont souvent plus élevées pour les sites ayant un meilleur classement, mais il y a beaucoup de débats pour savoir si cela est dû à une causalité ou à une corrélation. Les mesures d'engagement comprennent les clics sur votre liste dans les résultats de recherche, votre taux de rebond et le temps passé sur vos pages. Le taux de rebond est le pourcentage de sessions où l'internaute ne consulte qu'une seule page avant de partir.

Google a déclaré qu'il utilisait les données relatives aux clics pour ajuster ses SERP. Si la plupart des internautes cliquent sur le deuxième résultat plutôt que sur le premier, Google modifiera éventuellement l'ordre des résultats. Cela signifie que les mesures d'engagement servent de vérificateurs de faits pour moteurs de recherche. Les robots d'exploration peuvent deviner si une page est pertinente. Ensuite, les visiteurs réels montrent à Google quelles pages sont pertinentes en cliquant dessus. Si une page a un taux de rebond élevé, elle n'est probablement pas pertinente pour le chercheur.

Recherche localisée

Google a a expérimenté une variété de méthodes de recherche au fil du temps. L'objectif est d'améliorer l'expérience des utilisateurs en leur proposant le meilleur type de contenu. Dans le cadre de la recherche localisée, Google tient compte de la pertinence, de la distance et de la proéminence. Pour vous assurer un bon classement, vous devez optimiser votre fiche Google My Business.

La pertinence signifie que votre entreprise doit correspondre à ce que le chercheur recherche. Quant à la distance, elle implique votre géolocalisation. Même si les recherches organiques diffusent rarement ce fait, elles sont généralement influencées par la localisation de l'internaute. Enfin, Google souhaite récompenser les entreprises de premier plan qui sont populaires dans le monde réel. Il peut savoir si votre entreprise est connue en examinant vos avis Google et vos citations sur d'autres sites. En outre, Google tiendra compte de vos autres techniques de référencement pour déterminer la position de votre site Web dans une recherche localisée.

FAQ

  • Comment fonctionnent les moteurs de recherche ?
  • Qu'est-ce que le crawling et l'indexation ?
  • Quelle est la façon la plus courante dont un moteur de recherche découvre une page web ?
  • Quel est le but premier d'un moteur de recherche ?
  • Qu'est-ce qui pourrait aider un moteur de recherche à comprendre la différence entre les sujets ?
  • Qu'est-ce qui pourrait aider un moteur de recherche à comprendre la différence ?
  • Comment les moteurs de recherche explorent-ils les sites web ?
  • Comment les moteurs de recherche vont-ils réagir à une mauvaise structure de site ?
  • Quelle est la position moyenne dans la Google Search Console ?
  • À quoi ressemble un plan du site ?
  • Qu'est-ce que le crawling dans le référencement ?
  • Quel a été le premier moteur de recherche créé ?

Suivant : Recherche de mots-clés
Précédent : SEO 101


Publié le : 2020-09-10
Updated on: 2024-01-12

Avatar pour Isaac Adams-Hands

Isaac Adams-Hands

Isaac Adams-Hands est le directeur du référencement chez SEO North, une entreprise qui fournit des services d'optimisation des moteurs de recherche. En tant que professionnel du référencement, Isaac possède une expertise considérable en matière de référencement sur page, de référencement hors page et de référencement technique, ce qui lui donne une longueur d'avance sur la concurrence.
fr_FRFrench