Accueil | All | Indexation Google: qu’est-ce que c’est et comment ça marche.

Indexation Google: qu’est-ce que c’est et comment ça marche.

December 23, 2020
| All, SEO

Avant qu’une page n’apparaisse dans les résultats de recherche, il lui reste un long chemin à parcourir. Tout d’abord, il doit être scanné par les robots d’un moteur de recherche. Si le contenu est de qualité et de valeur suffisantes, la page apparaît dans le SERP ( abréviation de « Search Engine Results Page » ). Tout cela semble simple, rapide et pratique, n’est-ce pas ?

« L’exploration web (ang. crawling) dans la terminologie SEO (référencement naturel) est l’exploration des pages du site par un robot de recherche, les indexant pour former des résultats de recherche. »

Mais le processus d’indexation lui-même, ses algorithmes et ses mécanismes restent cachés. Y a-t-il des choses intéressantes et utiles pour nous? Oui, il y en a, et beaucoup! Dans cet article, nous allons décortiquer le processus d’indexation. Nous découvrirons ensemble ce que c’est, comment ça fonctionne et comprendrons également s’il est possible d’influencer la vitesse d’ajout de nouvelles pages à Google.

Quelle est la différence entre Google l’indexation et le Ranking Google

Les webmasters et les référenceurs débutants confondent souvent l’indexation avec le Ranking Google. Les deux concepts sont interdépendants, mais présentent un mode de fonctionnement différent.

La mise en place de l’indexation du site Web est la base du travail de SEO ( référencement naturel ).

Ranking en français signifie classement. Le Ranking Google fait ainsi référence au positionnement d’un site Internet dans les pages de résultats des moteurs de recherche. Le classement est le positionnement final des sites Internet qui figurent dans les résultats de la recherche. Donc, un classement spécifique peut être attribué à une page spécifique lorsqu’elle est dans l’index, et uniquement au moment où l’utilisateur saisit certaines phrases. Cet ordre a été mis en place pour garantir que les pages les plus pertinentes apparaissent en première position dans les résultats de recherche.

Qu’est-ce que l’indexation d’un site Web ?

L’indexation est le processus par lequel un moteur de recherche recueille des informations sur le contenu de votre site. Cela prend en compte aussi bien les ajouts que les mises à jour d’une ou de plusieurs pages du site.

Comment fonctionne l’indexation Google

Le fonctionnement d’un robot de recherche Google est basé sur les mêmes principes qu’un navigateur (Browser). Le robot (le spider, web-crawler) explore les sites, évalue le contenu des pages (images, vidéos, PDF, etc.), les transfère à la base du moteur de recherche, puis suit les liens vers une autre ressource, en répétant l’algorithme d’actions appris. Le résultat de ces voyages est l’énumération des ressources Web dans un ordre strict, l’indexation de nouvelles pages et l’inclusion de plateformes inconnues dans la base de données du moteur de recherche.

Cela s’appelle un index.
À l’avenir, les données collectées pourront être utilisées de plusieurs manières différentes. Du classement des pages, au classement dans les “recherches connexes”, aux facteurs qui déterminent votre autorité de domaine, ainsi qu’à d’autres fins auxiliaires.

Le moteur de recherche ne peut indiquer que les données des pages disponibles qui ont déjà été indexées par lui. Tant que l’indexation initiale n’a pas eu lieu, elle n’existe pas pour Google. Mais dès lors que Google trouvera a un accès rapide aux informations contenues dans ses bases de données, une recherche sur plusieurs millions de pages peut prendre quelques millisecondes.

Il est à noter que même si le web-crawler a déjà «exploré» la page, cela ne garantit pas qu’elle apparaîtra instantanément dans les résultats. Certes, le robot d’exploration examine minutieusement toutes les pages, mais seules les pages avec un contenu utile et unique passent dans le SERP.

Il n’est pas possible de tricher avec le moteur de recherche, et même si c’était le cas, cela ne durerait pas longtemps. Pour reconnaître des contenus de mauvaise qualité, Google a développé ses propres outils, protégés par des brevets.

Index E-A-T, évaluation de la Page Quality et algorithme BERT – tous ces développements vous permettent de déterminer avec précision l’utilité du contenu de la page et de reconnaître automatiquement sa qualité. Ces directives sur l’apprentissage de machines interconnectées offrent un aperçu de l’expérience de l’utilisateur.

E-A-T et YMYL proviennent d’un document très important de Google connu sous le nom de “Google Search Quality Evaluator Guidelines”.

Qu’est-ce que l’index Google

Comme nous l’avons abordé plus haut, un index est une grande base de présentation des données qui se compose de plusieurs sections clés. Nous n’avons pas besoin de nous attarder là-dessus parce que ce n’est pas très important. Permettez-nous simplement de dire que la base de données dont nous faisons mention ici contient des informations sur plusieurs millions de pages.Lors de la numérisation, les robots “ressentent” non seulement les informations textuelles de la page visibles par l’utilisateur, mais également d’autres données : les attributs du document, les informations des balises (alt, titre, description) et d’autres aspects techniques.

«L’une des dernières mises à jour majeures de Google est Mobile-First-Indexing, l’indexation mobile de tous les sites Web nouveaux et inconnus de Google, depuis le 1er juillet 2019.»

Comment un index Google est créé : toutes les étapes

Si l’on imagine la formation de l’index par étapes, elle en comprendra essentiellement quatre :

La première étape est l’extraction de texte. À ce stade, la page est convertie et tous les éléments auxiliaires en sont “supprimés” : le texte est séparé du reste des composants, en ce compris les images, le balisage et les éléments structurels.
La deuxième étape est la formation d’une liste des lexèmes. Le robot Googlebot forme l’ensemble sélectif. Ceci est fait afin de mettre davantage en évidence ce que l’on appelle le lexème. En linguistique, le terme «lexème» fait référence à un certain mot ou une certaine expression, qui est considéré(e) comme une unité. En fait, des lexèmes similaires sont alloués à la deuxième étape de l’indexation des pages. Les lexèmes sont collectés à partir de tous les textes (plus précisément, ils sont attribués à partir de tous les mots) qui se trouvent sur votre page.
En troisième lieu : la commande et le traitement. À ce stade, tous les lexèmes formés sont classés par ordre alphabétique et numérotés. Cela donne à chaque lexème son propre numéro de page (indiquant la source d’origine du lexème) et un numéro d’occurrence.
Quatrièmement : la formation d’un enregistrement d’index. Il se présente schématiquement comme suit :

Lexème/№page+№occurrence/№page+№occurrence/

Les robots d’exploration peuvent former un enregistrement plus complexe, mais sa syntaxe sera toujours basée sur le schéma ci-dessus.

Est-il possible d’accélérer l’indexation de nouvelles pages

C’est possible, mais pas directement. Si une nouvelle page n’apparaît pas mieux dans les résultats de recherche pendant une longue période, vous devez vous assurer qu’elle soit bien accessible aux robots.
Pour ce faire, ouvrez le fichier système robots.txt (il se trouve dans le dossier principal). Par exemple, pour le site vkweb.fr, le fichier robots.txt sera situé à vkweb.fr/robots.txt. Nous recherchons une balise de blocage pour notre url. Cela peut ressembler à ceci:

Pour vérifier l’indexation d’une page sur Google, ouvrez les outils pour les webmasters. (Bien sûr, pour commencer à travailler sur Google Search Console, il faut créer un compte).

Ensuite, entrez l’url de la page et obtenez un rapport sur son indexation.

Entrez simplement dans le champ l’adresse de la page qui vous intéresse.

Si nécessaire, vous pouvez créer ici une nouvelle requête d’indexation (si la page n’est pas saisie dans l’index Google).

En créant une nouvelle file d’attente d’exploration, Googlebot, comme les autres robots de recherche, examine le plan du site (sitemap) et ajoute des liens de ce plan à la file d’attente. Pour améliorer l’indexation, créez un plan du site – sitemap.xml et signalez-le au moteur de recherche. Sitemap.xml est le moyen le plus simple lors de la soumission des pages de votre domaine pour l’indexation de la page de votre entreprise.

Un budget de crawl dans la terminologie SEO est le nombre de pages d’un site qu’un robot de recherche peut explorer dans une unité de temps donnée. Parfois, un robot n’est tout simplement pas capable d’explorer toutes les pages à la fois ; vous devez donc prendre des mesures pour vous permettre d’optimiser cet indicateur.

Pour suivre au mieux votre budget de crawl, bloquez les pages indésirables dans le robots.txt, ne les laissez pas entrer dans un fichier sitemap. Seules les pages utiles doivent entrer dans le plan du site, le libérer des spams, des URL avec des redirections, des erreurs canoniques et d’exploration.

Dans la section “Sitemaps” indiquez le lien vers le sitemap.xml. Après cela, le plan du site sera envoyé pour vérification.

Lors de l’exploration d’une ressource Web, le fichier sitemap.xml est la navigation du Googlebot, indiquant les pages à indexer.

Pour que les nouvelles pages soient indexées rapidement et sans problème, vous devez proposer un contenu de qualité. Tous les éléments de la page doivent être à leur place, y compris les balises, les images, les titres et les descriptions.

Comment retirer une page de site Web de l’indexation / la supprimer de Google

Vous souhaitez masquer une page spécifique des robots d’exploration (par exemple, des pages d’accueil techniques ou des pages contenant les termes et conditions d’utilisation, des informations confidentielles comme vos mots de passe LinkedIn, Bing etc.)? Voici trois méthodes : vous pouvez utiliser la balise robots, ajouter une directive complémentaire d’interdiction au fichier système robots.txt, ou encore utiliser les outils Google. Examinons ces trois méthodes plus en détails.

Pour fermer la page de l’indexation à l’aide de la balise meta Robots, ajoutez simplement le code suivant à l’en-tête de page ( <‘head’>):

<‘meta name=”robots” content=”noindex, follow”/’>

Maintenant, à propos de la directive d’interdiction dans robots.txt.

Ce fichier contient nos “souhaits” pour les robots de recherche, mais ils seront exécutés à discrétion. Pour “demander” au web crawlers de ne pas explorer la page, ajoutez simplement l’instruction suivante aux robots:

User-agent: Googlebot
Disallow: /catalog/ lien vers votre page

Passons aux outils pour les webmasters. Ouvrez l’outil de suppression d’url. Dans le menu, sélectionnez le domaine et l’élément “Créer une demande”. Spécifiez le lien et cliquez “Removals”. Continuez et suivez les invites de l’outil pour supprimer un url des résultats de recherche. Une fois les données soumises, les pages seront supprimées de l’index Google.Il vous faudra toutefois attendre quelques jours pour cela.

S’il est urgent pour vous de supprimer du contenu de la recherche Google.

Comment savoir si une page est indexée

Il existe plusieurs façons de vérifier l’état d’une page dans l’index des moteurs de recherche. Le plus simple est de saisir un opérateur site:+url (exemple : site:vkweb.fr/creer-une-page-facebook-professionnelle/) de la page dans la barre de recherche Google. Si la page a déjà été indexée, elle apparaîtra dans les résultats de recherche. Dans le cas contraire, vous n’obtiendrez aucun résultat.

Pour ce faire, dans la zone de recherche, entrez un opérateur comme site: l’adresse de votre site.fr, par exemple: site:vkweb.fr

Dans les résultats de recherche, vous vourrez toutes les pages qui sont actuellement dans l’index Google:

Comparez le nombre de pages indexées avec le nombre réel de pages sur votre site. Cela vous aidera à évaluer rapidement si votre site web présente des problèmes d’indexation

Vous pouvez également voir le nombre de pages indexées dans Google Search Console. Sélectionnez l’onglet «Coverage». Le nombre total de pages indexées sera affiché ici:

Nombre total de pages indexées dans Google Search Console.

Pourquoi la page indexée peut quitter le SERP

Il existe de nombreuses raisons pour qu’une page abandonne l’index. Nous vous citons les plus courantes que nous rencontrons nous-mêmes régulièrement :

1. Le statut de la page affiche le code 301– si une redirection est configurée, une telle page ne restera pas longtemps dans les résultats de la recherche;

2. L’interdiction d’indexation est configurée dans le fichier système robots.txt;

3. Duplication de contenu;

4. Attribut canonique configuré qui mène à une autre page Web;

5. Le site a été sanctionné par Google;

6. Le statut de la page affiche les codes 400 ou 500– le Google crawler ne comptera pas du tout ces pages Web.

Conclusion

L’indexation est l’étape la plus importante de la collecte de données sur des sites Internet dans les moteurs de recherche. Sans indexation, les nouvelles pages Web n’apparaîtront jamais dans les moteurs de recherche. L’indexation ne peut être influencée qu’indirectement: toute commande ou note dans le fichier robots.txt ne sont en fait que des recommandations. C’est Google qui déterminera l’indexation.
Il convient de noter que les principaux moteurs de recherche suivent sans aucun doute ces recommandations. Si la plupart de vos pages sont indexées mais qu’on les retrouve loin dans les résultats de recherche Google (page 5 et suivantes), notre conseil est le suivant : travaillez avec diligence sur la qualité de votre contenu.
Toutes les pages seront indexées, mais les contenus inutiles et les spams ne seront jamais classés à égalité avec les plateformes de qualité dans les résultats de recherche.

Vous avez besoin d’un audit de site ou d’une évaluation de son potentiel pour attirer du trafic via les moteurs de recherche? Contactez VK Web pour des solutions efficaces !

Articles les plus récents

Établissez votre budget marketing digital : guide de planification, calculateur marketing et 3 modèles gratuits en exemple

November 25, 2023

Vous soulignez un problème commercial à un groupe.Le département des finances dit que c’est un problème de moyens.Le département des ressources humaines dit que c’est...

Politique éditoriale du Guest blogging VKWeb

November 1, 2023

Le blog VKWeb est un blog sur la promotion du business sur Internet. Les publics cibles sont les gestionnaires et les chefs d’entreprises, les spécialistes...

La meilleure stratégie de référencement pour le commerce électronique (SEO e-Commerce) en 2021

September 14, 2023

La vente en ligne de produits et de services joue un rôle très important dans l’économie française d’aujourd’hui. La Fevad, Fédération du e-commerce et de la...

Guest blogging : Top 8 des secrets d’un blog invité réussi

July 12, 2022

Avant de passer à la partie principale de cet article, nous voulons faire une petite annonce pour les experts SEO, les spécialistes du « content...

Journée mondiale du hamburger : Similitudes entre la stratégie de contenu et un hamburger

August 26, 2021

Comme beaucoup d’entre vous le savent, plusieurs de nos spécialistes sont originaires d’Amérique du Nord. Cela nous permet d’apporter les dernières pratiques et techniques de...

Augmenter sa visibilité sur Facebook

August 25, 2021

Introduction Avec l’évolution fulgurante de l’utilisation des réseaux sociaux par les jeunes et les adultes depuis de nombreuses années, il est désormais indispensable pour les...

Eventail de sujets liés au marketing internet sur notre blog

Augmenter le trafic, How-to, SEO

Margarita Cailleau

Spécialiste renommée du marketing internet, avec une passion pour le marketing digital. En tant que fondatrice de VKWeb, elle apporte son expertise et ses connaissances approfondies pour aider les entreprises à atteindre leurs objectifs en ligne.

collaboration, conférences et conseils en marketing internet.