
Le fichier robots.txt est un élément essentiel de la gestion d’un site web, pourtant il reste souvent mal compris. Son rôle ? Guider les moteurs de recherche comme Google pour leur indiquer quelles pages de votre site ils peuvent explorer et indexer.
Pourquoi c’est important ? Parce qu’un robots.txt mal configuré peut :
- Empêcher l’indexation de pages stratégiques, nuisant au SEO.
- Exposer des informations sensibles (ex : pages d’administration).
- Consommer inutilement le budget de crawl, ralentissant l’indexation des pages importantes.
Dans ce guide, nous verrons comment une agence SEO ou un consultant en référencement doit faire pour configurer un robots.txt efficace, éviter les erreurs courantes, et optimiser son site pour Google.
Qu’est-ce que le fichier Robots.txt ?
Le fichier robots.txt est un fichier texte placé à la racine d’un site web (https://www.monsite.com/robots.txt). Il permet de définir des règles pour contrôler l’accès des robots des moteurs de recherche à certaines parties du site.
Pourquoi en a-t-on besoin ?
- Éviter d’indexer des pages non pertinentes (ex : panier d’achat, back-office, filtres de recherche).
- Améliorer la gestion du « budget de crawl » (on explique ce terme plus loin).
- Renforcer la sécurité en bloquant l’accès à certaines sections.
Comment fonctionne le fichier Robots.txt ?
Le fichier robots.txt fonctionne comme une porte d’entrée virtuelle pour les moteurs de recherche lorsqu’ils arrivent sur un site web.
Il ne contrôle pas directement l’indexation, mais oriente les robots d’exploration sur les pages qu’ils peuvent ou ne peuvent pas visiter.
Étape 1 : Un robot arrive sur votre site
Lorsqu’un moteur de recherche comme Googlebot (robot de Google) veut explorer un site web, il commence toujours par chercher un fichier robots.txt. Il le trouve en consultant l’URL suivante :
Exemple pour un site monsite.com :
Étape 2 : Lecture et interprétation des règles
Le fichier robots.txt fonctionne avec des instructions précises, appelées directives. Ces directives indiquent au robot s’il peut ou non explorer certaines parties du site.
Exemple simple de robots.txt :
Explication ligne par ligne :
- User-agent: * → S’applique à tous les robots (* signifie « tous »).
- Disallow: /admin/ → Interdit d’explorer le dossier /admin/.
- Disallow: /private/ → Interdit d’explorer le dossier /private/.
- Allow: /public/ → Autorise explicitement l’exploration du dossier /public/.
- Sitemap: → Donne l’adresse du plan du site pour aider les moteurs de recherche à mieux indexer les pages importantes.
Étape 3 : Comportement du robot selon les directives
Le robot va maintenant adapter son comportement en fonction des directives du fichier.
Si on reprend ce robots.txt :
- Si un robot veut explorer https://www.monsite.com/admin/
→ Interdit ! Il ne visitera pas cette page. - Si un robot veut explorer https://www.monsite.com/public/page.html
→ Autorisé ! Il pourra visiter et indexer cette page. - Si un fichier important n’est pas bloqué dans le robots.txt
→ Le robot l’explore et décide par lui-même s’il l’indexe ou non.
Attention :
- robots.txt ne dit pas aux moteurs de recherche s’ils doivent indexer une page ou non, il leur dit seulement s’ils peuvent l’explorer.
- Pour empêcher l’indexation d’une page, il faut utiliser une directive noindex dans sa balise <meta>.
Étape 4 : Ce que le robots.txt ne fait PAS
Robots.txt ne supprime pas une page des résultats Google
Même si une page est bloquée par Disallow:, elle peut déjà être indexée et apparaître sur Google.
Exemple : Si une page était déjà indexée avant d’être bloquée, elle peut toujours apparaître sur Google, mais sans aperçu.
Pour qu’elle disparaisse de Google il faudra passer la page concernée en noindex
Étape 5 : Lecture prioritaire des règles
Quand plusieurs règles existent, Google suit celles qui sont les plus spécifiques.
Par exemple, si vous avez ces directives :
Googlebot ne pourra pas explorer /admin/, sauf pour /admin/public/ qui est explicitement autorisé.
Étape 6 : Le cas des fichiers CSS et JS
Par défaut, Googlebot explore tous les fichiers nécessaires au bon affichage d’un site (HTML, CSS, JavaScript…).
Problème : si vous bloquez ces fichiers, Google ne pourra pas bien afficher le site et risque de mal le classer dans les résultats.
Exemple d’erreur courante dans robots.txt :
Cela empêche Google d’accéder aux fichiers CSS et JS !
La correction recommandée dans ce cas est :
Cela permet à Google de bien afficher et comprendre le site.
Récapitulatif des bonnes pratiques
Toujours tester son fichier robots.txt avec Google Search Console.
Autoriser l’accès aux fichiers CSS et JavaScript pour un bon affichage.
Ne jamais bloquer complètement Googlebot avec Disallow: /.
Vérifier régulièrement les logs serveur pour s’assurer que Googlebot explore bien les bonnes pages.
Pourquoi le Robots.txt est-il important pour le SEO ?
Le robots.txt impacte directement la manière dont votre site est exploré par Google. Un bon réglage peut optimiser votre SEO, tandis qu’une mauvaise configuration peut faire disparaître des pages importantes des résultats de recherche.
1- Il optimise le budget de crawl
Qu’est-ce que le budget de crawl ?
Googlebot, le robot d’indexation de Google, a une capacité limitée pour explorer les pages de votre site à chaque passage. Cette limite est appelée « budget de crawl ». Si votre site contient trop de pages inutiles, Google pourrait ne pas explorer et indexer les pages vraiment importantes.
Exemple :
Un site e-commerce avec des milliers de variantes de produits (/chaussures?color=red&size=42) risque de voir son budget gaspillé sur ces pages au lieu des fiches produits principales.
Solution avec Robots.txt :
On bloque ainsi les pages inutiles pour que Google se concentre sur les pages stratégiques.
2- Il empêche l’indexation de pages inutiles
Google peut visiter et indexer des pages sans valeur ajoutée pour le référencement, comme :
- Les pages de connexion (/login/),
Les pages de confirmation d’achat (/thank-you/),
Les archives inutiles (/tag/ en WordPress).
Avec robots.txt, on peut les bloquer :
3- Il améliore la vitesse d’exploration
Si votre site est très volumineux, limiter l’exploration des pages secondaires peut accélérer l’indexation des pages importantes.
Exemple :
Une boutique en ligne avec plus de 50 000 produits ne veut pas gaspiller le budget de crawl sur les images en haute définition. On peut alors bloquer :
Comment configurer un fichier Robots.txt efficace ?
Modèle de configuration standard
Nous pouvons vous conseiller une configuration de base qui convient à la majorité des sites :
Configuration du Robots.txt sur WordPress
Bonne nouvelle ! WordPress permet de modifier le robots.txt sans toucher au code.
Pour cela il suffit de modifier le fichier Robots.txt avec Yoast SEO
- Installer l’extension Yoast SEO.
- Aller dans SEO > Outils > Éditeur de fichiers.
- Modifier le robots.txt avec l’interface simplifiée.
- Enregistrer.
Les erreurs courantes à éviter dans un Robots.txt
- Bloquer accidentellement Google avec Disallow: /
Empêcher l’accès aux fichiers CSS et JS (nécessaires au rendu des pages).
Utiliser robots.txt au lieu de noindex : - Disallow empêche Google d’explorer la page.
- noindex autorise l’exploration mais empêche l’affichage dans les résultats de recherche.
Comment tester et valider son Robots.txt
- Via Google Search Console (Outil de test robots.txt)
- Via Screaming Frog SEO Spider (Audit des directives)
FAQ
Puis-je empêcher l’indexation d’une page avec Robots.txt ?
Non, il faut utiliser la directive noindex dans la balise <meta>.
Robots.txt influence-t-il mon classement SEO ?
Indirectement oui, car il optimise l’exploration du site.