Le robots.txt pour le référencement naturel
Le robots.txt est un fichier texte utilisant un format précis qui permet à un Webmaster de contrôler quelles zones de son site un robot d'indexation est autorisé à analyser. Ce fichier texte sera disponible à une URL bien précise pour un site donné, par exemple http://www.monsite.com/robots.txt
Pour bien comprendre à quoi sert un robots.txt, il faut comprendre la manière dont fonctionnent les robots d'indexation des moteurs de recherche (appelés aussi Web spiders, Web crawlers ou Bots) tels que Google, Yahoo ou Bing. Voici leurs actions lorsqu'ils analysent un site tel que www.monsite.com :
- ils commencent par télécharger et analyser le fichier http://www.monsite.com/robots.txt.
- ils analysent les règles de ce fichier pour savoir quelles URLs ils sont autorisés à télécharger
- Si le robots.txt l'autorise, ils téléchargent la racine du site, c'est à dire l'URL http://www.monsite.com/
- ils analysent le contenu de cette page et en extrait notamment la liste des liens internes qu'elle contient.
- tous ces liens internes sont à leur tour téléchargés (si les règles du fichier robots.txt ne les filtrent pas), et leur liens internes extraits
- récursivement tous ces liens sont téléchargés et analysés (s'ils sont nouveaux), jusqu'à ce que le robot n'en trouve plus de nouveau.
Ai je besoin d'un robots.txt pour mon site ?
Il n'est pas du tout obligatoire pour un site web d'avoir un robots.txt. S'il n'y en pas, toutes les URLs que le robot pourra trouver seront analysées.Pour savoir si vous avez besoin d'un fichier robots.txt sur votre site, posez vous cette simple question: y-a-t-il des zones non sécurisées sur votre site que vous ne désirez pas voir dans des résultats de recherche tels que Google, Yahoo, Bing... si la réponse est oui, alors vous avez besoin d'un robots.txt. Sinon, ce n'est pas utile.
Comment générer un fichier robots.txt ?
Un fichier robots.txt contient un ensemble de règles. Une règle est définie par 3 valeurs:- Allow / Disallow: est-ce une règle qui autorise ou au contraire qui filtre certaines URLs ?
- le User-Agent: à qui s'adresse la règle ? (tous les robots, seulement google, seulement bing...)
- l'expression régulière d'URL: à quelles URLs du site s'adresse la règle ?
Un bon outil de génération automatique de robots.txt est fourni par Google sur son site des Webmaster tools
Même si vous avez un bon niveau technique, nous vous déconseillons de créer des robots.txt trop sophistiqués. Deux raisons à cela :
- plus le robots.txt est compliqué, plus il y a risque d'erreur. Et une erreur peut avoir une conséquence catastrophique: vos pages publiques ne seraient plus référencées par Google !
- si vous désirez utiliser des expressions régulières compliquées pour les URLs, sachez que seuls certains robots (Googlebot notamment) sait les interpréter correctement. Vous prenez donc un risque de mauvaise interprétation pour les autres.
But du fichier
Le fichier robots.txt permet d' interdire à des moteurs de recherche des répertoires entiers ou des pages. Il existe une erreur très fréquentes et relativement grave dans le nom du fichier : robots.txt (en minuscule) avec un s. Sinon, il ne sert a rien. (Merci à Damien Guigue de Yooda.com qui a trouvé cette erreur sur le site.)Construction du fichier
Il est conseillé d' utiliser un éditeur de texte tel que le Bloc-notes. Des programmes comme Word sont utilisables, mais avec précaution, car le fichier sauvé sur le serveur peut parfois ne pas être au format ASCI pur.Le fichier est composé des deux instructions suivantes :
User-agent: { nom du robot }
Disallow: { document-a-exclure }
Par exemple, pour indiquer au spider d'Alta Vista, dénommée Scooter, de ne pas indexer les fichiers perso.html et emploi.html, il faut insérer les lignes suivantes dans robots.txt :
User-agent: Scooter
Disallow: perso.html
Disallow: emploi.html
Syntaxe :
User-agent| User-agent: { nom du robot } | L' ordre concerne un robot précis |
| User-agent:* | L' ordre concerne tous les robots. |
| Disallow:/index2.htm | Indique aux robots qu 'ils ne doivent pas indexer la page /index2.htm situé à la racine du site. |
| Disallow:/admin/ | Indique aux robots qu 'ils ne peuvent indexer les fichiers contenus dans le répertoire admin. |
| Disallow: | Indique aux robots que tout doit être indexé. Identique à un fichier robots.txt inexistant. |
Noindex
| Noindex | Ne pas indexer les pages |
| # commentaires | Vos commentaires doivent être précédé d' un # |
| nosnippet | Ne pas mettre d' extraits de pages |
| noarchives | Émécher l' archivage des pages |
Règles et précautions
- Il doit exister un seul fichier robots.txt sur l' ensemble de votre site.
- Il doit être situé à la racine de votre site
- L' astérisque (*) n' est acceptée que dans le champ User-agent.
- Vous devez créer plusieurs sections User-agent si vous souhaitez que votre fichier robots.txt s' applique à différents moteurs de recherche.
- Le nom du fichier (robots.txt) doit être écrit impérativement en minuscule.
- Votre fichier robots.txt doit être en mode ASCII.
La liste de de certains robots
| Outil de recherche: | User-Agent de l' outil: |
| Alta Vista | Scooter |
| Infoseek | InfoSeek Sidewinder |
| Excite | ArchitextSpider |
| Lycos | Lycos_Spider_(T-Rex) |
| Northern Light | Gulliver |



Aucun commentaire:
Enregistrer un commentaire