mercredi 30 mars 2011

Qu' est-ce que le fichier robots.txt ?

Le robots.txt pour le référencement naturel

 

Le robots.txt est un fichier texte utilisant un format précis qui permet à un Webmaster de contrôler quelles zones de son site un robot d'indexation est autorisé à analyser. Ce fichier texte sera disponible à une URL bien précise pour un site donné, par exemple http://www.monsite.com/robots.txt
Pour bien comprendre à quoi sert un robots.txt, il faut comprendre la manière dont fonctionnent les robots d'indexation des moteurs de recherche (appelés aussi Web spiders, Web crawlers ou Bots) tels que Google, Yahoo ou Bing. Voici leurs actions lorsqu'ils analysent un site tel que www.monsite.com :
  • ils commencent par télécharger et analyser le fichier http://www.monsite.com/robots.txt.
  • ils analysent les règles de ce fichier pour savoir quelles URLs ils sont autorisés à télécharger
  • Si le robots.txt l'autorise, ils téléchargent la racine du site, c'est à dire l'URL http://www.monsite.com/
  • ils analysent le contenu de cette page et en extrait notamment la liste des liens internes qu'elle contient.
  • tous ces liens internes sont à leur tour téléchargés (si les règles du fichier robots.txt ne les filtrent pas), et leur liens internes extraits
  • récursivement tous ces liens sont téléchargés et analysés (s'ils sont nouveaux), jusqu'à ce que le robot n'en trouve plus de nouveau.
Il est important de bien comprendre que le robots.txt n'est en aucun cas une manière de sécuriser son site. Un robot 'bien élevé' tiendra compte de ce fichier pour ne pas télécharger les URLs non désirées par le webmaster. Mais un robot 'mal élevé' - par exemple un concurrent qui veut aspirer votre site, n'a aucune obligation technique d'en tenir compte. Evidemment, la totalité des robots des principaux moteurs de recherche (Google, Yahoo, Vista) sont bien élevés.

Ai je besoin d'un robots.txt pour mon site ?

Il n'est pas du tout obligatoire pour un site web d'avoir un robots.txt. S'il n'y en pas, toutes les URLs que le robot pourra trouver seront analysées.
Pour savoir si vous avez besoin d'un fichier robots.txt sur votre site, posez vous cette simple question: y-a-t-il des zones non sécurisées sur votre site que vous ne désirez pas voir dans des résultats de recherche tels que Google, Yahoo, Bing... si la réponse est oui, alors vous avez besoin d'un robots.txt. Sinon, ce n'est pas utile.

Comment générer un fichier robots.txt ?

Un fichier robots.txt contient un ensemble de règles. Une règle est définie par 3 valeurs:
  • Allow / Disallow: est-ce une règle qui autorise ou au contraire qui filtre certaines URLs ?
  • le User-Agent: à qui s'adresse la règle ? (tous les robots, seulement google, seulement bing...)
  • l'expression régulière d'URL: à quelles URLs du site s'adresse la règle ?
Pour créer un fichier robots.txt, vous pouvez soit créer le fichier manuellement, soit utiliser un outil pour le générer automatiquement. Yakaferci vous conseille une approche mixte: générer un robots.txt automatiquement, puis le relire attentivement et éventuellement l'affiner manuellement.
Un bon outil de génération automatique de robots.txt est fourni par Google sur son site des Webmaster tools
Même si vous avez un bon niveau technique, nous vous déconseillons de créer des robots.txt trop sophistiqués. Deux raisons à cela :
  • plus le robots.txt est compliqué, plus il y a risque d'erreur. Et une erreur peut avoir une conséquence catastrophique: vos pages publiques ne seraient plus référencées par Google !
  • si vous désirez utiliser des expressions régulières compliquées pour les URLs, sachez que seuls certains robots (Googlebot notamment) sait les interpréter correctement. Vous prenez donc un risque de mauvaise interprétation pour les autres.

But du fichier

Le fichier robots.txt permet d' interdire à des moteurs de recherche des répertoires entiers ou des pages. Il existe une erreur très fréquentes et relativement grave dans le nom du fichier : robots.txt (en minuscule) avec un s. Sinon, il ne sert a rien. (Merci à Damien Guigue de Yooda.com qui a trouvé cette erreur sur le site.)

Construction du fichier

Il est conseillé d' utiliser un éditeur de texte tel que le Bloc-notes. Des programmes comme Word sont utilisables, mais avec précaution, car le fichier sauvé sur le serveur peut parfois ne pas être au format ASCI pur.
Le fichier est composé des deux instructions suivantes :
User-agent: { nom du robot }
Disallow: { document-a-exclure }
Par exemple, pour indiquer au spider d'Alta Vista, dénommée Scooter, de ne pas indexer les fichiers perso.html et emploi.html, il faut insérer les lignes suivantes dans robots.txt :
User-agent: Scooter
Disallow: perso.html
Disallow: emploi.html

Syntaxe :

User-agent
 User-agent: { nom du robot }  L' ordre concerne un robot précis
 User-agent:*  L' ordre concerne tous les robots.
Disallow
 Disallow:/index2.htm  Indique aux robots qu 'ils ne doivent pas indexer la page /index2.htm situé à la racine du site.
 Disallow:/admin/  Indique aux robots qu 'ils ne peuvent indexer les fichiers contenus dans le répertoire admin.
 Disallow:  Indique aux robots que tout doit être indexé. Identique à un fichier robots.txt inexistant.

Noindex

 Noindex   Ne pas indexer les pages
Commentaires
 # commentaires  Vos commentaires doivent être précédé d' un #

Google

Quelques commandes réservées uniquement à Google
 nosnippet   Ne pas mettre d' extraits de pages
 noarchives   Émécher l' archivage des pages

Règles et précautions

  • Il doit exister un seul fichier robots.txt sur l' ensemble de votre site.
  • Il doit être situé à la racine de votre site
  • L' astérisque (*) n' est acceptée que dans le champ User-agent.
  • Vous devez créer plusieurs sections User-agent si vous souhaitez que votre fichier robots.txt s' applique à différents moteurs de recherche.
  • Le nom du fichier (robots.txt) doit être écrit impérativement en minuscule.
  • Votre fichier robots.txt doit être en mode ASCII.

La liste de de certains robots

Outil de recherche:  User-Agent de l' outil:
Alta Vista Scooter 
Infoseek  InfoSeek Sidewinder
Excite ArchitextSpider
Lycos Lycos_Spider_(T-Rex) 
Northern Light Gulliver

Aucun commentaire:

Enregistrer un commentaire