Protocole d'exclusion des robots

format standard permettant de conseiller aux robots d'indexation et d'extraction d'ignorer certaines pages d'un site web

Le protocole d'exclusion des robots souvent nommé robots.txt, est une ressource de format texte qui peut être placée à la racine d'un site web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d'indexation des moteurs de recherche. Par convention, les robots consultent le fichier texte nommé robots.txt avant d'indexer un site Web. Ce protocole a été proposé par Martijn Koster en 1994 et il a été rapidement adopté comme un standard de facto du web.

UsagesModifier

L'usage de robots.txt permet d'éviter que des ressources sans intérêt public se retrouvent dans la page de résultats d'un moteur de recherche. En outre, le fait que les robots n'accèdent pas à ces ressources allège le travail du serveur HTTP et le trafic sur le réseau informatique.

Il est important de comprendre qu’il ne s’agit là que d’une indication sur ce que doivent faire les robots bienveillants, ce n’est en aucun cas un élément de sécurité. En effet, certains robots ignorent ce fichier, soit délibérément parce qu’ils cherchent des informations privées (des adresses électroniques par exemple, pour y envoyer du courrier indésirable), soit parce que le robot est trop simple pour gérer ce standard.

De manière facultative, ce fichier peut contenir l'adresse d'un plan du site dédié aux moteurs de recherche appelé « sitemap » dont le format est le XML.

Le , Google a indiqué vouloir standardiser[1] l’interprétation du fichier robots.txt tout en précisant que sa proposition respecte le brouillon initial de son créateur Martijn Koster. Cette nouvelle norme devrait, par exemple, permettre à tout protocole de transfert d’accéder à robots.txt et plus uniquement HTTP donc, mais aussi FTP, CoAP, etc.

ExemplesModifier

Autoriser tous les robots à accéder au site :

User-agent: *
Allow:

Interdire l'accès au site à tous les robots :

User-agent: *
Disallow: /

Pour interdire à tous les robots, sauf Googlebot, l'accès à un dossier en particulier, par exemple http://example.org/forum/.

User-agent: *
Disallow: /forum

User-agent: googlebot
Disallow:

Notes et référencesModifier

  1. « Google veut standardiser l'interprétation du fichier robots.txt », sur BDM, (consulté le )

Voir aussiModifier

Articles connexesModifier

Liens externesModifier

  • (en) Robotstxt.org (robotstxt.org) : site dédié avec les spécifications du standard.
  • (fr) Robots.txt (robots-txt.com) : ressources en français sur le protocole d'exclusion des robots.