Robots.txt : une proposition pour standardiser officiellement ce protocole

4/5 - (5 votes)

En 1994, Martijn Koster a conçu le fichier robots.txt avec l’aide d’autres éditeurs soucieux de mieux protéger leurs sites des robots aspirateurs de données. Conçu sur la base du Robots Exclusion Protocol (REP), il est aujourd’hui encore utilisé par de nombreux éditeurs et moteurs de recherche. Force est toutefois de constater qu’il n’a pas évolué depuis et ne fait même pas l’objet d’un standard officiel du Web. Avec l’aide de son concepteur initial, d’autres moteurs de recherche et de quelques webmasters, Google a alors décidé de documenter ce protocole avant de le soumettre à l’IETP (Internet Engineering Tas Force).

Sommaire

A quoi sert le robots.txt ?

Pour rappel, le robots.txt est un fichier texte qui, si on le place à la racine d’un site web, indique aux robots « aspirateurs » des moteurs de recherche d’indexer ou de ne pas indexer telle ou telle page dudit site. Ainsi, quand les robots débarquent sur un site doté de ce protocole, c’est lui qu’ils vont analyser en premier pour ensuite appliquer ses consignes lors de l’analyse des pages du site.

Il s’agit donc d’un protocole d’exclusion qui permet de protéger certaines zones sensibles du site. C’est notamment le cas sur un site gouvernemental qui veut indexer les données destinées au grand public et garder secret les données réservées aux membres du gouvernement. En utilisant le robots.txt, ce site verra sa zone publique analysée et indexée tandis que les robots des moteurs de recherche n’y auront tout simplement pas accès.

Quelles sont les propositions émises sur le document de soumission ?

Parmi les propositions émises sur le document adressé à l’IEFT, on retrouve un bon nombre de recommandations telles que :

la possibilité pour tous les protocoles de transfert d’utiliser robots.txt. Cela signifie que ce fichier ne sera plus limité à http(s), mais que désormais, il pourra également être utilisé pour CoAP et FTP.
tous les développeurs ont l’obligation d’analyser, au moins les 500 premiers kilooctets d’un fichier robots.txt.
une taille maximale de fichier doit être établie pour que les connexions ne soient pas ouvertes trop longtemps afin de réduire la charge inutile des serveurs.
le temps de mise en cache maximum est limité à 24 heures pour que les propriétaires des sites puissent mettre leur fichier robots.txt à jour quand ils en ressentent le besoin.
si jamais un fichier robots.txt autrefois accessible devenait inaccessible pour une quelconque raison, les pages interdites au crawl devront rester inexplorées pendant une durée assez longue afin que les données privées restent privées jusqu’à ce que le problème soit résolu.
l’uniformisation de la syntaxe des directives proposées dans le fichier pour qu’elle s’adapte aux évolutions rencontrées depuis le temps.

Que peut-on attendre de cette initiative ?

Maintenant que les propositions ont été soumises à l’IEFT, on attend de voir si ces changements demandés seront retenus ou non.

En attendant une éventuelle suite favorable à cette requête, Google met à la disposition des développeurs l’outil qu’il utilise pour étudier les fichiers robots.txt à savoir librairie C++.
Et il en profite pour annoncer qu’à partir du 1er septembre 2019, d’autres directives ne seront plus opérationnelles à savoir le Noindex, le Crawl-delay et le Nofollow. Tous ceux qui les utilisent devraient donc penser à modifier leurs fichiers robots.txt avant cette échéance.