Les Robots

[Lois de la robotique
1 - Un robot ne peut porter atteinte à un être humain, ni, restant passif, permettre qu'un être humain soit exposé au danger.
2 - Un robot doit obéir aux ordres que lui donne un être humain, sauf si de tels ordres entrent en conflit avec la Première loi.
3 - Un robot doit protéger son existence tant que cette protection n'entre pas en conflit avec la Première ou la Deuxième loi.
Isaac Asimov]

Non, il ne s'agit pas des mêmes robots que ceux D'Isaac Asimov, ici, ils sont "moins évolués", quoique !

Les robots dont nous parlons ici vont en fait scanner nos sites en ligne afin d'alimenter les bases de données des moteurs de recherche (indexation des pages du site). Ces mêmes moteurs qui proposeront ensuite aux visiteurs d'aller sur notre site par rapport aux recherches qu'ils auront tapé.

Or nous aussi, pour la sécurité d'un site internet, nous allons pouvoir poser des règles à ces robots dans un fichier nommé 'robots.txt'. Il serait en effet dommage et grave que les moteurs de recherche proposent les pages concernant l'administration de notre site, ...

Image non trouvée ! Le fichier robots.txt n'est pas à lui seul suffisant pour protéger les données sensibles de votre site ! L'utilisation de mots de passe est donc à mettre impérativement pour éviter tous problèmes.

En effet, rien n'oblige les robots à respecter scrupuleusement les règles de ce fichier (voire ne rien respecter du tout, et même de ne pas se fatiguer à le lire !), ils peuvent aussi interpréter le contenu de ce fichier de façon différentes...

Pour créer ces règles, il suffit de déposer à la racine de notre site un fichier robots.txt.

Dans ce fichier, nous indiquerons les règles à respecter de la manière suivante:

User-agent: pour indiquer le nom du robot qui devra respecter les règles qui suivent cette ligne (Exemple pour google, le robot d'exploration pour indexation se nomme Googlebot). * pour indiquer que tous les robots doivent respecter les règles suivent cette ligne.

Image non trouvée ! Généralement, vous mettrez *, sinon, une liste des robots courant pourra être trouvée sur http://www.robotstxt.org/db.html

Il y a deux types instructions qui suivront User-agent:

Disallow pour bloquer des URL

Allow pour autoriser des URL

Ces deux instructions attendent donc des URL.

Disallow /monrep/pagesecrete.htm va bloquer la page 'pagesecrete' du répertoire /monrep.

Disallow /monrep/ va bloquer tout le contenu de /monrep

Pour simplifier l'écriture de ces URL, le joker * pourra être utilisé pour remplacer une séquence de caractères:

Par exemple:

Disallow /*rep

Va bloquer l'accès à toutes les URL contenant rep

donc /monsite/rep00, /monsite/rep01, /monsite/rep02

mais aussi /monsite/rep08/mesdocs

Il est possible de limiter ce cascading en indiquant la fin d'une url par $

Par exemple, pour bloquer tous les fichiers gif de votre site, vous pouvez taper :

Disallow /*.gif$

Il est aussi possible d'indiquer aux robots la liste des pages du site. Il faut alors utiliser la commande sitemap.

sitemap: localisation (complète) du fichier sitemap.xml

Exemple :

Sitemap : http://supertos.free.fr/sitemap.xml

Explications sur le contenu du fichier sitemap à venir...

Vous pouvez aussi trouver d'autres informations concernant plus particulièrement les robots de Google sur la page suivante:

http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449