Hébergement Internet évolutif
coinhg bord coinhd
 
panel  Espace Client
Compte
Mot de passe
arrow Oublié ?
arrow Créer un compte
 
coinbg bord coinbd
coinhg bord coinhd
 
panel  Newsletter
   
  Inscription
Désinscription
 
 
coinbg bord coinbd
coinhg2 bord coinhd2
 
news  News
14/03/2007
Encore et toujours des nouveautés et promotions sur Jexiste pour ce
mois de mars 2007 !


* Paiement p ...
 news
 
coinbg2 bord coinbd2
>FAQ > Création de sites > Le fichier Robots.txt

Aide technique
FAQ (questions fréquentes)
    Compte
    Noms de domaine
    Statistiques
    Technique
    E-Mail
    Services supplémentaires
FAQ (questions fréquentes) classée par categorie
Les Dossiers - Création de sites
Les Dossiers - Le droit & internet
Gagner de l'argent avec son site - Les regies
Les générateurs
Aide graphique
imode


Le fichier Robots.txt.

Nous allons vous expliquer, ici, le fonctionnement du fichier robots.txt.
Son avantage ? Il vous permettra d'avoir vos pages web indexées par la plupart des robots utilisés par les moteurs de recherche.
Il va aussi vous permettre d'interdire l'accès à certaines de vos pages aux moteurs de recherche.

En gros, pour simplifier les choses, le fichier " robots.txt " qui devra OBLIGATOIREMENT se trouver à la racine de votre site internet, donnera simplement des instructions au spider du moteur en lui indiquant ce qu'il peut faire et ce qu'il ne doit pas faire .

Quand un robot arrive sur un site pour indexer ses pages ou simplement pour voir les pages ajoutées (par exemple, http://www.votresite.com/), il va automatiquement rechercher le fichier " robots.txt " à la racine du site, qui sera donc à l'adresse http://www.votresite.com/robots.txt, avant de rechercher n'importe quelle autre page.
Si ce fichier existe, il commencera par lire les instructions qu'il contient et suivra les commandes à la lettre.
Si, de surcroît, il ne trouve pas de fichier " robots.txt " à la racine de votre site, il commencera son travail de lecture et d'indexation de vos pages afin de les ajouter à sa base de données, considérant que rien ne lui est interdit.

En outre, vous ne pouvez avoir qu'un seul fichier robots.txt sur votre serveur, il doit se trouver à la racine de votre site et doit TOUJOURS être écrit en minuscules.

Le style de contenu du fichier robots.txt se présente de la façon suivante :
User-agent: *
Disallow: /cgi-bin/
Disallow: /temps/
Disallow: /personel/
Disallow: /services/infoprix.htm

Explication :
User-agent: * signifie que l'accès est accordé à tous les robots.
Disallow: signifie simplement que l'accès est refusé aux robots.
Disallow: /cgi-bin/ : l'accès est refusé aux robots dans le dossier cgi-bin
Disallow: /temps/ : l'accès est refusé aux robots dans le dossier temps
Disallow: /personel/ : l'accès est refusé aux robots dans le dossier personnel
Disallow: /services/infoprix.html : l'accès est refusé aux robots pour la page infoprix.htm dans le dossier services

En prenant l'exemple du dossier /temps/, et en imaginant que vous ayez une page nommée aide.htm dans le dossier /temps/, son url sera donc: http://www.votresite/temps/aide.htm
En mettant la commande " Disallow: /temps/ " aucun robot ne pourra indexer la page aide.htm qui se trouve dans le dossier /temps/ vu que vous lui en interdisez l'accès.

Ne jamais laisser de lignes vierges ou blanches (ENTER) le robot l'interprèterait comme étant la fin du fichier.
L'étoile (*) quand à elle, est acceptée uniquement dans le champ User-agent.
Comme dans le langage PHP, le signe " # " est considéré comme étant une ligne à ne pas prendre en compte et sert à inclure des commentaires.
Attention à toujours mettre le signe " # " au début d'une ligne pour faire un commentaire.

Infos :
Nom des principaux robots
Altavista : Scooter
Hot Bot : Slurp
Lycos : T.Rex
Northern Light : Gulliver