[robots.txt] comment fonctionnent les moteurs de recherche

comment fonctionnent les moteurs de recherche [robots.txt] - Programmation

Marsh Posté le 22-02-2002 à 18:00:13    

hello,
 
Je suis en train de me renseigner sur le référencement de site web, et je me pose quelques question sur le fichier robots.txt.
 
Ce fichier permet de spécifier pour chaque moteur de recherche les répertoires qu'il ne doit pas examiner.
J'ai regardé ces fichiers sur certains sites et parfois, il y a dedans des répertoires qui sont protégés par un mot de passe ou non lisible.
 
Quel est l'intérêt dans ce cas de le spécifier dans ce fichier ? ça ne fait que donner des infos sur les répertoires à des gens peut-être mal intentionnés...
 
Le moteur de recherche accède à la première page et examine les liens et les infos de cette page et fait récursivement la même chose pour chaque lien qu'il a trouvé ?  
Dans ce cas, il ne devrait jamais avoir accès à des répertoires non linké dans des pages qu'il examine ? je me trompe ?
ex: un répertoire /privé/ qui n'est linké nulle part.
 
Si un répertoire n'est pas exécutable (parcourable), il ne sait avoir accès que page par page par des liens qu'il a trouvé sur d'autres ou pas ?
ex : http://www.monsite.com/docs/ affichera une erreur (accès non authorisé) ; http://www.monsite.com/docs/ref-html.php affichera la page ref-html.php.
 
Merci bcp pour toutes les infos que vous pourriez me donner :)
Ethernal

Reply

Marsh Posté le 22-02-2002 à 18:00:13   

Reply

Marsh Posté le 22-02-2002 à 19:16:42    

Truc : dans ton repertoire http://www.monsite.com/docs/, met un fichier index.html qui affiche une page d'erreur :)

Reply

Marsh Posté le 23-02-2002 à 01:28:23    

oui, mais je veux pas de message d'erreur ou koi.
 
Je voudrais savoir s'ils indexent les pages et les répertoires qui ne sont pas linkés.  Et si oui comment font-ils ?
 
Est-ce que je dois mettre dans le fichiers robots.txt qu'il ne peut pas accéder au répertoire /privé/ qui n'est linkée dans aucune page html de mon site ?

Reply

Marsh Posté le 23-02-2002 à 01:34:01    

ethernal a écrit a écrit :

oui, mais je veux pas de message d'erreur ou koi.
 
Je voudrais savoir s'ils indexent les pages et les répertoires qui ne sont pas linkés.  Et si oui comment font-ils ?
 
Est-ce que je dois mettre dans le fichiers robots.txt qu'il ne peut pas accéder au répertoire /privé/ qui n'est linkée dans aucune page html de mon site ?  




 
Slt,
Si ce répertoire n'est pas linké, il n'y a pas de raisons que le moteur y aille, à moins qu'il essaie au pif  ;) mais je n'ai encore jamais vu ça  :D

Reply

Marsh Posté le 23-02-2002 à 02:04:05    

thx c'est exactement ce que je voulais savoir :)
 
Donc c'est bien comme je pensais, mais je m'inquietais ne sachant pas comment ils opèrent, tout en me demandant comment ils feraient pour lister un répertoire "caché".
 
un grand merci à vous 2  :jap:

Reply

Marsh Posté le 23-02-2002 à 02:07:38    

Sinon la manière la plus propre, et surtout la plus sûre, c'est de mettre un .htaccess dans le dossier en question (et aussi un .htpasswd si tu veux pouvoir y accéder avec un login/pass). C'est normalement expliqué sur le site de ton fournisseur.... en général :). Ainsi, personne de non autorisé peut accéder à ce dossier.
 

ethernal a écrit a écrit :

thx c'est exactement ce que je voulais savoir :)
 
Donc c'est bien comme je pensais, mais je m'inquietais ne sachant pas comment ils opèrent, tout en me demandant comment ils feraient pour lister un répertoire "caché".
 
un grand merci à vous 2  :jap:  



Reply

Marsh Posté le 23-02-2002 à 02:12:13    

oui c'est clair mais j'ai pas trop envie pour l'instant de le faire

 

[jfdsdjhfuetppo]--Message édité par ethernal--[/jfdsdjhfuetppo]

Reply

Marsh Posté le 23-02-2002 à 02:13:19    

ethernal a écrit a écrit :

oui c'est clair mais j'ai pas trop envie pour l'instant de le faire ;)  




 
Comme tu veux ;)

Reply

Marsh Posté le 23-02-2002 à 02:14:19    

... comme je gère mon propre serveur,je dois modifier la config de httpd.conf pour qu'il prenne en compte les htaccess pour chaque répertoire à protéger
(pour le moment j'ai un "allowoverride none"

Reply

Marsh Posté le 23-02-2002 à 02:19:00    

ethernal a écrit a écrit :

... comme je gère mon propre serveur,je dois modifier la config de httpd.conf pour qu'il prenne en compte les htaccess pour chaque répertoire à protéger
(pour le moment j'ai un "allowoverride none"  




 
Haaa ok :)... ... Tiens !!!... voilà ce que j'ai laissé dans la config du miens... et voilà pourquoi les .htaccess ne marchaient pas... zut :D (merci)

Reply

Marsh Posté le 23-02-2002 à 02:19:00   

Reply

Marsh Posté le 23-02-2002 à 02:25:28    

hé hé ;) comme quoi ça paie parfois d'aider les autres :lol:
 
j'espère que je dis juste pour le allowoverride.
ça dépend de ta config par défaut.
Si elle est trop stricte, tu devras pour chaque répertoire pour lequel tu veux mettre un htaccess modifier la config allowoverride (je m'embrouile un peu, mais tu a compris le sens ;) )

Reply

Marsh Posté le 23-02-2002 à 02:30:51    

ethernal a écrit a écrit :

hé hé ;) comme quoi ça paie parfois d'aider les autres :lol:
 
j'espère que je dis juste pour le allowoverride.
ça dépend de ta config par défaut.
Si elle est trop stricte, tu devras pour chaque répertoire pour lequel tu veux mettre un htaccess modifier la config allowoverride (je m'embrouile un peu, mais tu a compris le sens ;) )  




 
Ouep ça aide :)
 
Pour la config, en fait c'est pour des tests en local, et j'y ai pas trop touché pour le moment, à part pour qu'il accepte php4 et les pages par défaut en php (index.php quoi) :)

Reply

Marsh Posté le 23-02-2002 à 02:41:30    

les <virtualHost *> sont pas mal à tester si un jour tu en as l'occasion :)
 
bon allez moi dodo a+  :hello:

Reply

Marsh Posté le 23-02-2002 à 02:44:06    

ethernal a écrit a écrit :

les <virtualHost *> sont pas mal à tester si un jour tu en as l'occasion :)
 
bon allez moi dodo a+  :hello:  




 
Je les ai déjà utilisés, c'est vrai que c'est sympathique, surtout quand tu veux tester 2 sites sur un même serveur.
 
Bon vraiment plus là  :non:

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed