Robot.txt : tous les moteurs de recherche le respecte ? - Hébergement - Réseaux grand public / SoHo
Marsh Posté le 11-03-2014 à 15:43:46
c'est Robots.txt et ça ne protège que des moteurs de recherche qui ont envie de le respecter. Attention également à ne pas donner d'informations qui pourraient aider un attaquant.
Marsh Posté le 11-03-2014 à 15:55:47
Misssardonik a écrit : Attention également à ne pas donner d'informations qui pourraient aider un attaquant. |
vivi, c'est pour ça que je n'ai pas donné le nom de mon site
Et oui, j'ai oublié le "s" en recopiant le nom du fichier, merci !
Du coup, ça existe vraiment des moteurs de recherche qui ne le respecte pas ??
Comment en trouver un, pour vérifier la "porosité" de notre site et prendre éventuellement des actions préventives ?
Marsh Posté le 11-03-2014 à 20:19:02
tiftif a écrit : vivi, c'est pour ça que je n'ai pas donné le nom de mon site |
Préventives ? Au final que cherches tu exactement : ne pas être référencé, maîtrisé les gens qui s'y connecte ?
Car en même temps "bienvenu sur internet" . Si tu ne veux pas qu'on y accède tu colles un login/password à ton site, une restriction sur les IP des clients, etc...
Marsh Posté le 11-03-2014 à 20:25:50
ReplyMarsh Posté le 12-03-2014 à 09:16:39
O'Gure a écrit : |
Sisi, je sais que si c'est sur internet c'est visible. Si on ne voulait aps que ce soit a disposition de tous, on mettrait un mot de passe..
Cela dit, mes collègues pensent qu'en mettant un robots.txt ça va empécher complètement la recherche d'infos par les moteurs de recherche.
Je voudrais leur prouver que non.
(les actions préventives pourraient être de mettre un mot de passe par ex)
exeral a écrit : avec un wget recursif, ya pas moyen de tester ? |
wget... le client http en invite de commandes ?
Marsh Posté le 11-03-2014 à 15:32:58
Bonjour à tous,
j'ai ajouté un fichier robot.txt à mon site, avec les lignes
User-agent: *
Disallow: /
En faisant une recherche dans google, il est bien noté que La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site..
Je voulais savoir si cela protégeait de tous les moteurs de recherche ou si certains passaient à travers ?
Merci d'avance !
---------------
Page flick r -- Feedback