Projet de spider - Java - Programmation
Marsh Posté le 29-06-2005 à 09:22:42
esox_ch a écrit : Dans le sens ou les adresses que j'insererai manuellement dans le bot ne seront jamais utilisables pour joindre la totalité des pages.. |
Grand jeu : le web contient combien de composantes fortmeent connexes ?
(si tu choisis bien les addresses de départ, tu peux quand même aller très très loin dans l'indexation.
Marsh Posté le 29-06-2005 à 09:25:19
Personnellement, j'ai acheté ce bouquin :
http://www.amazon.com/exec/obidos/ [...] 97-4018546
Les exemples sont en Java, mais on peut trè sfacilement les adapter à d'autres langages. C'est un bouquin bien fait, progressif et très interessant
Marsh Posté le 29-06-2005 à 09:45:58
Merci beaucoup a vous 2, je crois que je vais acheter ce livre comme ca on aura une chance de faire qqch qui marche . Je vous tiens informés. Au revoir et merci
Marsh Posté le 29-06-2005 à 13:09:30
t'as vraiment acheté ce bouquin harko? j'veux dire... pour les bots d'hfr?
Marsh Posté le 29-06-2005 à 13:23:54
-- tu as de la meilleur documentation ? Parceque je suis preneur . J'en demandais pas tant (je demandais juste quelques conseils) mais c'est vrai que si des supports complets sur le sujet existent (et qu'ils sont interessants) pourquoi s'en priver?
Marsh Posté le 29-06-2005 à 13:29:40
non non, c'etait juste une question à harko, hors sujet
Marsh Posté le 29-06-2005 à 17:24:31
the real moins moins a écrit : t'as vraiment acheté ce bouquin harko? j'veux dire... pour les bots d'hfr? |
ben non, j'ai fait les bots d'HFR bien avant d'acheter ce bouquin !
mais en codant les bots, j'ai constaté que c'était un domaine qui m'intéressait, et j'ai voulu approfondir
Marsh Posté le 29-06-2005 à 17:31:25
Harkonnen tu pourrais resumer un petit peu de quoi parle ce bouquin?
Marsh Posté le 29-06-2005 à 17:38:51
Harkonnen a écrit : ben non, j'ai fait les bots d'HFR bien avant d'acheter ce bouquin ! |
ok, je croyais que tu avais acheté le bouquin expres pour botter hfr
Marsh Posté le 29-06-2005 à 17:40:07
le bouquin commence par la programmation des sockets en java.
viennent ensuite les descriptions des protocoles HTTP et HTTPS, avec la façon d'y accéder par socket, puis le parsing HTML, le post de formulaire par socket et les cookies.
enfin, les 6 derniers chapitres décrivent la façon de coder des bots, des spiders, des aggregators en se servant des notions vues précédemment.
Marsh Posté le 29-06-2005 à 09:21:25
Bonjour,
Avec quelques amis nous aurions decidé d'essayer de concevoir au mieu un spider (genre googlebot) et qui sait, p-e de faire un petit moteur de recherche si on arrive a qqch de concluant (Loin de nous l'idée de tenter d'arriver a un niveau semblable a celui de Google, c'est plutot pour travailler un peu nos connaissances de Java).
Apres avoir lu pas mal de doc sur le net,j'ai a peu pres une idée de comment le bot se deplace sur les differentes pages mais parcontre j'ai pas trop bien compris comment faire pour l'envoyer sur les pages.
J'ai lu qu'on peut soumettre a google l'adresse d'un site pour qu'il la valide, et qu'apres il suivra les liens sur le site pour faire grandir sa base de données ... mais dans mon cas ca risque de poser des problemes quand meme ... Dans le sens ou les adresses que j'insererai manuellement dans le bot ne seront jamais utilisables pour joindre la totalité des pages..
On avait donc pensé a faire qqch de plus "radical" (et catastrophiquement lent) c'est a dire de tenter la connection sur le port 80 de toutes les adresses IP, puis de voir lesquelles sont atteignables, et par la suite lancer le suiveur de liens. Cela dit, c'est tres lent (plus que 4 miliards de combinaisons possibles... dont une bonne partie seront "HS" ) => grosse perte de temps. Donc, est-ce qu'il existe une maniere plus simple a votre avi?
Merci d'avance, je vous tiendrai au courrant de l'avancement eventuel du projet
Esox
---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait