Projet de spider

Projet de spider - Java - Programmation

Marsh Posté le 29-06-2005 à 09:21:25    

Bonjour,
 
Avec quelques amis nous aurions decidé d'essayer de concevoir au mieu un spider (genre googlebot) et qui sait, p-e de faire un petit moteur de recherche si on arrive a qqch de concluant (Loin de nous l'idée de tenter d'arriver a un niveau semblable a celui de Google, c'est plutot pour travailler un peu nos connaissances de Java).
 
Apres avoir lu pas mal de doc sur le net,j'ai a peu pres une idée de comment le bot se deplace sur les differentes pages mais parcontre j'ai pas trop bien compris comment faire pour l'envoyer sur les pages.
J'ai lu qu'on peut soumettre a google l'adresse d'un site pour qu'il la valide, et qu'apres il suivra les liens sur le site pour faire grandir sa base de données ... mais dans mon cas ca risque de poser des problemes quand meme ... Dans le sens ou les adresses que j'insererai manuellement dans le bot ne seront jamais utilisables pour joindre la totalité des pages..
 
On avait donc pensé a faire qqch de plus "radical" (et catastrophiquement lent) c'est a dire de tenter la connection sur le port 80 de toutes les adresses IP, puis de voir lesquelles sont atteignables, et par la suite lancer le suiveur de liens. Cela dit, c'est tres lent (plus que 4 miliards de combinaisons possibles... dont une bonne partie seront "HS" ) => grosse perte de temps. Donc, est-ce qu'il existe une maniere plus simple a votre avi?  
 
Merci d'avance, je vous tiendrai au courrant de l'avancement eventuel du projet
 
Esox


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
Reply

Marsh Posté le 29-06-2005 à 09:21:25   

Reply

Marsh Posté le 29-06-2005 à 09:22:42    

esox_ch a écrit :

Dans le sens ou les adresses que j'insererai manuellement dans le bot ne seront jamais utilisables pour joindre la totalité des pages..


 
Grand jeu : le web contient combien de composantes fortmeent connexes ?
 
(si tu choisis bien les addresses de départ, tu peux quand même aller très très loin dans l'indexation.


Message édité par elianor le 29-06-2005 à 09:23:17

---------------
JE JE SUIS LIBERTINEEEEEEEEEEE JE SUIS UNE CATINNNNNNNNN §§§§§§§§
Reply

Marsh Posté le 29-06-2005 à 09:25:19    

Personnellement, j'ai acheté ce bouquin :
http://www.amazon.com/exec/obidos/ [...] 97-4018546
 
Les exemples sont en Java, mais on peut trè sfacilement les adapter à d'autres langages. C'est un bouquin bien fait, progressif et très interessant


---------------
J'ai un string dans l'array (Paris Hilton)
Reply

Marsh Posté le 29-06-2005 à 09:45:58    

Merci beaucoup a vous 2, je crois que je vais acheter ce livre comme ca   on aura une chance de faire qqch qui marche :). Je vous tiens informés. Au revoir et merci


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
Reply

Marsh Posté le 29-06-2005 à 13:09:30    

t'as vraiment acheté ce bouquin harko? j'veux dire... pour les bots d'hfr? [:rofl]


---------------
Hey toi, tu veux acheter des minifigurines Lego, non ?
Reply

Marsh Posté le 29-06-2005 à 13:23:54    

-- tu as de la meilleur documentation ? Parceque je suis preneur :) . J'en demandais pas tant (je demandais juste quelques conseils) mais c'est vrai que si des supports complets sur le sujet existent (et qu'ils sont interessants) pourquoi s'en priver?


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
Reply

Marsh Posté le 29-06-2005 à 13:29:40    

non non, c'etait juste une question à harko, hors sujet


---------------
Hey toi, tu veux acheter des minifigurines Lego, non ?
Reply

Marsh Posté le 29-06-2005 à 17:24:31    

the real moins moins a écrit :

t'as vraiment acheté ce bouquin harko? j'veux dire... pour les bots d'hfr? [:rofl]


ben non, j'ai fait les bots d'HFR bien avant d'acheter ce bouquin !
mais en codant les bots, j'ai constaté que c'était un domaine qui m'intéressait, et j'ai voulu approfondir :spamafote:


---------------
J'ai un string dans l'array (Paris Hilton)
Reply

Marsh Posté le 29-06-2005 à 17:31:25    

Harkonnen tu pourrais resumer un petit peu de quoi parle ce bouquin?


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
Reply

Marsh Posté le 29-06-2005 à 17:38:51    

Harkonnen a écrit :

ben non, j'ai fait les bots d'HFR bien avant d'acheter ce bouquin !
mais en codant les bots, j'ai constaté que c'était un domaine qui m'intéressait, et j'ai voulu approfondir :spamafote:


ok, je croyais que tu avais acheté le bouquin expres pour botter hfr [:joce]


---------------
Hey toi, tu veux acheter des minifigurines Lego, non ?
Reply

Marsh Posté le 29-06-2005 à 17:38:51   

Reply

Marsh Posté le 29-06-2005 à 17:40:07    

le bouquin commence par la programmation des sockets en java.
viennent ensuite les descriptions des protocoles HTTP et HTTPS, avec la façon d'y accéder par socket, puis le parsing HTML, le post de formulaire par socket et les cookies.
enfin, les 6 derniers chapitres décrivent la façon de coder des bots, des spiders, des aggregators en se servant des notions vues précédemment.


---------------
J'ai un string dans l'array (Paris Hilton)
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed