[Python] Script crawler Multi-thread

Script crawler Multi-thread [Python] - Python - Programmation

Marsh Posté le 20-11-2010 à 09:47:44    

Bonjour,
 
Le python a l'air un bon moyen de faire ce que je veux faire (si vous avez un autre langage a me conseiller je suis preneur)
 
Je voudrais que le script tourne en boucle et récupère la liste des urls a récupéré sur mysql et qu'il les inséré dans mysql aussi.
 
Je voudrais en faire un démon qui va faire des requête régulièrement sur mysql pour voir si il y a des pages a télécharger.
 
Si vous avez des pistes, je veux bien un peu d'aide


---------------
Recette cookeo Recette de cuisine
Reply

Marsh Posté le 20-11-2010 à 09:47:44   

Reply

Marsh Posté le 25-11-2010 à 00:12:45    

Des pistes sur quoi ?
Peut être que j'ai mal compris ce que tu voulais faire, sinon je pense que tu as bien décrit, il faut une pause de quelques secondes au milieu pour que ça ne charge pas trop la machine, et peut-être des pauses aussi si le crawler site suit les liens internes sinon le serveur risque de le bloquer. Ensuite tu dois pouvoir désynchroniser les connexions à la base des threads du crawler avec une liste d'attente pour être sûr aussi de ne pas trop charger la ou les base(s), et centraliser la liste aussi avec des indicateurs dans la base pour être sûr de ne pas les lancer plusieurs fois.
 
Après c'est le langage, je ne peux pas t'aider j'ai une mémoire de poisson rouge, mais avec la doc très bien faite et une consultation de tes scripts de tests ça devrait aller rapidement.
(d'ailleurs c'est génial le python, souvent pas besoin de trop d'aide externe, mais du coup ça fait peu de pub pour le langage).


Message édité par gzii le 25-11-2010 à 00:15:39
Reply

Marsh Posté le 16-12-2010 à 17:50:04    

C'est un peu du déterrage, mais comme la section est pas très active... Regarde du coté de mechanize/twill/beautifullSoup pour tout ce qui est crawling.

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed