urllib2 et threading - Python - Programmation
Marsh Posté le 18-03-2009 à 23:03:18
Une queue (Queue.Queue) avec les URLs pour l'entrée, une queue pour les sorties.
Marsh Posté le 19-03-2009 à 14:40:12
j'ai utilisé le module multiprocessing apparement plus performant pour ce que j'ai à faire. J'ai modifié la fonction queue() :
Code :
|
Ca fonctionne mais quelques interrogations :
- un processus ne retourne "rien". Ca veut dire ma fonction execute qui retourne du code html, je ne pourrais pas le récupérer. A moi, de me débrouiller pour intégrer le test sur le code html directement dans la fonction execute() ?
- si je ne fais pas la boucle avec le p.join(), il arrive parfois que la fonction queue() m'affiche la durée (print "..." ) alors que tous les processus ne sont pas terminés. Ca veut dire que join() assure que tous les process soient terminés ? (je pige pas la doc qui parle de "Block the calling thread" ).
Marsh Posté le 20-03-2009 à 21:36:48
tu aurais des exemple assez clair avec queue.queue. C'est encore ce que je reproche à python, une bonne doc mais qui manque d'exemples clairs et fonctionnels.
merci
Marsh Posté le 20-03-2009 à 21:41:22
Mouais, Process c'est peut-être un peur lourd par rapport à threading pour un truc IO-bound
Marsh Posté le 20-03-2009 à 21:49:21
pouchat a écrit : tu aurais des exemple assez clair avec queue.queue. C'est encore ce que je reproche à python, une bonne doc mais qui manque d'exemples clairs et fonctionnels. merci |
Il y en a dans la doc de threading. Mais pour multiprocessing, il faut utiliser multiprocessing.Queue (qui a sensiblement la même interface que Queue.Queue) ou multiprocessing.Pipe (qui n'a pas d'équivalent)
Taz a écrit : Mouais, Process c'est peut-être un peur lourd par rapport à threading pour un truc IO-bound |
Marsh Posté le 20-03-2009 à 21:51:05
Lis la doc du module multiprocessing, t'as tout d'expliquer sur comment échanger des données.
Sinon threading + Queue, c'est vraiment simple.
Marsh Posté le 20-03-2009 à 23:01:04
le module threading pas d'exemple même si les descriptions des méthodes sont claires. Pour le multithreading, les 10 premiers bout de codes ne font tourner qu'un seul process à la fois. Je pige pas l'intêret alors que ce module est justement fait pour plusieurs process en même temps. Les exemples suivants font intervenir le manager et la je laisse tomber.
J'ai tout de même trouvé qqch de vraiment exploitable à la fin de la doc que queue.queue. Le nouveau code suivant est donc fonctionnel :
Code :
|
Je m'accroche à sa, donc je résume :
- le 2ème bloc, (q= Queue()) me crée 2 threads dont la fonction cible est worker.
- q.put(), ajoute toutes mes url à la file d'attente
- q.join() stop l'appli jusqu'à ce que chacune des 2 threads ait terminé de faire tourner la fonction worker avec mes url (que la file d'attente soit vide en fait)
questions subsidiaires :
- qu'est ce qui rattache Queue à Thread ? je veux dire c'est donc implicite qu'un q.join() soit rattaché à des Threads ?
- dans cette exemple il n'y a pas de retour réel de variable sur Thread. Je dois faire le test de mon code html à l'intérieur de worker ?
- le setDaemon a t'il un vrai intérêt, performances... ?
- est-ce que cette méthode (threading. + queue) est la plus rapide ?
- est ce que c'est une bonne façon de s'y prendre (the python way) ? Pour rappel, le but est de recupérer du html sur des pages distantes, et si le html est ok j'envois le contenu du html à une fonction.
Marsh Posté le 20-03-2009 à 23:20:51
pouchat a écrit : - qu'est ce qui rattache Queue à Thread ? je veux dire c'est donc implicite qu'un q.join() soit rattaché à des Threads ? |
Aucun rapport avec les threads, la réponse est dans la doc suffit de lire.
pouchat a écrit : - dans cette exemple il n'y a pas de retour réel de variable sur Thread. Je dois faire le test de mon code html à l'intérieur de worker ? |
wat?
pouchat a écrit : - le setDaemon a t'il un vrai intérêt, performances... ? |
pouchat a écrit : - est-ce que cette méthode (threading. + queue) est la plus rapide ? |
1. Par rapport à quoi
2. Who cares? Ton bottleneck c'est la récupération des pages web de toute façon
pouchat a écrit : - est ce que c'est une bonne façon de s'y prendre (the python way) ? Pour rappel, le but est de recupérer du html sur des pages distantes, et si le html est ok j'envois le contenu du html à une fonction. |
C'est une façon qui fonctionne en Python si tu veux fetcher plusieurs URLs en parallèle.
Marsh Posté le 21-03-2009 à 00:58:59
masklinn a écrit : |
En fait je me suis mal expliqué. C'est simplement qu'à travers l'objet Queue() on va agir du moins "gérer" les Threads.
masklinn a écrit : |
Disons qu'a priori niveau vitesse d'execution, seuls les modules threading et multiprocessing peuvent faire qqch. Donc une comparaison entre les 2. Mais comme tu as que les thread sont plus léger je reste sur ça.
masklinn a écrit : |
Le resultat n'a pas d'importance, c'est juste pour avoir une première approche du module threading en gardant un script de base simple.
Et il me reste encore quelques problèmes à régler pour vraiment avoir un script qui marche :
- les exceptions en cas de problème dans ma fonction execute() ou worker()
- si j'y ajoute une insertion dans la base, de temps en temps mon script se bloque ? sûrement un problème d'accès entre les threads...
Marsh Posté le 18-03-2009 à 20:12:07
Bonjour,
j'ai quelques problèmes à comprendre le module threading et les quelques bouts de codes trouvés ne m'en disent pas plus.
Voici mon code simple de départ (il recupere des pages html et envoi un mail si tout est ok):
Il fonctionne mais va poser des problèmes de vitesse (en fonction du nombre de pages, ou certaines pages qui vont bloquer:timeout...). Bref j'aimerais paralleliser la fonction "execute" donc utiliser le module threading.
Le soucis est que j'ai besoin de récupérer le résultats de cette fonction pour générer des tests/messages et je ne vois pas comment faire...
merci à ceux qui pourraient m'éclairer
Message édité par pouchat le 18-03-2009 à 20:13:31