Parallélisation code R avec Snowfall

Parallélisation code R avec Snowfall - Algo - Programmation

Marsh Posté le 02-04-2013 à 12:04:40    

Bonjour à tous !  
 
Je suis nouveau sur ce forum donc j'espère avoir posté au bon endroit (je pense sincèrement que oui).
Je suis actuellement stagiaire à l'INSERM en bioinformatique et biostatistiques.  
Je travaille sur de la parallélisation de code R, je m'explique.
Mon maître de stage à codé un algorithme en langage R de prédiction statistique qui met un temps fou à être effectué par une seule machine (plusieurs jours non-stop de calcul intensif).
Mon objectif est de permettre une "division" du temps de calcul , en répartissant le travail sur plusieurs machines à la fois. Ces machines sont connectées sur un réseau local via un switch qui peut accueillir jusqu'à 8 cables ethernet.
J'ai réussit à créé une connection SSH entre chaque machine en supprimant le mot de passe d'accès.
J'ai également réussit à lancer mon code R sur tout les coeurs de ma machine principale.
En effet, mon code d'essai, en calcul séquentiel (c'est à dire sur un seul coeur de la machine) met environ 35 secondes à être effectué. Quand je parallélise mon calcul sur les 4 coeurs de ma machine, je passe à 8sec environ de temps de calcul. Ce qui prouve que ma parallélisation marche.
Cependant quand je décide de paralléliser en intégrant une machine externe connecté par ethernet via SSh, ça bloque, et ya rien qui se passe.
 
Je fais donc appel à une âme charitable qui aura déjà fait de la parallélisation de calcul sous R en utilisant la librairie Snow, Snowfall, Rmpi ou je ne sais quoi, pourvu que sa marche ! :)
 
Merci de votre lecture ! :bounce:

Reply

Marsh Posté le 02-04-2013 à 12:04:40   

Reply

Marsh Posté le 02-04-2013 à 14:37:52    

Demande à ton maître de stage. Le mieux.

Reply

Marsh Posté le 02-04-2013 à 14:59:52    

Arf merci pour ce conseil, c'est vrai que je n'y aurai pas pensé par moi-même -_-
non plus sérieusement, mon maître de stage n'en sais pas plus que moi sur ce sujet.
Quelqu'un d'autre ?

Reply

Marsh Posté le 02-04-2013 à 15:02:44    

Je pense que c'est plutôt un problème d'administration réseaux.
Tu peux ppeut-être aller voir dans la cat de ton os.

Reply

Marsh Posté le 02-04-2013 à 15:45:12    

je pense aussi, je pense que cela vient du fait que les machines de mon réseau ont le logiciel R qui n'est pas paramétré sur le même port (port 11080 pour l'un, 10187 pour l'autre etc...)
Du coup je me demandais si c'était pas possible de paramétré le même port pour chacune d'entre elle...
Sinon j'ai pensé au protocole NFS pour autoriser le partage d'un dossier commun à toutes les machines... Je ne sais vraiment pas quoi faire

Reply

Marsh Posté le 11-04-2013 à 18:08:44    

Bonjour Wolfbator,
Je n'ai pas la réponse à ta question, et je m'excuse d'avance... mais aurais-tu des infos pour moi concernant la parallélisation d'un code R?  
Je dispose aussi d'un code écrit en R et je dois le lancer de manière indépendantes sur plusieurs cores...
C'est un peu ce que tu as fait?  
Je te remercie beaucoup
Nane

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed