quel logiciel pour faire du SQL sur des GROS fichiers bruts (csv)?

quel logiciel pour faire du SQL sur des GROS fichiers bruts (csv)? - SQL/NoSQL - Programmation

Marsh Posté le 24-06-2010 à 16:22:10    

salut à tous,
 
tout d'abord je précise que je suis vraiment un novice en SQL, les seules fois ou je me suis servi de ce langage c'est avec le logiciel SAS, pour faire des fusions et manipulations de bases de données.
 
Voici donc mon problème: je dois effectuer un scoring sur des bases de données client, seulement je dois effectuer des travaux sur des bases très volumineuses sans avoir vraiment les outils adaptés.
 
On m'a fourni des fichiers bruts (format txt), qui une fois empilés aboutissent à une base de ~200 millions de lignes. Pour l'instant j'ai effectué l'importation ainsi que les premiers traitements grâce à SPSS, seulement je me retrouve maintenant avec une base de 36go, sur laquelle je dois effectuer des tris et agrégats, ce qui à cause du volume me semble très laborieux sous SPSS.
J'ai plutôt une expertise de SAS, à mon avis SAS serait nettement plus performant mais nous n'avons pas ce logiciel. Par contre je sais qu'il existe des outils gratuits pour faire du SQL, et pour en avoir fait un peu sous SAS il me semble que le langage SQL serait adapté pour les traitements que je compte faire (fusions sans tris au préalables, etc). Savez vous grâce à quel logiciel je pourrais exploiter des fichiers type txt en langage SQL?
 
En effet SAS permet assez simplement de faire de la syntaxe SQL, seulement les logiciels SQL que j'ai vu pour l'instant me semblent particulièrement obscurs, avec création de serveurs virtuels etc...
 
voilà, j'espère que ma demande est à peu près claire!
 
merci d'avance!

Reply

Marsh Posté le 24-06-2010 à 16:22:10   

Reply

Marsh Posté le 24-06-2010 à 16:57:41    

Ben t'importes tes fichiers txt (ou csv) dans une (ou plusieurs) table MySQL. Ex : tu fait une table qui a la même structure que ton fichier csv et après, tu utilises la commande d'import du fichier csv.
Les colonnes = champs de la table
Lignes = enregistrements dans la table
 
Ensuite, tu fais des requêtes SQL sur ta table...
 
Edit : pour gérer mysql, tu peux soit installer Mysql seul + l'outil gratuit que tu trouvera sur le site officiel, soit installe un truc genre WampServer qui va te mettre apache+php+mysql+phpmyadmin. phpmyadmin a une ihm web pour manipuler facilement tes tables mysql ;)


Message édité par rufo le 24-06-2010 à 16:59:21

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Marsh Posté le 24-06-2010 à 17:28:17    

salut,
merci pour ta réponse, j'ai effectivement commencé à regarder du côté de MySQL mais j'y capte vraiment que dalle....c'est quel outil qu'il faut installer? là j'ai mis MySQL workbench mais je ne sais pas si c'est adapté...

Reply

Marsh Posté le 24-06-2010 à 17:30:33    

C'est pour ça que je te disais d'installer Wampserver2. Aucune conf à faire et t'as l'ihm phpmyadmin pour créer tes bd, tes tables...


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Marsh Posté le 24-06-2010 à 18:10:27    

okay regarde ça, merci ;)

Reply

Marsh Posté le 02-07-2010 à 15:47:32    

Sinon t'as PostgreSQL + pgadmin qui marche bien aussi, et y a une fonction COPY FROM ...CSV pour balancer le CSV dans les tables/colonnes appropriées.


---------------
Ravèt pa janmen ni rézon douvan poul
Reply

Marsh Posté le 02-07-2010 à 17:16:34    

mysql aussi à ça : http://dev.mysql.com/doc/refman/5.1/en/load-data.html


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Marsh Posté le 12-07-2010 à 15:11:05    

merci pour vos réponses, je vais regarder ça à tete reposée ;)

Reply

Marsh Posté le 16-07-2010 à 11:57:39    

Salut,
 
Pour traiter des très gros volumes de données avec ou sans transformation je te conseil Talend Open Studio :
http://fr.talend.com/index.php
 
Démo de 5 minutes pour comprendre comme ça fonctionne :
http://www.talend.com/demo/index.php

Reply

Marsh Posté le 16-07-2010 à 15:02:05    

+1 impressionnant leur produit à Talend

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed