[Access] faire péter les doublons (une partie)

faire péter les doublons (une partie) [Access] - SQL/NoSQL - Programmation

Marsh Posté le 27-06-2006 à 18:22:53    

Ayant fait une petite recherche sur le forum, les solutions pour faire sauter les doublons d'une table ne me satisfont pas je vous pose mon problème.
 
Je travaille sur Access, avec une table unique ayant pour clé primaire un num-auto.
 
J'ai un champ Nom qui est bourré de doublons et qui sont mêmes mal orthographiés (  :cry: ).
 
Le but est, pour les doublons très visibles de les faire sauter en comptant leur nombre, pour les autres qui ressemblent avec des petites variances dans le nom si vous trouvez ça n'est que mieux.
 
pour avoir quelque chose de la sorte
 
Nom       NB
machin   20
truc       12
etc.....
 
Merci et allez les bleus

Reply

Marsh Posté le 27-06-2006 à 18:22:53   

Reply

Marsh Posté le 28-06-2006 à 15:47:41    

tu agrèges sur le nom déjà
un truc du genre
 
select nom, count(*) from ta_table
group by nom

Reply

Marsh Posté le 29-06-2006 à 11:42:20    

dlaumor a écrit :

tu agrèges sur le nom déjà
un truc du genre
 
select nom, count(*) from ta_table
group by nom


 
C'est pas suffisant j'ai des orthographes très différentes sur chaque nom (parfois 15!!!!  :sweat: )
 
je compte grouper encore plus pour donner ça
 
select nom....count(*)  
from ma_table
group by nom, ville, dept
insert into temp (????)

Reply

Marsh Posté le 29-06-2006 à 12:24:32    

soundex ?  
 
je ne sais pas si ca existe sous access par contre (mais sur d'autre SGBD oui donc peut etre que...)
http://access.developpez.com/sourc [...] e#Soundex1
 
Note : le liens ne fourni aucune indication correct en fait... faudrait regarder dans la doc d'acces si il y a des infos dessus


Message édité par zapan666 le 29-06-2006 à 12:25:45

---------------
my flick r - Just Tab it !
Reply

Marsh Posté le 04-07-2006 à 09:10:35    

C'est trop complexe via soundex, le problème est surtout du au fait qu'il y a des extensions qui vont se rajouter au nom principal, et dans un ordre anarchique.
Est-ce que la syntaxe de ma requête est bonne? dans un premier temps elle va me permettre d'effectuer quelques regroupements et je pense en lancer une autre par la suite mais sur le nom directement avec un "like"

Reply

Marsh Posté le 04-07-2006 à 18:02:19    

Oui c'est pas mal,
 
Et après oui tu passes par des like
 
Faut mettre l'insert avant

Reply

Marsh Posté le 05-07-2006 à 09:26:03    

dlaumor a écrit :

Oui c'est pas mal,
 
Et après oui tu passes par des like
 
Faut mettre l'insert avant


 
Pour l'insert thx
 
Pour les like, petits problèmes:
-premièrement mes group by veulent TOUTES les variables déclarées dans le select dans la condition group by, arretez moi si je me trompe, mais c'est pas normal
-deuxièmement, pour le like, il me renvoie un message avec écrit, comme quoi "Cette sous requête peut retourner au plus un enregistrement"
 
mais c'est vraiment galère car après la première phase de group by, il faudrait que j'utilise les like pour regrouper plus mais les noms que j'ai sont trop pourris.
je me retrouve avec des noms par exemple hardware / hard ware / hardwear... et là j'ai vraiment du mal à voir la solution je pensais faire des select imbriqués avec des like mais je suis pas sur de moi et notamment d ema syntaxe qui est plus que douteuse

Reply

Marsh Posté le 06-07-2006 à 14:19:12    

Bon ben MA solution, basculement des données sous Sphinx (logiciel stat) lemmatisation des données et puis export sous access!!
C'est pas top c'est pas automatique, mais pour un stage je peux pas faire de miracles

Reply

Marsh Posté le 06-07-2006 à 16:08:57    

Ton pb est un pb balaise, une fois j'ai passé au peigne fin
un fichier avec des noms, fonction des bonhommes, adresse le tout en bordel couvré
et j'ai traité ces 6000 adresses pour en récupérer la moitié,
le tout en 2 jours sous excel en faisant des recoupements
dans tous les sens car par exemple pour un même nom on
avait 2 adresses du genre "1 rue du lac" "1 r du lac" ce qui  
est pas pareil ... bref dans ce genre de pb t'es pas
sorti de l'auberge en général ;-(
 
Et c'est quoi une lobotomisation de données ?
;-)

Reply

Marsh Posté le 06-07-2006 à 19:26:10    

vttman2 a écrit :

Ton pb est un pb balaise, une fois j'ai passé au peigne fin
un fichier avec des noms, fonction des bonhommes, adresse le tout en bordel couvré
et j'ai traité ces 6000 adresses pour en récupérer la moitié,
le tout en 2 jours sous excel en faisant des recoupements
dans tous les sens car par exemple pour un même nom on
avait 2 adresses du genre "1 rue du lac" "1 r du lac" ce qui  
est pas pareil ... bref dans ce genre de pb t'es pas
sorti de l'auberge en général ;-(
 
Et c'est quoi une lobotomisation de données ?
;-)


 
lemmatisation : en fonction de la racine d'un mot il te ressort tout ceux qui correspondent
 
Moi c'est sur 60 000 adresses.....  
J'ai attaqué ce matin et mon tuteur me demande deja quand j'ai fini, va prendre une tarte celui la  :D  

Reply

Marsh Posté le 06-07-2006 à 19:26:10   

Reply

Marsh Posté le 07-07-2006 à 07:28:38    

Clair ...
 
En plus je pense que j'ai passé, à la reflexion plus près
de 3 jours que de 2, mais bon je suis un lent ...
 
Bon je te laisse travailler ;-)

Reply

Marsh Posté le 07-02-2009 à 23:26:46    

vous écrivez comme les vrais poètes))) poèmes d'informatique!)) Bref, on m'a montré une  voie à sortir de ce problème, Clone Remover, on dit que ça marche) Puisqu'il aide à se délibérer des doublons!))

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed