faire péter les doublons (une partie) [Access] - SQL/NoSQL - Programmation
Marsh Posté le 28-06-2006 à 15:47:41
tu agrèges sur le nom déjà
un truc du genre
select nom, count(*) from ta_table
group by nom
Marsh Posté le 29-06-2006 à 11:42:20
dlaumor a écrit : tu agrèges sur le nom déjà |
C'est pas suffisant j'ai des orthographes très différentes sur chaque nom (parfois 15!!!! )
je compte grouper encore plus pour donner ça
select nom....count(*)
from ma_table
group by nom, ville, dept
insert into temp (????)
Marsh Posté le 29-06-2006 à 12:24:32
soundex ?
je ne sais pas si ca existe sous access par contre (mais sur d'autre SGBD oui donc peut etre que...)
http://access.developpez.com/sourc [...] e#Soundex1
Note : le liens ne fourni aucune indication correct en fait... faudrait regarder dans la doc d'acces si il y a des infos dessus
Marsh Posté le 04-07-2006 à 09:10:35
C'est trop complexe via soundex, le problème est surtout du au fait qu'il y a des extensions qui vont se rajouter au nom principal, et dans un ordre anarchique.
Est-ce que la syntaxe de ma requête est bonne? dans un premier temps elle va me permettre d'effectuer quelques regroupements et je pense en lancer une autre par la suite mais sur le nom directement avec un "like"
Marsh Posté le 04-07-2006 à 18:02:19
Oui c'est pas mal,
Et après oui tu passes par des like
Faut mettre l'insert avant
Marsh Posté le 05-07-2006 à 09:26:03
dlaumor a écrit : Oui c'est pas mal, |
Pour l'insert thx
Pour les like, petits problèmes:
-premièrement mes group by veulent TOUTES les variables déclarées dans le select dans la condition group by, arretez moi si je me trompe, mais c'est pas normal
-deuxièmement, pour le like, il me renvoie un message avec écrit, comme quoi "Cette sous requête peut retourner au plus un enregistrement"
mais c'est vraiment galère car après la première phase de group by, il faudrait que j'utilise les like pour regrouper plus mais les noms que j'ai sont trop pourris.
je me retrouve avec des noms par exemple hardware / hard ware / hardwear... et là j'ai vraiment du mal à voir la solution je pensais faire des select imbriqués avec des like mais je suis pas sur de moi et notamment d ema syntaxe qui est plus que douteuse
Marsh Posté le 06-07-2006 à 14:19:12
Bon ben MA solution, basculement des données sous Sphinx (logiciel stat) lemmatisation des données et puis export sous access!!
C'est pas top c'est pas automatique, mais pour un stage je peux pas faire de miracles
Marsh Posté le 06-07-2006 à 16:08:57
Ton pb est un pb balaise, une fois j'ai passé au peigne fin
un fichier avec des noms, fonction des bonhommes, adresse le tout en bordel couvré
et j'ai traité ces 6000 adresses pour en récupérer la moitié,
le tout en 2 jours sous excel en faisant des recoupements
dans tous les sens car par exemple pour un même nom on
avait 2 adresses du genre "1 rue du lac" "1 r du lac" ce qui
est pas pareil ... bref dans ce genre de pb t'es pas
sorti de l'auberge en général ;-(
Et c'est quoi une lobotomisation de données ?
;-)
Marsh Posté le 06-07-2006 à 19:26:10
vttman2 a écrit : Ton pb est un pb balaise, une fois j'ai passé au peigne fin |
lemmatisation : en fonction de la racine d'un mot il te ressort tout ceux qui correspondent
Moi c'est sur 60 000 adresses.....
J'ai attaqué ce matin et mon tuteur me demande deja quand j'ai fini, va prendre une tarte celui la
Marsh Posté le 07-07-2006 à 07:28:38
Clair ...
En plus je pense que j'ai passé, à la reflexion plus près
de 3 jours que de 2, mais bon je suis un lent ...
Bon je te laisse travailler ;-)
Marsh Posté le 07-02-2009 à 23:26:46
vous écrivez comme les vrais poètes))) poèmes d'informatique!)) Bref, on m'a montré une voie à sortir de ce problème, Clone Remover, on dit que ça marche) Puisqu'il aide à se délibérer des doublons!))
Marsh Posté le 27-06-2006 à 18:22:53
Ayant fait une petite recherche sur le forum, les solutions pour faire sauter les doublons d'une table ne me satisfont pas je vous pose mon problème.
Je travaille sur Access, avec une table unique ayant pour clé primaire un num-auto.
J'ai un champ Nom qui est bourré de doublons et qui sont mêmes mal orthographiés ( ).
Le but est, pour les doublons très visibles de les faire sauter en comptant leur nombre, pour les autres qui ressemblent avec des petites variances dans le nom si vous trouvez ça n'est que mieux.
pour avoir quelque chose de la sorte
Nom NB
machin 20
truc 12
etc.....
Merci et allez les bleus