[fonction] pour convertir les accents et choses non ascii ?

Marsh Posté le 10-07-2007 à 16:34:51

salut
je cherche une fonction ou quoi que ce soit pour virer/convertir les accents et characteres non ascii, par exemple:

bébé ==> bebe
ñoqui ==> noqui

etc....

Reply

Marsh Posté le 10-07-2007 à 16:34:51

Reply

Marsh Posté le 01-08-2007 à 13:01:29

Je ne sais pas si ça existe déjà mais c'est rapide à faire, avec un petit tableau de 256 éléments par exemple.

Reply

Marsh Posté le 01-08-2007 à 14:24:28

qq chose dans ce goût là :
strtr($Chaine, "ÀÁÂÃÄÅàáâãäåÒÓÔÕÖØòóôõöøÈÉÊËèéêëÇçÌÍÎÏìíîïÙÚÛÜùúûüÿÑñ", "AAAAAAaaaaaaOOOOOOooooooEEEEeeeeCcIIIIiiiiUUUUuuuuyNn"
);

Message édité par rufo le 01-08-2007 à 14:24:38

Reply

Marsh Posté le 01-08-2007 à 20:52:51

Oui si ensuite tu n'oublies pas de nettoyer le reste. Et en espérant que tu n'aies pas plusieurs pages de codes différentes (dos, mac, windows, ...).

Reply

Marsh Posté le 02-08-2007 à 09:14:01

ben pour les autres (les autres caractères qui ne sont pas des caractères accentués), je pense qu'on peut que les virer => une boucle sur chaque caractère de la chaîne et on gare que les caractères dont le code ascii [0 ; 255].

Reply

Marsh Posté le 02-08-2007 à 10:58:44

Oui, par exemple si tu trouves un code ascii 257 :lol:

Reply

Marsh Posté le 02-08-2007 à 11:30:01

je pensais au traitement des caractères en ISO-8859-1, UTF-8...

Reply

Marsh Posté le 16-08-2007 à 20:57:16

j'ai un code ici qui a fonctionne:

Code :

def giveGoodName(oldvalue):
# first strip accents and stuff
s = oldvalue.decode("utf-8" )
try:
s = s.translate(noaccents.unaccented_map())
except:
ns = ""
for c in s:
if ((ord(c) >= 65 and ord(c) < 91) or (ord(c) >= 97 and ord(c) < 123) or (c == " " )):
ns = ns + c
s = ns
# then go uppercase
s = s.upper()
# then strip all non alfanum
out = ""
for c in s:
if ((ord(c) >= 65) and (ord(c) < 91)) or (c == " " ):
#print "c = "+ c + "; ord(c) = "+str(ord(c))
out = out + c
return out

avec aussi ca:

puis noaccents.py

Code :

# $Id$
# -*- coding: latin-1 -*-
# use a dynamically populated translation dictionary to remove accents
# from a string
import unicodedata, sys
CHAR_REPLACEMENT = {
# latin-1 characters that don't have a unicode decomposition
0xc6: u"AE", # LATIN CAPITAL LETTER AE
0xd0: u"D", # LATIN CAPITAL LETTER ETH
0xd8: u"OE", # LATIN CAPITAL LETTER O WITH STROKE
0xde: u"Th", # LATIN CAPITAL LETTER THORN
0xdf: u"ss", # LATIN SMALL LETTER SHARP S
0xe6: u"ae", # LATIN SMALL LETTER AE
0xf0: u"d", # LATIN SMALL LETTER ETH
0xf8: u"oe", # LATIN SMALL LETTER O WITH STROKE
0xfe: u"th", # LATIN SMALL LETTER THORN
}
##
# Translation dictionary. Translation entries are added to this
# dictionary as needed.
class unaccented_map(dict):
##
# Maps a unicode character code (the key) to a replacement code
# (either a character code or a unicode string).
def mapchar(self, key):
ch = self.get(key)
if ch is not None:
return ch
de = unicodedata.decomposition(unichr(key))
if de:
try:
ch = int(de.split(None, 1)[0], 16)
except (IndexError, ValueError):
ch = key
else:
ch = CHAR_REPLACEMENT.get(key, key)
self[key] = ch
return ch
if sys.version >= "2.5":
# use __missing__ where available
__missing__ = mapchar
else:
# otherwise, use standard __getitem__ hook (this is slower,
# since it's called for each character)
__getitem__ = mapchar

Message édité par k666 le 16-08-2007 à 21:02:06

Reply

Marsh Posté le 21-08-2007 à 18:29:14

Ma petite contribution pour virer les accents, en 2 lignes (trouvé sur le Web quelquepart je ne sais plus où) :

Code :

import unicodedata
print unicodedata.normalize("NFKD", u"ÀÁÂÃÄÅàáâãäåÒÓÔÕÖØòóôõöøÈÉÊËèéêëÇçÌÍÎÏìíîïÙÚÛÜùúûüÿÑñ" ).encode("ascii", "ignore" )

Résultat :

AAAAAAaaaaaaOOOOOoooooEEEEeeeeCcIIIIiiiiUUUUuuuuyNn

Reply

[fonction] pour convertir les accents et choses non ascii ?

Sujets relatifs:

Leave a Replay