Synthèse vocale : c'est du délire ce qu'ils font... - Traitement Audio - Video & Son
Marsh Posté le 27-11-2003 à 23:57:49
c'est vraiment impressionnant, je ne sais absolument pas comment ils ont fait.
Marsh Posté le 28-11-2003 à 00:05:15
Ah ouais balese... j'utilisait a une epoque un petit soft qui faisait le meme genre de chose (digalo) mais il marchait moins bien ...
Marsh Posté le 28-11-2003 à 00:26:27
J'ai un truc c'est Elan Text To Speech demonstrator Version 4.0 ça déchire !!
Marsh Posté le 28-11-2003 à 01:02:02
c'est pas tres au point
Citation : Internal Server Error |
Marsh Posté le 28-11-2003 à 01:08:21
tetedeiench a écrit : Comment ils font exactement ? |
Citation : The server encountered an internal error or misconfiguration and was unable to complete your request. |
ils font plus fort ke JOCE
Marsh Posté le 28-11-2003 à 01:57:48
tetedeiench a écrit : Essayez ca, je viens de tomber dessus : |
Je n'ai pas pu acceder a ton lien toutefois je peux essayer d'expliquer en gros comment ca marche.
Il y a toute une phase d'analyse syntaxique/linguistique pour déterminer la prosodie (hauteur, ton, durée) des phrases et la transcription phonetique de la phrase.
Il y a une grosse base de données de parole naturelle.
Ensuite on extrait de cette base de données les unités accoustiques à concaténer (cela peut être des syllabes, des bouts de mots voire des mots entiers) et on effectue un peu de traitement de signal sur ces unités pour coller à la prosodie définie à la première étape.
Pour modifier la prosodie et coller les unités accoustiques, il faut regarder du côté des technologies TD-PSOLA (Time
Domain - Pitch Synchronous OverLap and Add), HNM (Harmonique plus Noise Model)...
Marsh Posté le 06-12-2003 à 07:24:47
J'adore il connait même les gromo et le verlan (ta reum... )
Marsh Posté le 06-12-2003 à 09:45:37
à pleurer de rire!! mettre une phrase salace et essayer tous les langages...
Marsh Posté le 06-12-2003 à 11:53:44
Il y avait une emission à ce sujet ce matin même sur la 5. Afin de permettre aux mal/non voyants d'utiliser un ordi. C'est incroyable le truc
Marsh Posté le 06-12-2003 à 12:02:00
Barnabe a écrit : c'est vraiment impressionnant, je ne sais absolument pas comment ils ont fait. |
doit yavoir qques lignes de codes derrière
putin moi on me demande de programmer ca je me pend
Marsh Posté le 06-12-2003 à 16:29:01
Heu...c'est moi ou c'est pas si terrible que ça? franchement la phrase donnée par iench rend pas grand chose de terrible
Marsh Posté le 06-12-2003 à 18:30:09
jai pas trouvé le chinois, l'hébreux, ni même l'incomemnsurable cherokee d'amérique
c'est nul à chier
(wais atari stait mieux)
nah c'est pas pire, ils s'améliore de décennie en décennie..
microsoft en a un il me semble, avec leur budget ils devraient être les meilleurs non ?
j'ai soif d'acide désoxyribonucléïque
Marsh Posté le 06-12-2003 à 19:18:56
c'est vieux comme le monde sur mon to8 thomson j'avais déja une carte vocale en faite la voix est découpé en environ 80 phonéme et a partir de ces phonéme on peut reconstruire n'importe qu'elle pronociation de mot.
le probleme jusqu'a maintenant c'est que les phonéme était souvent anglais la apparement il en ont rajouté un en french
d'ailleurs ce systeme est intégré a windows xp, DEMARRER => PANNEAU DE CONFIGURATION => VOIX. le probleme c'est la base de phonéme c'est SAM et c'est horrible parce que c'est américain , faudrais chercher chez crosoft peut etre ya une base en french.
intéret : quand on fait un programme utilisant une IA tout peut etre lu avec trés peu d'échantillon qui tienne en mémoire.en gros c'est ça
Marsh Posté le 07-12-2003 à 13:34:58
En Janvier, un nouveau VSTi va sortir:
http://www.zero-g.co.uk/index.cfm?articleid=803
Genre synthèse vocale, on est au summum là...
Marsh Posté le 07-12-2003 à 15:13:12
y en a un qui a essayé
les chaussettes de l'archi-duchesse sont elles sèches archi-sèches
ou encore
si mon tonton tond ton tonton, ton tonton tondu sera !
Edit : c pas mal ! par contre oubliez pas les accents !
Marsh Posté le 07-12-2003 à 19:11:59
NEOKORTEX a écrit : c'est vieux comme le monde sur mon to8 thomson j'avais déja une carte vocale en faite la voix est découpé en environ 80 phonéme et a partir de ces phonéme on peut reconstruire n'importe qu'elle pronociation de mot. |
Si t'essaies de concaténer des phonèmes ton rendu va être très très moche. On concatène des diphones (de la zone stable d'un phonème à la zone stable d'un autre phonème), et maintenant des unités plus longues (plusieurs diphones).
Il y a un truc classique pour voir que la concaténation de phonème ne marche pas : si tu concatènes un 'k' et un 'a' n'importe comment, ça va te faire un 'pa'.
Les bases de données actuelles arrivent souvent à plusieurs Go lorsqu'elles ne sont pas compressées.
Edit : un système de synthèse bien élaboré :
http://www.research.att.com/projects/tts/demo.html
Marsh Posté le 27-11-2003 à 23:45:16
Essayez ca, je viens de tomber dessus :
http://www.babeltech.com/Demos.php
C'est hallucinant.
Essayez de lui faire dire ca :
"Bonjour je m'apelle Julie et j'adore la stéganographie et le cryptage RSA. J'aime la bio et l'acide désoxyribo-nucléïque."
ca passe nickel bourdail
Des commentaires sur un truc aussi hallucinant ?
Comment ils font exactement ?