Synthèse vocale : c'est du délire ce qu'ils font...

Marsh Posté le 27-11-2003 à 23:45:16

Essayez ca, je viens de tomber dessus :

http://www.babeltech.com/Demos.php

C'est hallucinant.

Essayez de lui faire dire ca :

"Bonjour je m'apelle Julie et j'adore la stéganographie et le cryptage RSA. J'aime la bio et l'acide désoxyribo-nucléïque."

ca passe nickel bourdail :heink:

Des commentaires sur un truc aussi hallucinant ?

Comment ils font exactement ?

Reply

Marsh Posté le 27-11-2003 à 23:45:16

Reply

Marsh Posté le 27-11-2003 à 23:57:49

c'est vraiment impressionnant, je ne sais absolument pas comment ils ont fait. :jap:

Message édité par barnabe le 27-11-2003 à 23:58:03

Reply

Marsh Posté le 28-11-2003 à 00:05:15

Ah ouais balese... j'utilisait a une epoque un petit soft qui faisait le meme genre de chose (digalo) mais il marchait moins bien ...

---------------
Bowers & Wilkins

Reply

Marsh Posté le 28-11-2003 à 00:26:27

J'ai un truc c'est Elan Text To Speech demonstrator Version 4.0 ça déchire !!

---------------
Je ne parlerai qu'en présence de ma vodka.

Reply

Marsh Posté le 28-11-2003 à 01:02:02

c'est pas tres au point

Citation :

Internal Server Error
The server encountered an internal error or misconfiguration and was unable to complete your request.

Please contact the server administrator, lor@babeltech.com and inform them of the time the error occurred, and anything you might have done that may have caused the error.

More information about this error may be available in the server error log.

Reply

Marsh Posté le 28-11-2003 à 01:08:21

tetedeiench a écrit :

Comment ils font exactement ?

Citation :

The server encountered an internal error or misconfiguration and was unable to complete your request.

ils font plus fort ke JOCE [:f@bek]

Reply

Marsh Posté le 28-11-2003 à 01:57:48

tetedeiench a écrit :

Essayez ca, je viens de tomber dessus :

Des commentaires sur un truc aussi hallucinant ?
Comment ils font exactement ?

:hello:

Je n'ai pas pu acceder a ton lien toutefois je peux essayer d'expliquer en gros comment ca marche.

Il y a toute une phase d'analyse syntaxique/linguistique pour déterminer la prosodie (hauteur, ton, durée) des phrases et la transcription phonetique de la phrase.
Il y a une grosse base de données de parole naturelle.
Ensuite on extrait de cette base de données les unités accoustiques à concaténer (cela peut être des syllabes, des bouts de mots voire des mots entiers) et on effectue un peu de traitement de signal sur ces unités pour coller à la prosodie définie à la première étape.

Pour modifier la prosodie et coller les unités accoustiques, il faut regarder du côté des technologies TD-PSOLA (Time
Domain - Pitch Synchronous OverLap and Add), HNM (Harmonique plus Noise Model)...

Message édité par marmotte.tranquille le 28-11-2003 à 18:18:06

Reply

Marsh Posté le 06-12-2003 à 04:12:15

up, visiblement t'as pas lu mes explications

Reply

Marsh Posté le 06-12-2003 à 07:24:47

J'adore il connait même les gromo et le verlan (ta reum... :lol: )

Reply

Marsh Posté le 06-12-2003 à 09:45:37

à pleurer de rire!! mettre une phrase salace et essayer tous les langages...

Reply

Marsh Posté le 06-12-2003 à 09:45:37

Reply

Marsh Posté le 06-12-2003 à 11:53:44

Il y avait une emission à ce sujet ce matin même sur la 5. Afin de permettre aux mal/non voyants d'utiliser un ordi. C'est incroyable le truc :ouch:

---------------
Art ?|Pro ?|Sport ?| ACH/VDS matos photo divers

Reply

Marsh Posté le 06-12-2003 à 12:02:00

Barnabe a écrit :

c'est vraiment impressionnant, je ne sais absolument pas comment ils ont fait. :jap:

doit yavoir qques lignes de codes derrière
putin moi on me demande de programmer ca je me pend

Reply

Marsh Posté le 06-12-2003 à 16:29:01

Heu...c'est moi ou c'est pas si terrible que ça? franchement la phrase donnée par iench rend pas grand chose de terrible

Reply

Marsh Posté le 06-12-2003 à 18:30:09

jai pas trouvé le chinois, l'hébreux, ni même l'incomemnsurable cherokee d'amérique

c'est nul à chier

(wais atari stait mieux)

nah c'est pas pire, ils s'améliore de décennie en décennie..

microsoft en a un il me semble, avec leur budget ils devraient être les meilleurs non ?

j'ai soif d'acide désoxyribonucléïque

Reply

Marsh Posté le 06-12-2003 à 19:18:56

c'est vieux comme le monde sur mon to8 thomson j'avais déja une carte vocale en faite la voix est découpé en environ 80 phonéme et a partir de ces phonéme on peut reconstruire n'importe qu'elle pronociation de mot.
le probleme jusqu'a maintenant c'est que les phonéme était souvent anglais la apparement il en ont rajouté un en french
d'ailleurs ce systeme est intégré a windows xp, DEMARRER => PANNEAU DE CONFIGURATION => VOIX. le probleme c'est la base de phonéme c'est SAM et c'est horrible parce que c'est américain , faudrais chercher chez crosoft peut etre ya une base en french.
intéret : quand on fait un programme utilisant une IA tout peut etre lu avec trés peu d'échantillon qui tienne en mémoire.en gros c'est ça

Reply

Marsh Posté le 06-12-2003 à 19:33:08

Les fils de cuivre.

Reply

Marsh Posté le 07-12-2003 à 00:44:02

ecrivez un texte francais avec la langue EnglishUK :lol: :lol:

Reply

Marsh Posté le 07-12-2003 à 13:34:58

En Janvier, un nouveau VSTi va sortir:

http://www.zero-g.co.uk/index.cfm?articleid=803

Genre synthèse vocale, on est au summum là...

Reply

Marsh Posté le 07-12-2003 à 15:13:12

y en a un qui a essayé
les chaussettes de l'archi-duchesse sont elles sèches archi-sèches
ou encore
si mon tonton tond ton tonton, ton tonton tondu sera !

Edit : c pas mal ! par contre oubliez pas les accents !

Message édité par jolly le 07-12-2003 à 15:13:40

Reply

Marsh Posté le 07-12-2003 à 19:11:59

NEOKORTEX a écrit :

c'est vieux comme le monde sur mon to8 thomson j'avais déja une carte vocale en faite la voix est découpé en environ 80 phonéme et a partir de ces phonéme on peut reconstruire n'importe qu'elle pronociation de mot.
le probleme jusqu'a maintenant c'est que les phonéme était souvent anglais la apparement il en ont rajouté un en french
d'ailleurs ce systeme est intégré a windows xp, DEMARRER => PANNEAU DE CONFIGURATION => VOIX. le probleme c'est la base de phonéme c'est SAM et c'est horrible parce que c'est américain , faudrais chercher chez crosoft peut etre ya une base en french.
intéret : quand on fait un programme utilisant une IA tout peut etre lu avec trés peu d'échantillon qui tienne en mémoire.en gros c'est ça

Si t'essaies de concaténer des phonèmes ton rendu va être très très moche. On concatène des diphones (de la zone stable d'un phonème à la zone stable d'un autre phonème), et maintenant des unités plus longues (plusieurs diphones).
Il y a un truc classique pour voir que la concaténation de phonème ne marche pas : si tu concatènes un 'k' et un 'a' n'importe comment, ça va te faire un 'pa'.
Les bases de données actuelles arrivent souvent à plusieurs Go lorsqu'elles ne sont pas compressées.

Edit : un système de synthèse bien élaboré :
http://www.research.att.com/projects/tts/demo.html

Message édité par marmotte.tranquille le 07-12-2003 à 19:43:52

Reply

Synthèse vocale : c'est du délire ce qu'ils font...

Sujets relatifs:

Leave a Replay