Temps de latence et de reponse vocale

Temps de latence et de reponse vocale - Traitement Audio - Video & Son

Marsh Posté le 27-12-2005 à 23:55:01    

Bonjour,
 
Je dois réaliser un programme pour une petite boite.
Fonctionnalités du programme :
 
- Afficher un mot à l'écran (par exemple : "bonjour" )
- L'utilisateur doit prononcer le mot "bonjour" grace a un micro, le mot prononcé est donc enregistré dans un fichier .wav
- Traiter le fichier .wav :

  • connaitre le temps de latence (c'est le temps entre lequel le mot bonjour est affiché et le moment où l'utilisateur répond)
  • connaitre le temps de pronociation (c'est le temps que l'utilisateur met pour prononcer le mot)


Pour afficher le mot à l'ecran et enregistrer la voix de l'utilisateur c'est bon. Mais pour connaitre le temps de latence et le temps de prononciation automatiquement je ne sais pas comment faire. Si quelqu'un sait comment faire je serai très content qu'il m'explique.
 
ps : j'utilise borland c++ builder 6
 
Merci
 
Amine

Reply

Marsh Posté le 27-12-2005 à 23:55:01   

Reply

Marsh Posté le 27-12-2005 à 23:59:53    

Je te conseille de poser la question dans la section PROGRAMMATION :jap:

Reply

Marsh Posté le 28-12-2005 à 09:23:02    

ok merci

Reply

Marsh Posté le 28-12-2005 à 09:30:45    

Ceci dit pour ce qui concerne la partie traitement du .wav va faire un tour ici:
 
http://www.borg.com/~jglatt/tech/wave.htm
 
Selon la fréquence de l'enregistrement tu as déjà une bonne base de calcul sur de la durée.. 44khz = 44000 valeurs par seconde. Il suffit d'extraire les valeurs situées sous un threshold au début du fichier (silence) et calculer la durée de celles-ci en fonction de la fréquence d'echantillonnage. Enfin je ne suis pas expert en prog mais je pense que ce principe tient la route. Il te donnera déjà la durée de latence entre le début de l'enregistrement et l'arrivée d'un signal non nul (le type qui commence à parler). Idem pour la durée du signal (extraction de valeurs de sample non nulles jusqu'à trouver une suite significative de samples sous ce threshold qui signifierait la fin du discours sans compter l'espace de blanc entre chaque mots)...
 
Maintenant comment réellement définir la sensibilité de ce threshold... Désolé mais mon, C++ est à des années lumières derrière moi...  
 
Bon courage.


Message édité par angturil le 28-12-2005 à 09:35:07
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed