FFCNCERCERXAM08
Stage intra entreprise
Durée :
3 jour(s)
Présentation
La formation donne une vue d’ensemble des nouvelles technologies vocales et de leurs applications potentielles. Trois domaines sont abordés :
- Codage bas-débit du signal de parole (et ses applications aux radio-téléphones)
- Reconnaissance de la parole (reconnaissance robuste multilocuteurs, grands vocabulaires, dialogue)
- Synthèse de parole à partir du texte
Objectifs
- Lister l’ensemble des nouvelles technologies vocales
- Décrire les principes et les algorithmes de codage bas débit de la parole et ses applications aux radio-téléphones
- Décrire les principes et les différentes approches de la reconnaissance de la parole (reconnaissance robuste multilocuteurs, grands vocabulaires, dialogue) et de la synthèse de parole à partir du texte
- Aborder des formations (ou lire des ouvrages) plus spécialisées, tant dans le domaine du codage que dans ceux de la synthèse et de la reconnaissance de parole
-
Programme
Introduction
Généralités sur le traitement de la parole
- Production (Larynx, conduit vocal appareil respiratoire, etc.)
- Classification des sons (notions de phonétique)
- Perception des sons de parole (perception, description acoustique, spectrogrammes, triangle vocalique, formants, etc.)
Codage de parole
- Codage de parole à haut-débit : principes généraux, codage de forme d'onde, codage paramétrique normalisation
- Introduction au codage de source
- Analyse du signal vocal
Synthèse de la parole à partir du texte : les méthodes
- Petit historique de la synthèse
- Architecture d'un système de synthèse
- Analyse syntaxique, transcription orthographique/phonétique, modèles pour l'intonation (prosodie)
- Synthèse acoustique (synthèse par règles ou par formants, synthèse par concaténation d'unités acoustiques, techniques de modification de paramètres prosodiques de la voix)
- Applications de la synthèse
Reconnaissance de la parole
- Introduction et positionnement du problème (variabilité, sensibilité au bruit, etc.)
- Approches pour la reconnaissance automatique de parole (approches basées sur les connaissances, approches d'intelligence artificielle, approches statistiques)
- Architectures types
- Paramétrisation
- Alignement temporel et programmation dynamique
- Introduction aux modèles de Markov : chaînes de Markov, densités discrètes/continues, algorithmes de Viterbi et de Baum Welsh
- Application à la reconnaissance de parole : reconnaissance par mots, par phonèmes, interface avec lexique, syntaxe
Dialogue vocal et applications
- Introduction au dialogue vocal
- Voice XML
- Applications
Synthèse et conclusion
-
Points forts
La formation donne une vue d’ensemble des nouvelles technologies vocales et de leurs applications potentielles.
-
Modalités pédagogiques
Des travaux pratiques et des démonstrations permettent de s’approprier les concepts théoriques de la formation.
Un accès aux moyens techniques utilisés dans les laboratoires de recherche universitaires de Télécom Paris est proposé aux stagiaires de la formation.
-
Public cible et prérequis
Techniciens et ingénieurs avec des connaissances de base en réseaux et télécommunications.
Des connaissances en machine learning sont souhaitables.
-
Responsables
Geoffroy PEETERS
Enseignant-chercheur au sein du département Image, Données et Signal de Télécom Paris. Ses recherches portent sur le traitement du signal et l'apprentissage machine appliqué à la modification et à la description des signaux audio (parole, musique, sons environnementaux).
Prochaine(s) session(s)
Nous contacter pour les sessions à venir