FC9AM08

Stage inter entreprise

Prix 2020 :

2 000 €

Comment financer sa formation ?

Durée :

3 jour(s)

Prochaine(s) session(s)

  • Du 02/12/2020 au 04/12/2020 à Paris - 2 000 €

Présentation

L’objet de cette formation est de donner une vue d’ensemble des nouvelles technologies vocales et de leurs applications potentielles. Trois domaines sont abordés : le codage bas-débit du signal de parole (et ses applications aux radio-téléphones), la reconnaissance de la parole (reconnaissance robuste multilocuteurs, grands vocabulaires, dialogue) et la synthèse de parole à partir du texte.

Objectifs

A l’issue de cette formation, les participants seront capables de lister l’ensemble des nouvelles technologies vocales, de décrire les principes et les algorithmes de codage bas débit de la parole et ses applications aux radio-téléphones, de décrire les principes et les différentes approches de la reconnaissance de la parole (reconnaissance robuste multilocuteurs, grands vocabulaires, dialogue) et de la synthèse de parole à partir du texte et enfin, d’aborder des formations (ou lire des ouvrages) plus spécialisées, tant dans le domaine du codage que dans ceux de la synthèse et de la reconnaissance de parole.

  • Programme

    Bases de traitement de parole

    • Production (Larynx, conduit vocal appareil respiratoire, …)
    • Classification des sons (notions de phonétique)
    • Perception des sons de parole (perception, description acoustique, spectrogrammes, triangle vocalique, formants, …)

    Codage de parole

    • Codage de parole à haut débit : principes généraux, codage de forme d'onde, codage paramétrique normalisation
    • Introduction au codage de source
    • Analyse du signal vocal

    Synthèse de la parole à partir du texte

    • Petit historique de la synthèse
    • Architecture d'un système de synthèse
    • Analyse syntaxique, transcription orthographique / phonétique, modèles pour l'intonation (prosodie)
    • Synthèse acoustique (synthèse par règles ou par formants, synthèse par concaténation d'unités acoustiques, techniques de modification de paramètres prosodiques de la voix)
    • Applications de la synthèse

    Reconnaissance de la parole

    • Introduction et positionnement du problème (variabilité, sensibilité au bruit, …)
    • Approches pour la reconnaissance automatique de parole (approches basées sur les connaissances, approches d'intelligence artificielle, approches statistiques)
    • Architectures types
    • Paramétrisation
    • Alignement temporel et programmation dynamique
    • Introduction aux modèles de Markov : chaînes de Markov, densités discrètes / continues, algorithmes de Viterbi et de Baum Welsh
    • Application à la reconnaissance de parole : reconnaissance par mots, par phonèmes, interface avec lexique, syntaxe

    Dialogue vocal et applications

    • Introduction au dialogue vocal
    • Voice XML
    • Applications (dictée vocale, serveurs vocaux interactifs, …)

    Synthèse et conclusion

  • Modalités pédagogiques

    Des exemples illustrent les concepts théoriques.

  • Public cible et prérequis

    Ingénieurs et techniciens développant ou utilisant des systèmes qui intègrent tous types de facilités vocales : radiomobiles, messageries et interfaces homme-machine.

    Des connaissances de base en traitement du signal numérique sont souhaitables pour tirer un profit maximum de cette formation.

  • Responsables

    • Chloé CLAVEL

      Enseignant-chercheur à Télécom Paris. Ses activités de recherche appartiennent au domaine de l’Affective Computing. Elle a précédemment travaillé en tant que chercheuse à Thales Research and Technology puis à EDF R&D. Ses travaux concernant l’analyse et le traitement de la parole et plus particulièrement de la parole émotionnelle ont notamment été abordés dans un contexte applicatif de gestion de la relation client sur des corpus riches en expressions spontanées (transcriptions manuelles et automatiques des centres d’appels, etc.).

Prochaine(s) session(s)

  • Du 02/12/2020 au 04/12/2020 à Paris - 2 000 €