Synthèse vocale

La synthèse vocale est la simulation par ordinateur de la parole humaine. Elle est utilisée pour traduire des informations écrites en informations sonores lorsque cela est plus pratique, notamment pour les applications mobiles telles que le courrier électronique à commande vocale et la messagerie unifiée. Elle est également utilisée pour aider les malvoyants, par exemple en lisant automatiquement à voix haute le contenu d'un écran à un utilisateur aveugle. La synthèse vocale est le pendant de la reconnaissance vocale. En 1779, le professeur russe Christian Kratzenstein a mis au point un appareil basé sur les voies vocales humaines pour montrer les différences physiologiques dans la production de cinq voyelles longues. Il s'agit de la première tentative de synthèse vocale. Le VODER de Homer Dudley, un synthétiseur vocal entièrement fonctionnel, a été présenté à l'exposition universelle de 1939. Le VODER était basé sur les recherches menées par les Laboratoires Bell sur les vocodeurs (codeurs vocaux) au milieu des années 30. Prothèse vocale : la parole générée par ordinateur est destinée aux personnes handicapées. La recherche dans ce domaine intègre à la fois la génération de texte et de parole, car les nombreux handicaps qui entraînent des difficultés d'élocution rendent souvent difficile la saisie de texte. Les prothèses vocales doivent être capables de surmonter les difficultés inhérentes à la parole humaine. Notre objectif principal est de développer un système de prothèse qui ressemblera de près à la parole naturelle avec un minimum de saisie. Le système de prothèse vocale rend possible l'utilisation d'ordinateurs même pour les personnes souffrant de déficience visuelle. La synthèse vocale multimodale (parfois appelée synthèse vocale audio-visuelle) intègre un visage animé synchronisé pour compléter la parole synthétisée. Les mêmes difficultés qui sous-tendent les troubles de la parole d'une personne entravent souvent sa capacité à communiquer par le biais d'expressions faciales. La parole synthétisée peut sembler plus réaliste que la parole naturelle, mais il peut s'écouler un certain temps avant que la parole synthétisée n'atteigne le même niveau de sophistication que la parole naturelle. Les systèmes multimodaux intègrent un moyen d'ajouter des indices non verbaux à la parole (secouements de tête, sourires et clins d'œil, par exemple) afin de rendre le sens de l'utilisateur aussi clair que possible.

Vous pouvez également être intéressé
  1. Synthèse de modulation de fréquence (synthèse fm) Définition - Que signifie la synthèse par modulation de fréquence (synthèse FM)? La synthèse par modulation de fréquence (FM) est une technique populaire utilisée pour générer des palettes sonores riches dans le processus de synthèse sonore. Initialement implémentés dans les systèmes analogiques, les synthétiseurs FM sont désormais implémentés numériquement. Les...
  2. Logiciel de synthèse vocale Définition - Que signifie le logiciel Speech-to-Text? Le logiciel Speech-to-Text est un type de logiciel qui prend efficacement le contenu audio et le transcrit en mots écrits dans un traitement de texte ou une autre destination d'affichage. Ce type de logiciel de reconnaissance vocale est extrêmement précieux pour quiconque a...