Synthèse de discours – Definir Tech

Définition - Que signifie la synthèse vocale?

La synthèse vocale est une simulation artificielle de la parole humaine avec un ordinateur ou un autre appareil. Le pendant de la reconnaissance vocale, la synthèse vocale est principalement utilisée pour traduire des informations textuelles en informations audio et dans des applications telles que des services vocaux et des applications mobiles. En dehors de cela, il est également utilisé dans la technologie d'assistance pour aider les personnes malvoyantes à lire du contenu textuel.

Definir Tech explique la synthèse vocale

Le VODER d'Homer Dudley, basé sur le vocodeur de Bell Laboratories, est considéré comme le premier synthétiseur vocal entièrement fonctionnel. L'ordinateur utilisé dans la synthèse vocale est connu comme un synthétiseur vocal ou un ordinateur vocal. La qualité de l'ordinateur vocal est souvent jugée par sa similitude avec la voix humaine. La plupart des systèmes d'exploitation informatiques intègrent des synthétiseurs vocaux depuis le début des années 1990. Le discours synthétisé est généralement généré à l'aide de la concaténation de morceaux de discours enregistré, qui est contenu dans une base de données.

L'étape initiale de la synthèse vocale est le prétraitement, qui élimine l'ambiguïté entourant la manière dont le mot spécifique doit être lu, et qui comprend également la gestion des homographes. Dans l'étape suivante de la synthèse vocale, l'ordinateur utilise des phonèmes pour convertir le texte en séquence de sons. La dernière étape implique l'utilisation d'enregistrements humains ou de techniques de base de génération de sons pour imiter le mécanisme de la voix humaine et lire l'intégralité du texte. L'une des branches populaires de la synthèse vocale est la synthèse vocale audiovisuelle ou la synthèse vocale multimodale qui utilise un visage animé étroitement synchronisé pour compléter la parole synthétisée. La synthèse vocale multimodale intègre également des fonctionnalités supplémentaires telles que des indices non verbaux de la parole pour aider à communiquer les mots de l'utilisateur avec plus de précision. De nombreux systèmes de synthèse vocale permettent aux utilisateurs de choisir le type de voix comme la voix masculine ou féminine.

La plupart des systèmes de synthèse vocale sont capables de lire des textes et de les reproduire de manière très intelligente, même si la voix peut parfois être terne. La synthèse vocale, cependant, n'a pas encore développé la capacité d'imiter pleinement le large spectre d'intonations et de cadences humaines.