Synthèse vocale (tts) – Definir Tech

Définition - Que signifie la synthèse vocale (TTS)?

La synthèse vocale (TTS) est un processus de modélisation du langage naturel qui nécessite de changer les unités de texte en unités de parole pour la présentation audio. C'est le contraire de la parole au texte, où une technologie prend les mots parlés et essaie de les enregistrer avec précision sous forme de texte. La synthèse vocale est maintenant courante dans les technologies qui cherchent à rendre la sortie audio à partir de texte numérique pour aider ceux qui ne peuvent pas lire, ou pour d'autres types d'utilisations.

Definir Tech explique la synthèse vocale (TTS)

Le développement de la capacité de synthèse vocale comporte des défis uniques. En particulier dans la langue anglaise, où un grand nombre d'homonymes ont des prononciations variées, les programmes informatiques s'appuient sur la modélisation de probabilité pour deviner la prononciation souhaitée d'un mot dans un texte numérique. Le programme doit également convertir des unités de texte en phonèmes, les plus petites unités de prononciation de la parole. Le résultat est que de nombreuses technologies de synthèse vocale sont loin d'être infaillibles, bien que les développeurs aient fait d'énormes progrès sur ces technologies sur plusieurs années.

Au fil du temps, les experts ont observé certaines meilleures pratiques pour le développement de TTS. Ceux-ci incluent les bases de phonèmes et les approches concaténatives avec analyse prédictive. Les meilleurs programmes sont également capables de fonctionner avec un minimum de mémoire et sont faciles à configurer. Les développeurs continuent de travailler sur les ressources TTS pour n'importe quelle langue donnée, en surmontant les défis majeurs de l'ambiguïté et d'autres obstacles à un rendu plus précis.