Qu'est-ce que la synthèse vocale?

August 4

Qu'est-ce que la synthèse vocale?


La synthèse vocale, l'acte de produire artificiellement la voix humaine, a des utilisations innombrables dans le monde d'aujourd'hui. Ces systèmes peuvent soit parler à quelqu'un, comme dans un jeu vidéo ou un message vocal téléphonique, ou ils peuvent aussi parler pour quelqu'un, comme pour ceux qui souffrent de troubles neurologiques. Alors que la technologie peut sembler bord et futuriste de coupe, il a une histoire riche, qui remonte au 18ème siècle.

Histoire ancienne

Les premières tentatives de synthèse de la parole ont été soulevées dans la forme de dispositifs mécaniques du 18ème siècle. En 1770, Christian Gottlieb Kratzenstein créé une réplique de l'appareil vocal humain en reliant les tubes de résonance à des tuyaux d'orgue. Ce dispositif était capable de produire efficacement les sons vocaliques humains. Peu après, en 1791, Wolfgang von Kempelen a publié un document décrivant un dispositif à soufflet entraîné, avec une bouche artificielle, le nez et un roseau vocal réglable, pour produire l'intonation. En manipulant la bouche et le nez, l'opérateur peut maintenant créer de nombreux sons consonantiques, outre les voyelles.

Début Modèle électrique: Le Voder

Avec l'avènement des percées en génie électrique au début du 20ème siècle, la synthèse de la parole était maintenant possible avec des signaux électriques. Homer Dudley a présenté le dispositif le plus notable de ce type, le Démonstrateur Voix d'exploitation (Voder), à l'Exposition universelle de 1939. L'opérateur du Voder manipulé deux sources sonores pour synthétiser la parole: une "oscillation détendue" créé exprimé des sons, tels que «AAAA», et une «source de bruit aléatoire" produit des sons non vocaux, tels que "ssss". En manipulant l'amplitude et la fréquence de ces sources sonores, un opérateur hautement qualifié pourrait recréer des phrases entières.

Moderne Synthèse vocale: Text-to-Speech (TTS)

L'ère de la synthèse vocale moderne, maintenant généralement appelé "text-to-speech" --- aussi communément appelé «TTS», a commencé dans les années 1980, lorsque Dennis Klatt, professeur au Massachusetts Institute of Technology, a révolutionné la science de son la recherche qui mènent à la synthèse vocale TTS, MITalk. Ces nouveaux systèmes utilisent un moyen beaucoup plus sophistiqué pour synthétiser la parole que leurs ancêtres, en se concentrant sur la transformation du texte écrit dans une forme d'onde audio. Le processus est double: Le système TTS doit d'abord briser le texte en une représentation interne des différents sons associés à chaque mot. Par exemple, le mot "Avril" sera traduit dans les sons "ey / p / r / ih / l." Cette partie du processus est appelé analyse de texte. Une fois que l'analyse de texte est terminée, le système TTS doit mettre les différents sons ensemble pour faire une forme d'onde audio qui peut être joué sur un haut-parleur. Cette partie du processus est appelé «synthèse de forme d'onde." Alors que les moyens d'analyse de texte sont très similaires dans les plates-formes TTS, les moyens de synthèse de forme d'onde peuvent varier d'une des trois méthodes différentes.

Waveform Synthèse dans les systèmes modernes

systèmes de synthèse vocale modernes utilisent une des trois formes de synthèse de forme d'onde: synthèse concaténative, synthèse de formants et de synthèse articulatoire. Le plus important de ces trois méthodes, la synthèse concaténative, utilise les bibliothèques de la parole enregistrée. Elle attache ces sons snippets ensemble selon la représentation interne trouvée au cours de la phase d'analyse de texte et applique l'intonation et la longueur de chaque fragment. Cela produit une voix cohérente, intelligible et humaine à consonance. Format de synthèse, d'autre part, utilise un procédé similaire à celui Voder. Il manipule des sons artificiels pour créer une approximation de la voix humaine, tandis que la synthèse d'articulation tente de recréer les mécanismes de l'appareil vocal humain. la synthèse de Format, tout en produisant la parole intelligible, produit une voix robotique, mais est capable d'afficher un large éventail d'émotions.

Les futures applications

Alors que les systèmes de synthèse vocale en cours sont axés principalement sur la traduction de texte écrit dans un discours audible, l'un des objectifs ultimes de la science est la technologie la parole-parole. Celui-ci combine la technologie text-to-speech avec les technologies de reconnaissance vocale et de traduction. Avec la parole-parole, deux personnes parlant des langues différentes peuvent se comprendre en temps réel, comme un ordinateur traduit instantanément la langue étrangère dans la langue maternelle de chaque auditeur.