Speechz Text to speech 1.0

Licence: Gratuit ‎Taille du fichier: N/A
‎Note des utilisateurs: 0.0/5 - ‎0 ‎Votes

Sur Speechz Text to speech

Speechz Texte à la parole

La synthèse vocale est la production artificielle de la parole humaine. Un système informatique utilisé à cette fin est appelé synthétiseur vocal, et peut être implémenté dans les logiciels ou les produits matériels. Un système de texte à la parole (TTS) convertit le texte normal du langage en paroles; d’autres systèmes rendent les représentations linguistiques symboliques comme les transcriptions phonétiques dans la parole. [1] La parole synthétisée peut être créée en concatenating des morceaux de discours enregistrés qui sont stockés dans une base de données. Les systèmes diffèrent dans la taille des unités de parole stockées; un système qui stocke les téléphones ou les diphones fournit la plus grande plage de sortie, mais peut manquer de clarté. Pour des domaines d’utilisation spécifiques, le stockage de mots ou de phrases entiers permet une sortie de haute qualité. Alternativement, un synthétiseur peut incorporer un modèle du tractus vocal et d’autres caractéristiques vocales humaines pour créer une sortie vocale complètement « synthétique ». [2] La qualité d’un synthétiseur vocal est jugée par sa similitude avec la voix humaine et par sa capacité à être comprise. Un programme intelligible de texte à la parole permet aux personnes ayant une déficience visuelle ou un handicap de lecture d’écouter des œuvres écrites sur un ordinateur à domicile. De nombreux systèmes d’exploitation informatiques ont inclus des synthétiseurs de la parole depuis le début des années 1990.

Vue d’ensemble d’un système TTS typique

Annonce automatique MENU0:00 Une voix synthétique annonçant l’arrivée d’un train en Suède. Problèmes à jouer ce fichier? Voir l’aide des médias.

Échantillon de Microsoft Sam MENU0:00 Microsoft Windows XP voix synthétiseur de la parole par défaut en disant: « Le renard brun rapide saute par-dessus le chien paresseux 1.234.567.890 fois. soi » Problèmes à jouer ce fichier? Voir l’aide des médias. Un système text-to-speech (ou « moteur ») est composé de deux parties:[3] un front-end et un back-end. Le front-end a deux tâches majeures. Tout d’abord, il convertit le texte brut contenant des symboles comme les nombres et les abréviations en l’équivalent de mots écrits. Ce processus est souvent appelé normalisation du texte, pré-traitement ou jetonisation. Le front-end attribue ensuite des transcriptions phonétiques à chaque mot, et divise et marque le texte en unités prosodiques, comme des phrases, des clauses et des phrases. Le processus d’attribution des transcriptions phonétiques aux mots est appelé conversion text-to-phoneme ou grapheme-to-phoneme. Transcriptions phonétiques et informations prosodiques composent ensemble la représentation linguistique symbolique qui est sortie par l’avant-plan. Le back-end—souvent appelé le synthétiseur—puis convertit la représentation linguistique symbolique en son. Dans certains systèmes, cette partie inclut le calcul de la prosodie cible (contour de hauteur, durées de phonème)[4], qui est ensuite imposée sur le discours de sortie.