Synthèse Vocale
La Voix du Conteur
Dans le cadre du projet, Acapela se propose de développer une nouvelle voix de synthèse adaptée à la lecture de conte. Le schéma ci-dessous donne le principe de la réalisation d’une voix de synthèse.
Ce logiciel offre plusieurs possibilités comme par exemple la possibilité de corriger les erreurs, d'améliorer le rendu audio, en ajoutant des sons, mais aussi de créer des personnages, de leur associer une voix et enfin d'ajouter des balises. Nous avons choisi dans un premier temps la voix d'Antoine (cf. Corpus).

La partie haute du schéma montre comment le texte à lire est analysé de façon à aller chercher, dans une base de données, les différentes unités linguistiques de base qu’il faudra assembler pour le lire.
Sur la partie basse, on voit comment est constituée la base de données des unités linguistiques de base : un comédien enregistre un important corpus de textes (l’enregistrement peut durer plusieurs semaines). Sa voix est ensuite découpée en blocs élémentaires qui seront utilisés lors de la synthèse. Les partenaires du projet ont sélectionné ensemble le conteur parmi quelques candidats.
Pour les besoins du projet, Acapela a réussi à optimiser le corpus de texte pour réduire la durée de l’enregistrement (une semaine) ce qui a permis d’enregistrer plusieurs types de voix du même conteur : outre la voix neutre, ont également été enregistrées :
- une voix enjouée,
- une voix triste,
- une voix projetée,
- une voix proche.
Le tableau ci-dessous présente ces corpus en quelques chiffres.
| Corpus | Phrases | Phonèmes | Durée(s) |
| Neutre | 5742 | 94421 | 11032 |
| Heureux | 1122 | 37319 | 3907 |
| Triste | 1033 | 34262 | 3834 |
| Projeté | 1301 | 35692 | 4188 |
| Proche | 1380 | 45705 | 4861 |
Cela permettra, lors de la synthèse, de choisir une de ces voix selon l’expressivité désirée.
A ce corpus générique, a été ajouté un ensemble d’éléments plus spécifiques de la lecture de contes :
- Des expressions typiques de contes (Prends garde, Tout est bien qui finit bien, Il était une fois, Ils se marièrent et eurent beaucoup d'enfants…)
- Des sons particuliers (pleurs, rires, respirations, ronflements, toux, éternuement, bâillements, halètements, dégoût, bruit de bouche, …)
Dans le cas particulier de la voix du robot, une modulation numérique sera appliquée pour adapter la voix d’Antoine à la personnalité du robot.
La retouche manuelle
L’analyse automatique du texte, présentée sur la page Aspects Linguistiques, va faire une proposition d’annotation du texte pour qu’y soit inséré automatiquement des indications d’interprétation vocale et gestuelle. Mais il peut arriver que cette annotation automatique se trompe ou que le programmeur du robot ou de l’avatar veuille ajouter des indications à la main. Aldebaran et Acapela ont donc développé des outils permettant une annotation manuelle du texte pour y insérer ces indications. Aldebaran a développé l’outil Narrateur, qui permet de glisser des balises dans le texte brut. De son côté Acapela propose l’outil Virtual Story Teller qui va intervenir un peu plus tard dans la chaîne de traitement du texte.
Interface graphique du logiciel Virtual Story Teller d’Acapela.