Corpus

Plusieurs corpus ont été rassemblés pour les besoins du projet :


Corpus de contes lus par Antoine

L’objectif de ce corpus est d’analyser la façon dont un conteur professionnel utilise sa voix pour améliorer l’expressivité de sa narration. Le LIMSI a donc développé un outil d’annotation d’un corpus sonore pour faire l’analyse systématique de 12 contes « bien » lus.

L’annotation commence par un étiquetage du signal réalisé dans l’interface graphique présentée ci-dessous.

Ensuite l’outil permet également l’alignement du texte avec l’analyse linguistique réalisée plus tôt sur le texte brut.

L’analyse prosodique permet d’obtenir les résultats présentés sur le graphique ci-dessous :

Les objectifs de ce corpus est de réaliser, dans des contes bien lus :

Ce corpus ainsi annoté pourra servir de base à l’établissement de premières règles d’annotation prosodique d’un texte.

Corpus audio-visuel

Le LIMSI a constitué le corpus vidéo (ContAct pour "Conte Acté") avec des acteurs racontant le conte « Trois petits morceaux de nuit ». Il s’agit d’avoir une base de référence pour des comportements expressifs associés aux textes et fournir un lexique de gestes exprimés dans un contexte proche de l'application visée utilisables par NAO et Greta.

6 acteurs ont enregistré chacun 2 fois le conte en étant filmé sous deux angles de vue différents (face et profil).

L’annotation des vidéos a été faite avec l’outil ANVIL développé par Kipp.

Les gestes ont été annotés en terme de catégories, mains utilisées et lexème.

Le tableau ci-dessous illustre des différences individuelles entre acteurs.

Acteur 1 Acteur 2 Acteur 3
Nombre de gestes 163 82 94
Durée des gestes 5’41 3’33 4’17
Gestes/mn 19 13 13
% deux mains 72 56 90
% main droite seule 21 16 10
% main gauche seule 7 28 0