Aspects Linguistiques
Lecture d'un texte
- La structure du récit (titre, scène d’exposition, élément déclencheur, refrain, épilogue)
- Les éléments lexicaux (entités nommées, groupes nominaux, parties du discours)
- Identification des différents locuteurs, du narrateur.
- Un narrateur qui puisse interpréter des tons différents
Pour bien raconter une histoire, il faut la comprendre. La première étape de l’interprétation d’un texte est donc la recherche d’une certaine sémantique dans les caractères alphanumériques qui composent le texte brut.
Il s’agit de trouver les informations pertinentes pour rendre la lecture expressive. Dans le cas d’un conte pour enfants, on peut citer :
En partant de 850 histoires tirées du site http://contes.biz, 86 textes ont été sélectionnés ainsi que 3 histoires de Rosemarie Vassalo. Ils ont ensuite été analysés et annotés à la main. A titre indicatif, le tableau ci-dessous donne quelques informations statistiques sur le corpus.
Corpus de contes
- Longueur entre 500 et 1000 mots,
- Présence de tours de parole entre les différents personnages du conte.
- La présence du nombre de locuteurs d'au moins trois, pour un narrateur et deux personnages.
- Le lexique utilisé devra être ludique et facilement compréhensible, en particulier pour un jeune public.
- Les textes choisis devront être libres de droit. En effet, le projet GV-LEx compte mettre à disposition de la communauté le corpus ainsi annoté.
La reconnaissance automatique de ces informations passe par une phase d’apprentissage. Un corpus de contes a donc été rassemblé et puis annotés à la main.
Les contes ont été choisis selon un certain nombre de critères représentatifs de la démonstration envisagée dans le projet GV-LEx :
En partant de 850 histoires tirées du site http://contes.biz, 86 textes ont été sélectionnés ainsi que 3 histoires de Rosemarie Vassalo. Ils ont ensuite été analysés et annotés à la main. A titre indicatif, le tableau ci-dessous donne quelques informations statistiques sur le corpus.
| Corpus Brut | Corpus pré-traité | |
| Nombre total de mots | 65964 | 80746 |
| Nombre de mots différents | 12489 | 15740 |
| Moyenne de mots par histoire | 742 | 907 |
| Nombre maximum de mots | 1028 | 1318 |
| Nombre minimum de mots | 439 | 533 |
A partir de ce corpus annoté, la fonction d’annotation automatique va être développée.
