Modélisation et Traitement Automatique des Langues des Signes

Equipe "M&TALS"

Permanents : A. Braffort (resp.), M. Filhol,
membres P2I associés L. Bolot, C. Verrecchia
Doctorants : Mohamed Benchiheub, Mohamed Hadjadj

Introduction

L'équipe "M&TALS" du LIMSI s'intéresse au Traitement Automatique des Langues des Signes (LS) et en particulier de la Langue des Signes Française (LSF).
Les LS sont des langues naturelles utilisées par les sourds et la LSF est la langue naturelle des personnes sourdes en France. Ce sont des langues visuo-gestuelles : une personne s'exprime en LSF en utilisant de nombreuses composantes corporelles (les mains et les bras, mais aussi les expressions du visage, le regard, le buste, etc.) et son interlocuteur perçoit le message par le canal visuel. Le fonctionnement linguistique des LS est très différent de celui des langues écrites ou parlées. De nombreuses informations sont exprimées simultanément et s'organisent dans l'espace, et l'iconicité joue un rôle central. Par ailleurs, les LS n'ont pas de système d'écriture et il n'existe pas à ce jour de système graphique permettant de les transcrire.
La modélisation informatique de LS nécessite de concevoir des représentations spécifiques car les modèles usuellement développés pour les langues écrites ou parlées ne sont pas adaptés. Nous élaborons des corpus vidéos que nous annotons puis analysons. Nous en déduisons des représentations informatiques des structures et règles linguistiques, que nous implémentons puis évaluons. L'équipe développe pour cela des plateformes de génération automatique et d'animation de signeur virtuel (personnage 3d s'exprimant en LSF).
Les 4 axes d'études principaux actuellement sont les suivants : corpus, modélisation, génération et traduction.

Corpus de LS

Les LS sont des langues peu dotées, avec peu d'ouvrages de référence (grammaire, dictionaires) et peu de corpus, qui sont tous de petites taille. Nous participons à la création de corpus de LSF et developpons des méthodes pour l'élicitation, l'annotation (qualitative et quantitative) et l'analyse.
  • Projets actuels :
    • Etude sur le mouvement en LSF. Constitution, annotation et analyse d'un corpus de LSF capté avec à la fois des caméras HD et un système de capture de mouvement : Thèse de Mohamed Benchiheub démarrée en octobre 2013, en collaboration avec le laboratoire CIAMS de l'Université Paris-Sud.
    • Constitution d'un signaire LSF 3d (signes lexicaux de la LSF sous forme d'animations de signeur virtuel) en collaboration avec Visuel-LSF.
  • Projets récents sur les corpus qui sont toujours utilisés dans nos différentes études :
    • 2012: Corpus 40brèves2012, parallèle français écrit et LSF. Constitué avec le service de traduction en LSF de la société WebSourd, pour collecter 1 heure de données signées à partir d'articles de presse de l'année 2006, traductions réalisées par 3 traducteurs sourds. Créé pour alimenter les études sur la traduction texte-vers-LSF.
    • 2011: Corpus DEGELS1, comparable dialogue LSF et français oral + gestualité (1 heure de dialogue, 4 locuteurs français, 5 locuteurs LSF). Collaboration avec le laboratoire LPL. Créé pour fournir un corpus de travail pour la série d'ateliers DEGELS. Des extraits de ce corpus ont été annotés par plusieurs équipes participant à ces ateliers.
    • 2010: Partie LSF (8 heures de dialogue, 16 locuteurs) du corpus produit durant le projet européen Dicta-Sign. Collaboration avec le laboratoire IRIT et la société WebSourd. Utilisé en premier lieu pour une analyse de structures linguistiques dans les 4 LS du projet.
  • Projets récents sur des aspects relatifs aux méthodologies d'annotation des LS :
    • 2010 : Etude sur les composantes non-manuelles dans le cadre de la thèse d'Emilie Chételat sur les mouvements des sourcils et le clignement des yeux (mémoire PDF).
    • 2010 : Etude sur la coarticulation dans le cadre de la thèse de Jérémie Segouat en collaboration avec la société WebSourd (mémoire PDF).

Modélisation des LS

L'objectif de la modélisation de la LS est de construire des représentations formelles et des outils qui représentent la manière dont la SL fonctionne et qui seront utilisables dans le traitement automatique (analyse, reconnaissance, génération, traduction automatiques). Les approches formelles pour représenter le lexique ou les énoncés en LS sont généralement basées sur des modèles ou des approches qui ont été développées pour le traitement du langage parlé ou même de l'écrit, avec de fortes limitations et de nombreux biais. De ce fait, nous travaillons sur la conception de nouveaux modèles, qui s'appuient sur l'annotation et l'analyse de corpus.
  • Projets récents :
    • 2008 : Etude sur la représentation du lexique dans le cadre de la thèse de Michael Filhol, proposition du modèle Zebedee (mémoire PDF). Zebedee permet de décrire les contraintes articulatoires, sémantiques et cognitives des signes (unités lexicales des LS). La capacité de couverture de Zebedee a été évaluée sur un corpus de 1500 lexèmes durant le projet Dicta-Sign.
    • 2012 : Etude sur la synchronisation de l'ensemble des articulateurs utilisés dans les énoncés de LS au cours du projet Dicta-Sign. Proposition du modèle Azalee.
  • Projets actuels :
    • Zebedee et Azalee, chacun représentant un mode de synchronisation spécifique, peuvent être combinés pour former le modèle AZee, encore en cours d'élaboration et d'évaluation. AZee permet de représenter des énoncés de LSF complets ainsi que des structures de discours. Au fur et à mesure des études menées dans l'équipe, nous alimentons une base de données avec des descriptions AZee, l'hypothèse étant que leur ensemble forme une grammaire complète de production.
    • Recherche de structures et règles linguistiques dans le cadre de la thèse de Mohamed Hadjadj démarrée en novembre 2013.

Génération de LS

L'évaluation de la qualité des représentations passe par la mise en oeuvre de plateformes logicielles. Dans notre cas, il s'agit de génération automatique qui permet de contrôler l'animation d'un signeur virtuel (personnage virtuel en 3 dimensions).
  • Projet actuel sur la synthèse automatique :
    • Développement de la plateforme web KAZOO. Il s'agit d'une plateforme de synthèse automatique d'énoncés en LSF basée sur plusieurs modèles et modules développés préalablement dans l'équipe (en particulier AZee, Octopus et GeneALS - voir ci-dessous) et qui utilise la technologie WebGL pour afficher les animations en 3d sur le web. Encore en cours de développement, KAZOO est accessible uniquement en interne au LIMSI. Le site sera ouvert à l'extérieur courant 2014.
  • Projets récents, 3 études relatives à la génération assistée et automatique :
    • 2011 : Plateforme GeneALS, qui permet de résoudre le système de contraintes de descriptions Zebedee et de générer automatiquement des postures "naturelles", dans le cadre de la thèse de Maxime Delorme (mémoire PDF).
    • 2011 : Plateforme Octopus, qui permet de concaténer et de coarticuler des animations prédéfinies pour former des énoncés 3d très réalistes. Utilisé par la société WebSourd pour le compte de la SNCF afin de générer des messages en LSF dans les gares.
    • 2012 : Plateforme Diva, en collaboration avec le groupe AMI, est conçue pour le web et permet de concaténer des animations 2,5d prédéfinies pour former des énoncés.

Traduction texte-vers-LSF

La traduction du texte vers la LSF peut jouer un rôle crucial en matière d'accessibilité pour les personnes sourdes.
  • Projet récent :
    • 2011 : Projet exploratoire. Création d'un premier corpus parallèle français-LSF (brèves AFP publiés sur le site web de WebSourd sous la forme de vidéos LSF avec les textes équivalent en français). Elaboration d'une méthodologie basée sur l'étude de ce corpus (analyse des vidéos indépendemment du texte, puis des textes pour extraire des éléments fonctionnels identiques à ceux trouvés dans les vidéos). Evaluation de cette méthodologie sur l'analyse des expressions LSF utilisées pour la localisation géographique de sous-zones (ex: "au sud de"), utilisation d'outils du LIMSI tels que Wmatch pour l'extraction des homologues textuels. Constitution d'un nouveau corpus parallèle approprié pour une analyse plus approfondie, le corpus 40brèves2012 en vue d'une collaboration avec des chercheurs du groupe ILES travaillant sur l'extraction textuelle des expressions temporelles.
  • Projet actuel :
    • Développement de modules d'analyse textuelle pour le déclenchement de règles AZee.

Autres pages


Mise à jour : 1 août 2016 en flag fr flag