Proposition de stage (Maîtrise TAL)
“ Evaluation d’un algorithme pour l’analyse automatique d’expressions référentielles ”
Description du sujet
Contexte scientifique :
Un des objectifs de l’équipe Langue et Dialogue est l’étude des mécanismes d'interprétation d'un énoncéen dialogue Homme-Machine. L’interprétation repose sur de nombreux processus complémentaires qui comprennent entre autres la résolution de la référence aux objets (linguistiquement réalisée par des pronoms, des descriptions démonstratives et des descriptions définies). Nous proposons un modèle d’interprétation qui se distingue des modélisations traditionnelles comme par exemple la DRT (Kamp H., Reyle U.,1993). Notre modèle s’appuye sur l’hypothèse que l'interprétation d'une expression référentielle demande d’abord l’identification d’un contexte plus global ( domaine de référence ) àl’intérieur duquel l’objet désignéest ensuite isolésur la base de propriétés distinctives. Ainsi, dans l’exemple suivant :
Sélectionne deux triangles.
Supprime le rouge et agrandis le vert.
l’expression deux triangles introduit un domaine de référence àl’intérieur duquel l’isolation des référents pour le rouge et le vert se fait sur la base d’une propriétédistinctive qui est la couleur. La prise en compte explicite de la notion de domaine de référence confère ànotre modèle une capacitéprédictive supérieure aux modélisations jusqu’alors proposées.
L’objectif du stage :
Nous développons actuellement des algorithmes permettant de calculer les référents d’expressions pronominales, démonstratives et définies. L’objectif du stage est l’évaluation qualitative et quantitative de ces algorithmes sur un corpus de dialogues homme-homme, portant sur un domaine restreint (la manipulation de figures géométriques sur un écran). Le travail proposéconsistera à
− se familiariser avec le corpus et le format de codage XML
− se familiariser avec notre approche du traitement référentiel (éventuellement en comparaison avec une des approches traditionnelles),
− simuler l’algorithme d’analyse sur le corpus en
− proposant une représentation des connaissances extralinguistiques nécessaires au calcul référentiel et
− en relevant les cas de succès et d’échec de l’algorithme,
− analyser les causes d’échec et, si possible,
− suggérer des améliorations du modèle.
Compétences requises
− Connaissances en sémantique, pragmatique, représentation des connaissances et travail sur corpus
− Bases d’algorithmique procédurale
− Capacitéminimale de formalisation de problèmes linguistiques (logique du premier ordre serait un atout)
− Compréhension d’articles scientifiques en anglais
− Lecture conseillée avant le début du stage : Corblin F. (1987), Indéfini, Défini et Démonstratif, Droz, Genève.
Durée du stage
Deux àtrois mois, dates ànégocier.
Nous proposons…
− Encadrement pluridisciplinaire (S.Alt, en thèse de linguistique informatique , et L.Romary, chercheur CNRS)
− Bibliographie fournie
− Intégration dans l’équipe de recherche Langue et Dialogue d’un important laboratoire informatique (LORIA-INRIA/CNRS)
− Bonnes conditions matérielles (mise àdisposition d’un bureau et du matériel informatique, locaux modernes climatisés avec centre de documentation, restaurant sur place, installations loisirs)
− Aide àla recherche d’un logement temporaire sur Nancy, si besoin
− Indemnitéde stage (1500 F/mois)
Contact / Informations supplémentaires
Susanne Alt / Laurent Romary
LORIA, équipe Langue et Dialogue
Campus Scientifique,
B.P. 239
54506 Vandoeuvre-lès-Nancy Cedex
e-mail : Susanne.Alt@loria.fr ou Laurent.Romary@loria.fr
Tel : 03.83.59.20.35 (S.Alt)