Projets TAL - Master 1 LI

Résolution d'anaphores

Il s'agit de mettre en œuvre un ou plusieurs algorithmes de résolution d'anaphore sur un texte analysé syntaxiquement (Le French Treebank du laboratoire LLF pourra être utilisé).

À partir des occurrences pronominales de 3e personne marquées pour le genre et le nombre de leurs antécédents, il s'agit de proposer un ou plusieurs candidats dans la même phrase (pour les relatifs et les réfléchis) ou non (pour les personnels).

Parmi les problèmes à résoudre pour ce projet, on peut relever:

La question de l'élimination des pronoms non anaphoriques ;
La question du meilleur système d'annotation (dans un fichier au format xml) ;
La question de l'évaluation (il faut envisager l'annotation manuelle d'une portion du corpus pour évaluer la performance)
La mise en œuvre d'un processus itératif (las algorithmes courants reposent sur un système de pondération de règles, et pour déterminer les meilleurs poids, il faut réaliser un nombre important de combinaisons test-évaluation).

Responsable(s): Pascal Amsili
Difficulté: moyen à difficile
Groupe: 2 personnes

Moteur de recherche

Dans ce projet, on vous propose de créer un moteur de recherche fondée sur l'approche vectorielle :

Chaque document est représenté comme un vecteur de descripteurs.
Les descripteurs sont en général les mots du document.

Le projet est structuré en 3 parties indépendantes :

Récupération et traitements des documents
Indexation des documents
Utilisation du moteur, ce qui inclut la gestion des requêtes et le calcul des documents les plus pertinents

Responsable: Corentin Ribeyre
Groupe: 3 personnes
Difficulté: Moyen à difficile

Analyse syntaxique en dépendances non-projective

On vous propose d'implémenter un analyseur syntaxique probabiliste en dépendances pour le français à partir du corpus arboré Sequoia Treebank en utilisant un système par transitions probabiliste.

La difficulté du projet réside dans :

la définition de l'ensemble d'actions pour gérer les dépendances projectives et non-projectives,
l'efficacité du parser,
la gestion du modèle d'apprentissage,
etc.

Responsable: Corentin Ribeyre
Groupe: 2-3 personnes
Difficulté: Moyen à difficile

Analyse morphologique par transducteurs à états finis

On vous propose dans ce sujet de réaliser un analyseur morphologique pour les verbes français à l'aide de transducteurs à états finis. Vous choisirez un ensemble de verbes dont la conjugaison est régulière et un certain nombre de verbes dont la conjugaison est irrégulière.

Le propos du sujet sera de construire un analyseur morphologique capable de traduire une forme observée en une forme analytique correspondant au lemme verbal, à son mode, son temps et sa personne.

On utilisera comme dictionnaire de référence au choix le Lefff ou le dictionnaire de l'ABU. On utilisera comme compilateur de transducteurs le paquetage foma qui implémente le langage de transducteurs à états finis bien documenté Xfst.

Responsable(s): Pascal Amsili
Difficulté: moyen à difficile
Groupe: 2 personnes

Réseau sémantique à partir d'un dictionnaire

Il s'agit de créer un réseau dont les sommets sont les entrées d'un dictionnaire, ou éventuellement les sous-sens des mots du dictionnaire, et dont les arcs (orientés) relient chaque entrée à toutes les entrées qui participent à sa définition. L'hypothèse sous-jacente est que la structure du dictionnaire permet de retrouver les liens sémantiques entre mots en définissant une "distance sémantique" dans le graphe résultant. On peut ensuite utiliser cette distance pour différentes tâches, comme faire la désambiguïsation des sens d'un mot en contexte ou encore tenter de retrouver des relations lexicales (synonymie, ou hyperonymie...).

Les sources possibles seront le Wiktionnaire du français, ou le Littré, qui existent en version xml. La taille importante des graphes sera gérée par des bibliothèques spécialisées de calcul matriciel.

Le projet devra se restreindre à l'exploitation d'un seul dictionnaire (soit le Littré, soit le Wiktionnaire). Par ailleurs, seules deux tâches au maximum devront être menées à bien (extraction de synonymes, désambiguisation de mot en contexte, ...)

Références

TextGraphs-4: Graph-based Methods for Natural Language Processing, ACL IJCNLP workshop (2009), http://www.textgraphs.org/ws09/index.html
Philippe Muller, Nabil Hathout, and Bruno Gaume. Synonym extraction using a semantic distance on a dictionary. In D. Boguraev and R. Mihalcea, editors, Proceedings of the HLT/NAACL workshop Textgraphs, New York, NY, 2006. Association for Computational Linguistics.
B. Gaume, N. Hathout, and P. Muller. Word sense disambiguation using a dictionary for sense similarity measure. In Proceedings of Coling 2004, volume II, pages 1194-1200, Genève, 2004, Association for Computational Linguistics.
Véronis, J. (2004). Hyperlex : lexical cartography for information retrieval. Computer, Speech and Language, 18 (3), 223-252.

Responsable(s): Pascal Amsili
Difficulté: assez difficile à difficile
Groupe: 2-3 personnes

Concordancier et outils statistiques pour corpus annoté

On propose de réaliser une suite d'outils pour l'exploration de corpus annotés en morphosyntaxe. Celle-ci se composera de deux sous-composantes :

Une suite d'outils statistiques qui permettront d'obtenir des informations quantitatives sur le corpus, comme la fréquence et le nombre d'occurrences des mots. Un outil statistique qui proposera de détecter les collocations en corpus en utilisant une heuristique guidée par l'information mutuelle. Les outils statistiques devront produire une sortie texte qui permettra l'usage de leurs résultats dans un logiciel approprié au traitement de données comme Microsoft Excell ou R.
Un concordancier. Le concordancier permettra de faire des recherches sur le corpus annoté. Celui-ci sera réalisé en prenant en compte trois facteurs principaux (1) L'expressivité du langage de requête (2) L'efficacité de la recherche en terme de temps de réponse et (3) de fournir une interface utilisateur conviviale permettant notamment à celui-ci de trier les résultats d'une concordance. On veillera à ce que le concordancier soit relativement indépendant des formats de corpus sur lequel il sera développé.

Responsable(s): Pascal Amsili
Difficulté: facile à difficile
Groupe: 2 personnes

Détection de surprise syntaxique

Comparaison entre structures syntaxiques de treebank et enregistrements d'un EyeTracker

Ce projet de nature exploratoire consistera à construire des modèles de surprise dérivés de modèles de langage. Ces modèles seront de complexité croissante (modèle n-gramme, modèle syntaxique). Le projet consiste dans un premier temps à déterminer quel type de modèle permet de corréler aux mieux avec des temps de lecture effectivement mesurés sur des sujets humains avec un eye tracker. Dans un second temps on propose aux étudiants de s'initier à l'analyse des données notamment pour étudier si il y a une relation entre les frontières syntagmatiques annotées (correspondant à des constituants) et les motifs de mouvement des yeux enregistrés par l'eye tracker.

Responsable(s): Benoît Crabbé
Difficulté: difficile
Groupe: 2 personnes
Langage: (Java ou Python) et R

Recherche de cognats

Les cognats sont des mots, généralement dans des langues différentes, qui ont la même origine étymologique. Formellement, les cognats ont le plus souvent une sémantique similaire (nuit_fr et notte_it) et une proximité phonologique. Mais tous les mots phonologiquement proches d'une langue à l'autre ne sont pas nécessairement des cognats: il peut s'agir d'emprunts, de mots dérivés par des mécanismes différents (dérivation vulgaire vs savante) ou simplement d'accidents.

L'idée du projet est de proposer des candidats cognats, à partir de dictionnaires pluri-lingues. Plus précisément, en travaillant sur l'italien, l'espagnol et le portugais, il s'agira de proposer des triplets de mots ayant à la fois le même sens (partageant un même sens) et une certaine proximité phonologique.

Pour permettre une mesure de la qualité du programme, on prévoit une évaluation avec deux mesures: d'une part le rappel qu'on peut mesurer en prenant comme base les listes de Swadesh ; d'autre part, on mesurera l'exactitude en évaluant manuellement le résultat sur un échantillon. D'autres mesures pourront être envisagées en fonction des ressources disponibles.

La méthode consiste à partir de dictionnaires multilingues pour déterminer des triplets de mots de même sens, qui vont être traduit en forme phonologique pour établir une distance formelle entre eux.

Le coeur du projet est donc la façon de mesurer la proximité formelle entre les mots. On prendra comme point de départ la distance d'édition de Levenshtein, mais une mesure plus pertinente pourra prendre en compte à la fois des propriétés phonétiques (partage de traits de voisement ou de point d'articulation...) ou des propriétés diachroniques des langues considérées (scola > escole > école). Il faudra aussi trouver un moyen de trouver un seuil.

Le fait de partir de dictionnaire conduit à travailler sur les lemmes uniquement, mais on pourrait envisager une extension du projet qui exploiterait la variation flexionnelle des candidats cognats ; par ailleurs il serait pertinent que le projet se concentre sur les lemmes "simples" (c'est-à-dire non dérivés morphologiquement) dans un premier temps.

Responsable(s): Pascal Amsili
Difficulté: moyen à difficile
Groupe: 1 personne

Sujets des projets M1 LI - 2014-2015