Il s'agit de mettre en œuvre un ou plusieurs algorithmes de résolution d'anaphore sur un texte analysé syntaxiquement (Le French Treebank du laboratoire LLF pourra être utilisé).
À partir des occurrences pronominales de 3e personne marquées pour le genre et le nombre de leurs antécédents, il s'agit de proposer un ou plusieurs candidats dans la même phrase (pour les relatifs et les réfléchis) ou non (pour les personnels).
Parmi les problèmes à résoudre pour ce projet, on peut relever:
Dans ce projet, on vous propose de créer un moteur de recherche fondée sur l'approche vectorielle :
Le projet est structuré en 3 parties indépendantes :
On vous propose d'implémenter un analyseur syntaxique probabiliste en dépendances pour le français à partir du corpus arboré Sequoia Treebank en utilisant un système par transitions probabiliste.
La difficulté du projet réside dans :
On vous propose dans ce sujet de réaliser un analyseur morphologique pour les verbes français à l'aide de transducteurs à états finis. Vous choisirez un ensemble de verbes dont la conjugaison est régulière et un certain nombre de verbes dont la conjugaison est irrégulière.
Le propos du sujet sera de construire un analyseur morphologique capable de traduire une forme observée en une forme analytique correspondant au lemme verbal, à son mode, son temps et sa personne.
On utilisera comme dictionnaire de référence au choix le Lefff ou le dictionnaire de l'ABU. On utilisera comme compilateur de transducteurs le paquetage foma qui implémente le langage de transducteurs à états finis bien documenté Xfst.
Il s'agit de créer un réseau dont les sommets sont les entrées d'un dictionnaire, ou éventuellement les sous-sens des mots du dictionnaire, et dont les arcs (orientés) relient chaque entrée à toutes les entrées qui participent à sa définition. L'hypothèse sous-jacente est que la structure du dictionnaire permet de retrouver les liens sémantiques entre mots en définissant une "distance sémantique" dans le graphe résultant. On peut ensuite utiliser cette distance pour différentes tâches, comme faire la désambiguïsation des sens d'un mot en contexte ou encore tenter de retrouver des relations lexicales (synonymie, ou hyperonymie...).
Les sources possibles seront le Wiktionnaire du français, ou le Littré, qui existent en version xml. La taille importante des graphes sera gérée par des bibliothèques spécialisées de calcul matriciel.
Le projet devra se restreindre à l'exploitation d'un seul dictionnaire (soit le Littré, soit le Wiktionnaire). Par ailleurs, seules deux tâches au maximum devront être menées à bien (extraction de synonymes, désambiguisation de mot en contexte, ...)
Les cognats sont des mots, généralement dans des langues différentes, qui ont la même origine étymologique. Formellement, les cognats ont le plus souvent une sémantique similaire (nuit_fr et notte_it) et une proximité phonologique. Mais tous les mots phonologiquement proches d'une langue à l'autre ne sont pas nécessairement des cognats: il peut s'agir d'emprunts, de mots dérivés par des mécanismes différents (dérivation vulgaire vs savante) ou simplement d'accidents.
L'idée du projet est de proposer des candidats cognats, à partir de dictionnaires pluri-lingues. Plus précisément, en travaillant sur l'italien, l'espagnol et le portugais, il s'agira de proposer des triplets de mots ayant à la fois le même sens (partageant un même sens) et une certaine proximité phonologique.
Pour permettre une mesure de la qualité du programme, on prévoit une évaluation avec deux mesures: d'une part le rappel qu'on peut mesurer en prenant comme base les listes de Swadesh ; d'autre part, on mesurera l'exactitude en évaluant manuellement le résultat sur un échantillon. D'autres mesures pourront être envisagées en fonction des ressources disponibles.
La méthode consiste à partir de dictionnaires multilingues pour déterminer des triplets de mots de même sens, qui vont être traduit en forme phonologique pour établir une distance formelle entre eux.
Le coeur du projet est donc la façon de mesurer la proximité formelle entre les mots. On prendra comme point de départ la distance d'édition de Levenshtein, mais une mesure plus pertinente pourra prendre en compte à la fois des propriétés phonétiques (partage de traits de voisement ou de point d'articulation...) ou des propriétés diachroniques des langues considérées (scola > escole > école). Il faudra aussi trouver un moyen de trouver un seuil.
Le fait de partir de dictionnaire conduit à travailler sur les lemmes uniquement, mais on pourrait envisager une extension du projet qui exploiterait la variation flexionnelle des candidats cognats ; par ailleurs il serait pertinent que le projet se concentre sur les lemmes "simples" (c'est-à-dire non dérivés morphologiquement) dans un premier temps.