Responsable : Pascal Amsili prenom.nom@linguist.jussieu.fr
La liste proposée ici est une liste provisoire : les sujets ne sont pas toujours entièrement précisés, et d'autres sujets pourront s'y ajouter. N'hésitez pas à inventer des sujets !
|
On regroupe sous le terme "entités nommées" les noms de
personnes, de lieux, de dates, noms d'entreprises, adresses,
etc. Il s'agit d'expressions qui dénotent une entité unique
de façon presque indépendante du contexte. On s'intéresse
aux entités nommées pour plusieurs raisons :
|
Il s'agit d'implémenter, pour un fragment significatif du français (ou d'une autre langue), comportant des ambiguïtés, l'algorithme d'analyse d'Earley. |
À partir de définitions provenant de dictionnaires électroniques,
préalablement étiquetées, il s'agit de construire un « réseau
sémantique ».
Pour chaque entrée (qui peut correspondre à un des sens d'une lexie), on repèrera les mots pleins qui participent à sa définition (il faut donc (1) distinguer les mots pleins des mots « outils », (2) repérer la définition proprement dite parmi l'ensemble des informations associées à une entrée (catégorie, exemples, synonymes...)), et on construira un réseau reliant l'entrée à tous ces mots pleins. Ce réseau pourra être stocké sous forme de fichier Ascii,
dans un format du genre de celui de WordNet. Dans un deuxième temps, on réalisera un programme exploitant ce réseau pour désambiguïser les sens d'un mot en contexte. Principe : étant donnée une phrase contenant le mot concerné, on repère les mots pleins qui l'entourent (contexte), et on recherche ces mots dans le réseau. Alors le sens correspondant est celui qui est le plus proche (dans un sens qu'il faut précisément définir) des mots pleins de son contexte. D'autres exploitations d'un tel réseau peuvent être envisagées. |
Pour détecter la langue d'un texte, on peut constituer une base de
connaissances à partir d'un corpus de textes classés par langue. Pour
chaque langue, un premier programme (à écrire) recueillera des
statistiques significatives, basées sur les lettres (par exemple, il y
a plus de "w" en anglais qu'en français). Le choix du modèle
probabiliste employé et de ses paramètres (bigrammes, trigrammes)
devra être justifié dans le rapport. On peut en proposer plusieurs et
discuter de leurs avantages et inconvenients (rapport entre précision
de la reconnaissance et volume de la base de connaissances ou longueur
du texte nécessaire pour reconnaître sa langue).
Un deuxième programme (à écrire), utilisera ces bases de connaissances pour reconnaître la langue d'un texte. Vous utiliserez un corpus d'apprentissage comprenant des textes plus ou moins variés d'un certain nombre de langues (le plus de langues possible, au moins 4). Le corpus de test ne devra pas contenir de texte appartenant au corpus d'apprentissage. Amélioration possible : gérer des textes dans différents encodages, pour les langues à alphabet non latin. |
Le titre du projet dit presque tout. Plus de détails bientôt. |
Thu Dec 16 09:56:38 CET 2004 |
![]() |