Responsable : Alexis Nasr
Sujets proposésLe sujet peut être choisi parmi les sujets proposés suivants, ou il peut s'agir d'un sujet à l'initiative de l'étudiant, auquel cas il faut en fournir une description rédigée d'une à deux pages, et obtenir l'accord de l'enseignant.
Ressources
|
Projet n° 1 : Correcteur orthographique (approche
graphémique)
On se propose de réaliser un correcteur orthographique (lexical), qui,
disposant d'un dictionnaire de formes fléchies, détecte les mots mal
orthographiés, et propose si possible une correction.
Le programme prend un texte (ASCII brut) en entrée, et pour chaque forme non présente dans le dictionnaire, propose à l'utilisateur :
Les remplaçants proposés par le programme (premier cas plus haut) seront des mots figurant dans le dictionnaire, et ayant une certaine proximité avec le mot fautif.
Pour la recherche des mots proches, on appliquera diverses heuristiques, basées sur la forme du mot :
Projet n° 2 : Réaccentuation
Le programme est chargé de remettre les accents et autres signes
diacritiques manquant dans un texte fourni en typographie dite
pauvre.
On s'aidera d'un lexique de formes fléchies fourni. Bien sûr, certaines formes peuvent être réaccentuées directement, et d'autres sont ambigues. Une fois que l'algorithme principal sera établi, on envisagera des heuristiques pour lever les ambiguïtés. Exemple :
La ou le francais n'est pas accentue, il y a de la gene, mais quand le systeme m'accentue, je suis moins gene!On pourra s'inspirer du programme « Reacc » développé par le RALI à l'Université de Montréal.
Projet n° 3 : Recherche de patrons
L'objectif de ce projet est de réaliser un programme permettant de
détecter dans un corpus étiqueté et lemmatisé des séquences de mots
conformes à des patrons lexico-syntaxiques. Un patron étant une
suite de mots, de lemmes ou de catégories morpho-syntaxiques.
Exemples: « N à N », « relation de N »
Le programme prendra en entrée un corpus et un fichier de patrons et produira en sortie une liste classée par fréquence, de toutes les séquences de mots conformes aux patrons, accompagnées de leur nombre d'occurrences.
Dans la définition des patrons, il faudra introduire le moyen de distinguer les mots des lemmes et des catégories.
On attachera un soin particulier au choix de la structure de données, et à l'algorithme, qui doit faire le calcul en un temps raisonnable.
Projet n° 4 : Extraction de sigles
L'objectif est d'être capable de construire,
semi-automatiquement, la liste des sigles (acronymes)
(par exemple EDF), et de
leur forme développée (par exemple Electricité de
France), utilisés dans un texte donné. Le
programme aura deux fonctions :
Projet n° 5 : Justification et césure
Il s'agit de réaliser un programme qui justifie (au sens des
traitements de texte) un texte fourni en ASCII, sur un nombre de
colonnes donné, en ajoutant des espaces entre les mots et/ou en
découpant les mots selon les règles en usage pour le français.
On supposera que tous les caractères ont la même dimension (« fonte fixe »).
Pour le découpage (éventuel) des mots (césure), on prendra bien garde de distinguer les règles, qui seront stockées dans un fichier, du programme lui-même. On s'autorisera à utiliser un dictionnaire d'exceptions.
Projet n° 6 : Enrichissement de requêtes
Il s'agit de se placer dans la problématique suivante : on formule des
requêtes à un moteur de recherche, les requêtes pouvant contenir un ou
plusieurs mots, voire un syntagme ou une phrase. Sachant que les taux
de réussite de telles requêtes ne sont pas toujours satisfaisants, on
se propose d'enrichir ces requêtes (en ajoutant des mots, ou en
utilisant les opérateurs classiques de moteurs de recherche...) pour
améliorer le résultat.
Cet enrichissement sera réalisé sur la bases d'information de nature lexicale ou terminologique, stockées dans un réseau sémantique approprié.
Le but du projet n'est pas de réaliser un tel réseau sémantique à grande couverture, mais de spécifier, pour un domaine conceptuel fixé, les heuristiques à utiliser et l'architecture du réseau correspondant. Le projet donnera lieu à la réalisation d'une maquette, au sens industriel du terme.
http://www.linguist.jussieu.fr/~amsili/Ens03/LI015.html | jen déc 19, 2002 |
![]() |