Projet informatique de licence (LI015),
2004-2005
Responsable : Alexis Nasr prenom.nom@linguist.jussieu.fr
Sujets proposés
Le sujet peut être choisi parmi les sujets proposés suivants, ou il
peut s'agir d'un sujet à l'initiative de l'étudiant, auquel cas il
faut en fournir une description rédigée d'une à deux pages, et obtenir
l'accord de l'enseignant.
|
Projet n° 1 : Correcteur orthographique (approche
graphémique)
On se propose de réaliser un correcteur orthographique (lexical), qui,
disposant d'un dictionnaire de formes fléchies, détecte les mots mal
orthographiés, et propose si possible une correction.
Le programme prend un texte (ASCII brut) en entrée, et pour
chaque forme non présente dans le dictionnaire, propose à
l'utilisateur :
-
de choisir un de ces remplaçants
- pour l'occurrence, ou pour toutes les occurrences
- de fournir un remplaçant
-
pour l'occurrence, ou pour toutes les occurrences
- si le remplaçant n'est pas dans le lexique,
- de l'insérer dans le lexique pour ce texte,
- de l'insérer dans le lexique stable
- d'ignorer la correction, c'est-à-dire conserver le mot
initial, pour cette occurrence ou pour toutes, en l'insérant
ou non dans le lexique.
Les remplaçants proposés par le programme (premier cas plus haut)
seront des mots figurant dans le dictionnaire, et ayant une certaine
proximité avec le mot fautif.
Pour la recherche des mots proches, on appliquera diverses
heuristiques, basées sur la forme du mot :
- repérage des bigrammes ou trigrammes impossibles en français
- redoublement ou dé-doublement de consonnes
- suppression/insertion de diacritiques
- distance d'édition
- etc.
Ces heuristiques, qui peuvent être plus nombreuses, seront étudiées
linguistiquement afin de déterminer précisément leurs conditions
d'application.
Ressources
Projet n° 2 : Réaccentuation
Le programme est chargé de remettre les accents et autres signes
diacritiques manquant dans un texte fourni en typographie dite
pauvre.
On s'aidera d'un lexique de formes fléchies fourni. Bien sûr,
certaines formes peuvent être réaccentuées directement, et d'autres
sont ambigues. Une fois que l'algorithme principal sera établi, on
envisagera des heuristiques pour lever les ambiguïtés.
Exemple :
La ou le francais n'est pas accentue,
il y a de la gene,
mais quand le systeme m'accentue,
je suis moins gene!
Ressources
Projet n° 3 : Extraction de sigles
L'objectif est d'être capable de construire,
semi-automatiquement, la liste des sigles (acronymes)
(par exemple EDF), et de
leur forme développée (par exemple Electricité de
France), utilisés dans un texte donné. Le
programme aura deux fonctions :
-
Création (extraction) de la liste (triée, normalisée) des
sigles du texte donné. Attention aux formes diverses d'un même
sigle (Inalf, I.N.A.L.F, INaLF).
-
Proposition (interactive) de syntagmes candidats pour la forme
développée, quand on en trouve dans le texte.
Le texte fourni est en ASCII brut.
Ressources
Projet n° 4 : Justification et césure
Il s'agit de réaliser un programme qui justifie (au sens des
traitements de texte) un texte fourni en ASCII, sur un nombre de
colonnes donné, en ajoutant des espaces entre les mots et/ou en
découpant les mots selon les règles en usage pour le français.
On supposera que tous les caractères ont la même dimension (« fonte
fixe »).
Pour le découpage (éventuel) des mots (césure), on
prendra bien garde de distinguer les règles, qui seront stockées dans
un fichier, du programme lui-même. On s'autorisera à utiliser un
dictionnaire d'exceptions.
Ressources
Projet n° 5 : Marquage des syntagmes nominaux
Il s'agit, dans un texte étiqueté, de repérer le début
et la fin des syntagmes nominaux (ou d'une bonne partie d'entre eux), de
manière à produire en sortie un texte dans lequel ces débuts
et fin de SN seront balisés (par exemple <sn>le chat de <sn>la
voisine</sn></sn>).
Le
programme permettra à la fois une utilisation "batch",
qui créera directement le fichier résultat, et une utilisation
interactive, qui pemettra à l'utilisateur de voir les résultats
produits au fur et à mesure.
Une
étude linguistique va permettre de déterminer les séquences
de lemmes ou d'étiquettes qui vont correspondre à un début
ou une fin de syntagme. On fera en sorte que ces "règles"
soient placées dans un fichier à part, et non "codées
en dur", pour permettre une mise au point plus facile et une meilleure
qualité du programme.
Ressources
|
Sun Dec 12 19:13:18 CET 2004
|
|