Projets informatiques LI015

Projet informatique de licence (LI015), 2001-2002

Organisation

L'objectif du projet est la réalisation d'un programme informatique relevant du Traitement Automatique des Langues. Les projets se font par binômes ou trinômes.

Des sessions de suivi de projet seront organisées au deuxième semestre. Facultatives, elle permettront à chaque groupe de me présenter l'avancement de leur travail. Chaque groupe doit présenter 1 fois son travail à l'enseignant responsable au cours du deuxième semestre.

Langage

Les projets peuvent être réalisés en Pascal ou en C, exceptionnellement dans un autre langage de programmation, après accord de l'enseignant, sur la machine de votre choix, à condition toutefois qu'il soit possible d'en faire une démonstration le jour de la soutenance dans la salle machine.

Rapport

Un rapport comprenant une vingtaine de pages est demandé. Il doit être non manuscrit et doit contenir :

une partie linguistique : description du champ d'étude, des données manipulées, des choix effectués, etc. ;
une partie informatique : description des algorithmes mis en oeuvre, des choix d'implémentation, des éventuels problèmes rencontrés et de leur solution, etc. ;
un « manuel utilisateur » : indications pratiques pour exécuter le programme, et description de son interface (choix, menus...)
en annexe (et seulement en annexe), listing du programme, éventuellement description exhaustive des données linguistiques, etc.

Soutenance

Les projets font l'objet d'une soutenance individuelle d'environ 15 mn, devant un jury d'un ou deux enseignants, au cours de laquelle l'étudiant proposera une démonstration du programme et répondra à quelques questions.

Cette année, contrairement aux années précédentes, la note finale sera calculée à partir de :

la note collective attribuée au mémoire, et
une note individuelle de soutenance

Sujets proposés

Le sujet peut être choisi parmi les sujets proposés suivants, ou il peut s'agir d'un sujet à l'initiative de l'étudiant, auquel cas il faut en fournir une description rédigée d'une à deux pages, et obtenir l'accord de l'enseignant.

Projet n° 1 : Correcteur orthographique
Projet n° 2 : Réaccentuation
Projet n° 3 : Recherche de patrons
Projet n° 4 : Extraction de sigles
Projet n° 5 : Justification et césure
Projet n° 6 : Enrichissement de requêtes
Projet n° 7 : Téléphone

Remerciements. Merci à Lionel Clément, Marcel Cori, Laurence Danlos, Adil El Ghali, Eric Gaussier, Sylvain Kahane, Alexis Nasr et Thierry Poibeau pour leurs propositions et/ou relectures des sujets de projets.

Ressources

Projet n° 1 : correcteur orthographique. Dictionnaire(s).
Projet n° 2 : réaccentuation. Dictionnaire(s). Voir aussi Réacc à titre d'exemple
Projet n° 3 : recherche de patrons. Corpus étiqueté. Corpus étiqueté et lemmatisé.
Projet n° 4 : extraction de sigles. Corpus avec sigles
Projet n° 5 : justification et césure. textes littéraires (évitez La fontaine !)
Projet n° 6 : enrichissement de requêtes.
Projet n° 7 : télephone. Dictionnaire(s).

Calendrier

	Session de Juin	Session de Septembre
Début du projet :	déc 2001	déc 2001
Remise du rapport :	lu. 17 juin 02, 10:00	lu. 16 sept. 02, 10:00
Soutenances :	lu. 24 juin 02, à partir de 10h00	lu. 23 sept 02, à partir de 10h00

Calendrier des soutenances

Projet n° 1 : Correcteur orthographique (approche graphémique)

On se propose de réaliser un correcteur orthographique (lexical), qui, disposant d'un dictionnaire de formes fléchies, détecte les mots mal orthographiés, et propose si possible une correction.

Le programme prend un texte (ASCII brut) en entrée, et pour chaque forme non présente dans le dictionnaire, propose à l'utilisateur :

de choisir un de ces remplaçants
- pour l'occurrence, ou pour toutes les occurrences
de fournir un remplaçant
- pour l'occurrence, ou pour toutes les occurrences
- si le remplaçant n'est pas dans le lexique,
  - de l'insérer dans le lexique pour ce texte,
  - de l'insérer dans le lexique stable
d'ignorer la correction, c'est-à-dire conserver le mot initial, pour cette occurrence ou pour toutes, en l'insérant ou non dans le lexique.

Les remplaçants proposés par le programme (premier cas plus haut) seront des mots figurant dans le dictionnaire, et ayant une certaine proximité avec le mot fautif.

Pour la recherche des mots proches, on appliquera diverses heuristiques, basées sur la forme du mot :

repérage des bigrammes ou trigrammes impossibles en français
redoublement ou dé-doublement de consonnes
suppression/insertion de diacritiques
distance d'édition
etc.

Ces heuristiques, qui peuvent être plus nombreuses, seront étudiées linguistiquement afin de déterminer précisément leurs conditions d'application.

Projet n° 2 : Réaccentuation

Le programme est chargé de remettre les accents et autres signes diacritiques manquant dans un texte fourni en typographie dite pauvre.

On s'aidera d'un lexique de formes fléchies fourni. Bien sûr, certaines formes peuvent être réaccentuées directement, et d'autres sont ambigues. Une fois que l'algorithme principal sera établi, on envisagera des heuristiques pour lever les ambiguïtés. Exemple :

La ou le francais n'est pas accentue,
 il y a de la gene,
 mais quand le systeme m'accentue,
 je suis moins gene!

On pourra s'inspirer du programme « Reacc » développé par le RALI à l'Université de Montréal.

Projet n° 3 : Recherche de patrons

L'objectif de ce projet est de réaliser un programme permettant de détecter dans un corpus étiqueté et lemmatisé des séquences de mots conformes à des patrons lexico-syntaxiques. Un patron étant une suite de mots, de lemmes ou de catégories morpho-syntaxiques. Exemples: « N à N », « relation de N »

Le programme prendra en entrée un corpus et un fichier de patrons et produira en sortie une liste classée par fréquence, de toutes les séquences de mots conformes aux patrons, accompagnées de leur nombre d'occurrences.

Dans la définition des patrons, il faudra introduire le moyen de distinguer les mots des lemmes et des catégories.

On attachera un soin particulier au choix de la structure de données, et à l'algorithme, qui doit faire le calcul en un temps raisonnable.

Projet n° 4 : Extraction de sigles

L'objectif est d'être capable de construire, semi-automatiquement, la liste des sigles (acronymes) (par exemple EDF), et de leur forme développée (par exemple Electricité de France), utilisés dans un texte donné. Le programme aura deux fonctions :

Création (extraction) de la liste (triée, normalisée) des sigles du texte donné. Attention aux formes diverses d'un même sigle (Inalf, I.N.A.L.F, INaLF).
Proposition (interactive) de syntagmes candidats pour la forme développée, quand on en trouve dans le texte.

Le texte fourni est en ASCII brut.

Projet n° 5 : Justification et césure

Il s'agit de réaliser un programme qui justifie (au sens des traitements de texte) un texte fourni en ASCII, sur un nombre de colonnes donné, en ajoutant des espaces entre les mots et/ou en découpant les mots selon les règles en usage pour le français.

On supposera que tous les caractères ont la même dimension (« fonte fixe »).

Pour le découpage (éventuel) des mots (césure), on prendra bien garde de distinguer les règles, qui seront stockées dans un fichier, du programme lui-même. On s'autorisera à utiliser un dictionnaire d'exceptions.

Projet n° 6 : Enrichissement de requêtes

Il s'agit de se placer dans la problématique suivante : on formule des requêtes à un moteur de recherche, les requêtes pouvant contenir un ou plusieurs mots, voire un syntagme ou une phrase. Sachant que les taux de réussite de telles requêtes ne sont pas toujours satisfaisants, on se propose d'enrichir ces requêtes (en ajoutant des mots, ou en utilisant les opérateurs classiques de moteurs de recherche...) pour améliorer le résultat.

Cet enrichissement sera réalisé sur la bases d'information de nature lexicale ou terminologique, stockées dans un réseau sémantique approprié.

Le but du projet n'est pas de réaliser un tel réseau sémantique à grande couverture, mais de spécifier, pour un domaine conceptuel fixé, les heuristiques à utiliser et l'architecture du réseau correspondant. Le projet donnera lieu à la réalisation d'une maquette, au sens industriel du terme.

Projet n° 7 : Téléphone

La plupart des téléphones associent à chaque touche un certain nombre de lettres, permettant ainsi de transmettre des messages. Du fait qu'un chiffre ne correspond pas à une seule lettre, une suite de chiffres peut être ambiguë (elle peut correspondre à plus d'un mot). La suite 7-6-8-7, par exemple, correspond aux mots pour, sous et pots.

Le but du projet est de réaliser un programme qui prend en entrée une suite de chiffre et un dictionnaire de formes fléchies et qui propose en sortie la liste des mots du dictionnaire qui correspondent à la suite des chiffres. Ces mots seront classés selon une fréquence représentée dans le dictionnaire.

On attachera un soin particulier au choix de la structure de données, et à l'algorithme, qui doit faire le calcul en un temps raisonnable.

http://www.linguist.jussieu.fr/~amsili/Ens/LI015.html jeu sep 5, 2002