Un dictionnaire plus petit (env. 100k formes), avec beaucoup de « trous », est accessible ici sous forme d'un fichier tar compressé (600 Ko). Ce dictionnaire est organisé aussi en 26 fichiers, il est accompagné de programmes en C d'exploitation du dictionnaire.
Encore un lexique de formes fléchies (325k formes, 3,5 Mo, un seul fichier) (merci à Lionel Clément) : formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.
Sur le site de l'ABU mentionné plus haut, on trouve aussi divers dictionnaires spécifiques (noms propres, communes...).
Premier texte (10000 mots, domaine télécommunications/spatial) : formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.
Second texte (50000 mots, domaine journalistique, étiqueté correctement) : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications
Troisième texte (50000 mots, domaine journalistique, étiqueté automatiquement sans correction manuelle des étiquettes) : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications
50000 mots du domaine journalistique, étiqueté correctement, avec les lemmes et sans les composés : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications
Corpus étiqueté (étiquettes ABU) mais sans désambiguïsation (plusieurs étiquettes par graphie). Format iso8859-1
Les textes techniques suivants ont été choisi pour le nombre important de sigles qui y figuraient. Le premier est la concaténation de divers textes techniques, accessible au format dos, iso8859-1 (Unix et Win), et mac. Vous pouvez aussi utiliser le texte suivant, plus gros, mais qui contient des instructions de formatage nroff. Il est accessible au format dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.
Travaillez avec de petits extraits de ce corpus de 200 Ko (env. 32 000 mots).
jeu avr 11, 2002 |
![]() |