Sur le site mentionné plus haut, on trouve aussi divers dictionnaires de noms propres.
Un lexique de formes fléchies (325k formes) : formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.
Premier texte (10000 mots, domaine télécommunication/spatial) : formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.
Second texte (50000 mots, domaine journalistique, étiqueté correctement) : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications
Troisieme texte (50000 mots, domaine journalistique, étiqueté automatiquement sans correction manuelle des étiquettes) : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications
50000 mots du domaine journalistique, étiqueté correctement, avec les lemmes et sans les composés : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications
Les textes techniques suivants ont été choisi pour le nombre important de sigles qui y figuraient. Le premier est la concaténation de divers textes techniques, accessible au format dos, iso8859-1 (Unix et Win), et mac. Vous pouvez aussi utiliser le texte suivant, plus gros, mais qui contient des instructions de formatage nroff. Il est accessible au format dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.
Travaillez avec de petits extraits de ce corpus de 200 Ko (env. 32 000 mots).
Mon May 14, 2001 |
![]() |