Généralités

Enseignant Pascal Amsili
Code LZSET06 (Sorbonne Nouvelle)
Lien iCampus https://icampus.univ-paris3.fr/course/view.php?id=74285
Créneau Mercredi 08h00-10h00, salle B326, Campus Nation. Premier cours: mercredi 21 janvier.
Contenu L'objectif de ce cours est d'étudier les conséquences de l'hypothèse distributionnelle selon laquelle on peut définir le sens des mots par les contextes d'occurrence de ces mots, au point qu'on puisse établir que deux mots sont d'autant plus proches qu'ils partagent des contextes d'occurrence.
Après des rappels de sémantique lexicale, on présentera l'hypothèse distributionnelle, dont la conséquence la plus productive est la capacité de plonger la sémantique des mots dans un espace (lexical embeddings). La suite du cours sera consacrée aux méthodes qui permettent de produire des plongements lexicaux statiques (matrices terme-terme, word2vec, GloVe, etc.) ou dynamique (ELMO, BERT, etc.), aux applications de ces plongements, à leur évaluation. Le cours sera aussi l'occasion de présenter différents outils ou méthodes mathématiques (algèbre linéaire, méthodes de lissage, réduction de dimensionalité, etc.).

Contrôles

Modalités
(contrôle continu)
• Trois TP au fil du semestre à rendre au bout de deux ou trois semaines. Les TP sont validés sur le mode pass/fail et comptent ensemble pour 50% de la note.
• Un mini-projet en groupe dont la note compte pour 40%.
• La participation en classe compte pour 10%.
Les rendus de TP se font sous la forme d'un compte-rendu de 1 à 3 pages, comprenant une discussion des résultats observés. Les documents doivent être remis soit au format papier au début du cours du jour de la date limite, soit avant 23h59 le même jour sur iCampus.
Toute utilisation d'outils logiciels d'aide à la programmation ou à la rédaction (IA générative) doit être précisément documentée.
Modalités
(CTI/2 session)
Une épreuve écrite en temps limité (2h) et un oral de 15'.
Calendrier TP distribués en semaine 2, 5 et 8.
reste du calendrier à déterminer
DM n°1
27/01→18/02
Simlex vs. distance lexicale
À partir des données SimLex-999 téléchargeables ICI, choisir cinq paires de mots concrets ayant une distance supérieure à 9, et cinq paires ayant une distance inférieure à 2. Pour chacune de ces paires, relever les différentes mesures de distance lexicale disponibles dans l'implémentation nltk de wordnet. Il faut bien sûr préalablement installer nltk. Le résultat à produire est une table avec les 10 paires en ligne, et en colonne: la distance SimLex-999 et les valeurs obtenues pour les 3 mesures de similarité implémentées dans nltk (path/lch/wup).
DM n°2
25/02→25/03
Influence de la taille du contexte
L'objectif du TP est d'observer l'influence de la taille de la fenêtre utilisée lors de l'élaboration d'embeddings statiques par comptage de co-occurrences. L'hypothèse est que les mots voisins (similarité cosinus) dans les différents espaces obtenus ne partagent pas les mêmes propriétés linguistiques selon la taille de la fenêtre.
Cet énoncé est volontairement très ouvert. Une façon de procéder pourrait être la suivante, pour chaque taille de fenêtre considérée: (1)  choix d'un corpus pas trop gros, segmentation et tokenisation ; (2) calcul d'une matrice terme-terme (demi-matrice carrée) pour une taille de fenêtre données ; (3) choix de 10 mots variés apparaissant dans le corpus ; (4) pour chacun des mots choisis, identification des 10 mots les plus voisins par similarité cosinus.
Résultats tba

Séances (organisation indicative)

sem. date description liens
1 2026-01-21 Ch1. Sémantique lexicale diapos
2 2026-01-28 Ch1. Sémantique lexicale
TP n° 1 distribué
diapos
3 2026-02-04 Ch1. Sémantique lexicale
4 2026-02-11 Ch1. Sémantique lexicale diapos
5 2026-02-18 Ch2. Hypothèse distributionnelle
TP n°2 distribué
diapos
6 2026-02-25 TP n°2 distribué diapos
- 2026-03-05 Pas de séance (congés)
7 2026-03-11
8 2026-03-18 TP n°3 distribué
9 2026-03-25
10 2026-04-01
11 2026-04-08 Pas de séance (à confirmer)
12 2026-04-15

Pointeurs (références, bibliographie, ressources en ligne)

Bibliographie

  • Daniel Jurafsky and James H. Martin. 2025. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd edition. Online manuscript released August 24, 2025. https://web.stanford.edu/~jurafsky/slp3.
    Chapitres les plus pertinents :
    • 2 (Words and Tokens)
    • 3 (N-gram Language Models)
    • 5 (Embeddings)
    • J (PPMI)

Ressources pour s'entraîner ou se perfectionner en programmation

  • Pour vous initier seul(e) à l'informatique et à la programmation, en français, n'hésitez pas à vous inscrire sur l'excellent site http://www.france-ioi.org/
  • La plateforme openclassrooms offre des moocs de différents niveaux pour s'initier à la programmation, je suggère en particulier ce cours de bases d'algorithmique.
  • Plus facile, presque enfantin: le cours découvrir la programmation créative, qui utilise la plateforme scratch que vous pouvez d'ailleurs utiliser directement (surtout si vous avez aimé turtle...).
  • Un peu plus flashy, mais toujours pertinent pour l'auto-formation: CodinGame. Des exercices de difficultés croissantes pour s'entraîner dans de nombreux langages de programmation; un grand forum d'échange et des miliers d'exemples.
  • Il y a aussi des cours complets sur la plateforme FUN, très pertinents, comme par exemple ce cours de python.
  • Pour des défis plus austères, mais un excellent entraînement à l'algorithmique et à la programmation, vous pouvez relever le défi du projet Euler (en anglais).

Qui scribit bis legit

Je préconise la prise de note active pendant mes cours, ce qui est favorisé par l'absence de diapos et le fait que j'utilise le tableau intensivement. Ma préconisation est basée sur l'observation des anciens selon laquelle écrire une information revient à la lire deux fois, et par conséquent à mieux la mémoriser. Quelques travaux récents ci-dessous évoquent cette discussion avec des méthodes modernes, qui évaluent la pertinence de la prise de note par rapport à l'écoute passive, et aussi de l'écriture manuscrite par rapport à l'écriture sur clavier. La collection d'articles est en cours de consitution, je suis preneur de suggestions et de commentaires.