Mes sujets et projets actuels

Toute personne (venant du cogmaster, des masters PluriTAL, Humanités Numériques ou Sciences du Langage de Sorbonne Nouvelle, ou d'une autre formation en linguistique ou en TAL) intéressée par un de ces sujet est invitée à me contacter ; le contour précis du sujet, ou même le cadre prévu (durée du stage, niveau du mémoire, voire rémunération) peuvent être modifiés assez largement en fonction des intérêts et des compétences de chacun.

Extraction et annotation semi-automatique de négations en français dans des corpus oraux Stage de M2 TAL (financé)
séjour de 4 semaines à Stockholm (tbc)
Projet mené en collaboration avec Malin Roitman (Stockholm).
Il s'agit d'extraire de corpus de langue parlée en français (eg. MPF) des occurrences de phrases niées, avec ou sans la particule ne. On s'intéresse plus particulièrement aux discours politiques (mais d'autres domaines peuvent être envisagés), et aux situation de désaccord. Une fois les occurrences extraites, il s'agit de les annoter automatiquement (pour les annotations les plus simples (pos-tags, lemmes, locuteur, sujet pronominal ou non, etc.) et semi-automatiquement pour des informations linguistiques plus difficiles à calculer, comme la relation discursive avec le tour de parole précédent, l'acte de langage, le type de négation, etc.
Ces annotations demandent la mise en place de pipelines adaptés, et de méthodes d'évaluation.

Stages en collaboration avec l'Institut d'Études Avancées: entre 2 et 4 personnes co-encadrées par Antoine Cordelois, consacrés à l'intégration de méthodes de TAL dans différents projets de soutien à la recherche en sciences humaines. Stages de M2 TAL, en binome (financés)
Les sujets suivants peuvent être proposés (et élaborés) en fonction de l'intérêt des étudiants:
  • Evaluation des performances de LLMs (création de datasets, de métriques, etc...) sur différentes tâches comme la recherche d'information, l'inférence légère, Q&A, etc.
  • Pseudonimisation de données personnelles: mesures d'impact et évaluation des performances d'applications.
  • Conception d'une base de données avec des outils de text mining.

Méthodes de classification pour la détection automatique de topiques narratifs Stage de M2 TAL (financement possible)
Stage co-encadré par Yen-Maï Tran-Gervat (CERC) et Olga Seminck (Lattice).
Il s'agit dans ce stage de tirer profit de la SatorBase, base élaborée par la Société d'Analyse de Topique Romanesque (SATOR) qui rassemble des associations validées manuellement entre des passages de littérature et des topoï. La quantité de données de qualité gold est suffisemment importante pour que différentes méthodes de classification puissent être utilisées et évaluées afin de développer de nouvelles méthodes d'identification de topoï narraitfs.

Au delà de ces sujets précis qui correspondent à des projets en cours, je m'intéresse aux sujets suivants, n'hésitez pas à me contacter si vous êtes (même vaguement) intéressé(e)s, les thématiques ont volontairement ouvertes pour permettre l'élaboration commune d'une problématique en accord avec vos intérêts et vos compétences:

  • Schémas Winograd (dataset basé sur l'anaphore, pour mettre à l'épreuve les systèmes d'IA)
  • Identificattion automatique et études sur corpus des NPI (Items à Polarité Négative)
  • Mise à l'épreuve en corpus du principe de l'uniformité de la densité informationnelle (UID)
  • Traitement de la négation par les grands modèles de langue (approches comportementales ou analytiques)à
  • Présupposition: annotation, traitement automatique, psycholinguistique