Interprétabilité des Word Embeddings

Metz

explainability
NLP
Author

David Langlois

Published

September 30, 2025

En apprentissage profond, le fait de représenter les mots par des vecteurs numériques de plusieurs centaines de valeurs permet un calcul automatique de la proximité lexicale entre les mots, mais nuit à la compréhension des systèmes les utilisant. Les travaux que je présenterai visent à déterminer si on peut retrouver dans l’espace numérique les informations lexicales telles que nous, humains, les manipulons au niveau symbolique : nature, genre, nombre, etc. L’idée est d’étudier si on peut obtenir, dans l’idéal, des règles telles que “si la caractéristique #56 est entre 0.58 et 0.76, alors, le mot est un nom féminin singulier”. On verra, évidemment, que cet idéal n’est pour le moment pas atteint (et de loin) ! Je présenterai les travaux en 3 temps : les résultats suite au travail d’un trio d’étudiantes de M1/M2 TAL publié en 2024 dans [1], puis la suite des ces travaux par un autre groupe d’étudiants du M1 TAL de l’année 2024/2025, et enfin quelques travaux de ma part cet été.

[1] Goliakova, E., & Langlois, D. (2024, September). What do BERT word embeddings learn about the French language?. In Proceedings of the Sixth International Conference on Computational Linguistics in Bulgaria (CLIB 2024) (pp. 14-32).

Back to top