FC9BD10
Stage inter entreprise
Durée :
3 jour(s)
Présentation
Les données linguistiques possèdent une structure profonde mais implicite, qui se base sur la connaissance d’une (ou plusieurs) langue(s) donnée(s). Elles sont ubiquitaires (sur le Web, dans des documents, dans les emails, etc.), mais ne se prêtent pas à des analyses automatiques. Le traitement automatique de langue et la fouille de texte (Text Mining) ont pour but de permettre l’extraction d’informations et de connaissances de ces données. Elles sont donc d’importance capitale pour les entreprises qui manipulent des données textuelles (Web, échanges avec les clients, rapports, documentation, etc.).
Objectifs
- Présenter les outils de traitement de langue, qu’ils soient basés sur des méthodes statistiques ou sur de méthodes symboliques
- Décrire le fonctionnement et identifier les atouts et les faiblesses des grands modèles de langage LLM comme GPT-4
- Évaluer les techniques et les adapter à chaque type de problème
- Comparer et combiner les approches : exploration d’outils statistiques (approches fréquentistes, similarité sémantique, plongements) et formels (langages formels, logiques de premier ordre et de description, lambda-calcul, ontologies)
-
Programme
Introduction à la linguistique
Approche neuronales
Approches statistiques
- Désambiguïsation de mot
- Classification supervisée de textes
- Similarité et parenté sémantiques
- Pré-traitement du texte
- Modèles fréquentistes : Représentation Bag-of-words, modèles de langue n-gram, et dérivés.
- Deep learning et modèles de langue neuronaux
- Plongements et applications
- Modèles séquentiels et mécanisme d’attention
- Transformers
- Représentations contextuelles
- Apprentissage par transfert et Large Language Models
- Utilisation de SentiWordNet pour la classification des critiques
- Utilisation de réseaux de neurones sur le même corpus de textes, comparaison des résultats ; possibilité d’approche hybride (plongement d’arbres syntaxiques)
Travaux pratiques
Approches symboliques
- Langages formels Graphes conceptuels, ontologies, bases de connaissances
- Extraction d'informations
- Désambiguïsation
- Détection d'entités
Travaux pratiques
Synthèse et conclusion
-
Points forts
Formation présentant les fondements théoriques et permettant d'utiliser sur des données textuelles les techniques innovantes du traitement du langage naturel (NLP) telles que celles utilisées par les modèles conversationnels génératifs comme ChatGPT.
-
Modalités pédagogiques
La formation comprend des travaux pratiques qui permettent d'appliquer les notions abordées.
-
Public cible et prérequis
Ingénieurs, chefs de projet devant traiter des données textuelles.
Des connaissances du langage Python sont requises afin de tirer plienement profit de la formation. -
Responsables
Fabian SUCHANEK
Enseignant-chercheur à Télécom Paris. Il a fait ses recherches à l’Institut Max Planck en Allemagne, chez Microsoft Research Cambridge/UK, chez Microsoft Research Silicon Valley/USA, et à l’INRIA Saclay. Il est l’auteur principal de YAGO, une des plus grandes bases de connaissances publiques dans le monde.
Matthieu LABEAU
Enseignant-chercheur à Télécom Paris. Son activité de recherche en traitement automatique du langage, concerne principalement l’apprentissage de représentations et la modélisation du langage.
Prochaine(s) session(s)
- Du 24/04/2024 au 26/04/2024 à Paris
- Du 09/10/2024 au 11/10/2024 à Paris