Traitement automatique du langage naturel – NLP Text Mining

FFCNCERCERXBD10

Stage inter entreprise

Prix 2025 :

2 520 €

Comment financer sa formation ?

Durée :

3 jour(s)

Prochaine(s) session(s)

Du 13/10/2025 au 15/10/2025 à Paris

S'inscrire

Version imprimable

Version PDF

Présentation

Les données linguistiques possèdent une structure profonde mais implicite, qui se base sur la connaissance d’une (ou plusieurs) langue(s) donnée(s). Elles sont ubiquitaires (sur le Web, dans des documents, dans les emails, etc.), mais ne se prêtent pas à des analyses automatiques.

Le traitement automatique de langue et la fouille de texte (Text Mining) ont pour but de permettre l’extraction d’informations et de connaissances de ces données. Elles sont donc d’importance capitale pour les entreprises qui manipulent des données textuelles (Web, échanges avec les clients, rapports, documentation, etc.).

Dans ce contexte, les transformers ont révolutionné le domaine du traitement automatique du langage naturel (NLP) : ils utilisent des mécanismes d’attention permettant de traiter efficacement les dépendances à long terme dans le texte. Des modèles basés sur cette architecture, comme BERT, GPT, et leurs variantes, ont montré des performances remarquables sur la traduction automatique, la génération de texte, la reconnaissance d’entités nommées, et bien d’autres applications.

Objectifs

Présenter les outils de traitement de langue, qu’ils soient basés sur des méthodes statistiques ou sur de méthodes symboliques
Décrire le fonctionnement et identifier les atouts et les faiblesses des grands modèles de langage LLM comme GPT-4
Évaluer les techniques et les adapter à chaque type de problème
Comparer et combiner les approches : exploration d’outils statistiques (approches fréquentistes, similarité sémantique, plongements) et formels (langages formels, logiques de premier ordre et de description, lambda-calcul, ontologies)

Programme
Introduction à la linguistique

Approche neuronales

Approches statistiques
- Désambiguïsation de mot
- Classification supervisée de textes
- Similarité et parenté sémantiques
- Pré-traitement du texte
- Modèles fréquentistes : Représentation Bag-of-words, modèles de langue n-gram, et dérivés.
- Deep learning et modèles de langue neuronaux
- Plongements et applications
- Modèles séquentiels et mécanisme d’attention
- Transformers
- Représentations contextuelles
- Apprentissage par transfert et Large Language Models
- Utilisation de SentiWordNet pour la classification des critiques
- Utilisation de réseaux de neurones sur le même corpus de textes, comparaison des résultats ; possibilité d’approche hybride (plongement d’arbres syntaxiques)
Travaux pratiques

Approches symboliques
- Langages formels Graphes conceptuels, ontologies, bases de connaissances
- Extraction d'informations
- Désambiguïsation
- Détection d'entités
Travaux pratiques

Synthèse et conclusion
Points forts

Formation présentant les fondements théoriques et permettant d'utiliser sur des données textuelles les techniques innovantes du traitement du langage naturel (NLP) telles que celles utilisées par les modèles conversationnels génératifs comme ChatGPT.
Modalités pédagogiques

La formation comprend des travaux pratiques qui permettent d'appliquer les notions théoriques abordées.
Public cible et prérequis

Ingénieurs, chefs de projets, data scientists devant traiter, générer ou intégrer des fonctionnalités avec des données textuelles et du langage naturel.

Des connaissances en langage Python sont nécessaires afin de tirer pleinement profit de cette formation.
Responsables
- Fabian SUCHANEK
  Enseignant-chercheur à Télécom Paris. Il a fait ses recherches à l’Institut Max Planck en Allemagne, chez Microsoft Research Cambridge/UK, chez Microsoft Research Silicon Valley/USA, et à l’INRIA Saclay. Il est l’auteur principal de YAGO, une des plus grandes bases de connaissances publiques dans le monde.
- Matthieu LABEAU
  Enseignant-chercheur à Télécom Paris. Son activité de recherche en traitement automatique du langage, concerne principalement l’apprentissage de représentations et la modélisation du langage.

Prochaine(s) session(s)

Du 13/10/2025 au 15/10/2025 à Paris

S'inscrire

Vous êtes intéressé(e) et/ou vous voulez procéder à une inscription ?

N'hésitez plus et complétez le formulaire. Nous revenons vers vous ensuite pour répondre à vos questions et/ou compléter votre inscription.

Inscription d'un/des collaborateur(s)		Ordre
	Participant Civilité ^* Fonction / Titre participant Nom Prénom Téléphone Email	Poids pour la ligne 1
	Participant Civilité ^* Fonction / Titre participant Nom Prénom Téléphone Email	Poids pour la ligne 2
	Participant Civilité ^* Fonction / Titre participant Nom Prénom Téléphone Email	Poids pour la ligne 3

Leave this field blank

Nous sommes également à votre disposition par téléphone

Appelez le +33 (01) 75 31 95 90

Formulaire de recherche

[Formation] Traitement automatique du langage naturel : NLP et Transformers

Vous êtes ici

Prix 2025 :

Durée :

Prochaine(s) session(s)

Présentation

Objectifs

Programme

Introduction à la linguistique

Approche neuronales

Approches statistiques

Travaux pratiques

Approches symboliques

Travaux pratiques

Synthèse et conclusion

Points forts

Modalités pédagogiques

Public cible et prérequis

Responsables

Fabian SUCHANEK

Matthieu LABEAU

Prochaine(s) session(s)

Participant

Participant

Participant