FC9BD10

Stage inter entreprise

Prix 2023 :

2 400 €

Comment financer sa formation ?

Durée :

3 jour(s)

Prochaine(s) session(s)

  • Du 05/12/2022 au 07/12/2022 à Paris
  • Du 05/07/2023 au 07/07/2023 à Paris
  • Du 27/11/2023 au 29/11/2023 à Paris

Présentation

Les données linguistiques ont cela de particulier qu’elles sont « semi-structurées » : elles possèdent une structure profonde mais implicite, qui se base sur la connaissance d’une (ou plusieurs) langue(s) donnée(s). Le traitement automatique de langue et la fouille de texte (Text Mining) ont pour but de permettre l’extraction d’informations et de connaissances de ces données. Elles sont donc d’importance capitale pour les entreprises qui manipulent des données textuelles (Web, échanges avec les clients, rapports, documentation, etc.).

Objectifs

  • Présenter les outils de traitement de langue, qu’ils soient basés sur des méthodes statistiques ou sur de méthodes symboliques
  • Identifier les défis à relever et les approches utilisées par les outils
  • Évaluer les techniques et les adapter à chaque type de problème
  • Comparer et combiner les approches : exploration d’outils statistiques (approches fréquentistes, similarité sémantique, plongements) et formels (langages formels, logiques de premier ordre et de description, lambda-calcul, ontologies)
  • Mettre en place des solutions hybrides
  • Programme

    Introduction à la linguistique

    • Différentes couches d’étude de la langue : phonétique/graphématique, phonologie, morphologie, syntaxe, sémantique, pragmatique ; la syntaxe par dépendances
    • Différentes approches de l’étude du sens
    • La base de données lexicale WordNet
    • Analyse de concepts formels, ontologies et graphes conceptuels
    • Analyse du discours (DRT) : implicatures et maximes de coopération de Grice
    • Sentiments, opinions, argumentation
    • Classification des actes de langage et le langage figuratif

    Approches statistiques

    • Approches par tâches
      • Désambiguïsation de mot
      • Correction orthographique
      • Extraction d’information
      • Classification supervisée et non supervisée de textes
      • Similarité et parenté sémantiques
      • Traduction automatique
    • Approches par outil
      • Règles d’association
      • Modèles de Markov cachés (HMM)
      • SVM
      • Random Forest
    • Approches spécifiques
      • Réseaux de neurones profonds / Deep Learning
      • Plongements
      • Mécanisme d’attention
      • Transformers
      • Apprentissage par transfert

    Travaux pratiques

    • Étude d’un corpus de critiques de films (IMDB)
    • Lemmatisation/analyse syntaxique à l’aide de la librairie Python SpaCy
    • Utilisation de SentiWordNet pour la classification des critiques
    • Utilisation de réseaux de neurones sur le même corpus de textes, comparaison des résultats ; possibilité d’approche hybride (plongement d’arbres syntaxiques)

    Approches symboliques

    • Langages formels et principe de compositionnalité
    • Syntaxe par constituants et par dépendances
    • Grammaires formelles stochastiques
    • Inférence grammaticale
    • Logique du premier ordre, lambda-calcul, sémantique formelle de Montague
    • Logiques modales
    • Logiques de description, RDF, OWL, langages contrôlés
    • Graphes conceptuels

    Travaux pratiques

    • Modélisation de la langue par des grammaires formelles
    • Utilisation de la librairie Python NLTK
    • Lambda-calcul
    • Logique typée
    • Implémentation de la sémantique formelle de Montague en Python (noms propres, noms, verbes, adjectifs, coordination, quantification, articles indéfinis, articles définis)

    Synthèse et conclusion

  • Points forts

    Formation présentant les fondements théoriques et permettant d'utiliser sur des données textuelles les techniques innovantes du traitement du langage naturel (NLP).

  • Modalités pédagogiques

    La formation comprend des travaux pratiques qui permettent d'appliquer les notions abordées.

  • Public cible et prérequis

    Ingénieurs, chefs de projet devant traiter des données textuelles.


    Des connaissances du langage Python sont requises pour suivre la formation avec profit.

  • Responsables

    • Fabian SUCHANEK

      Enseignant-chercheur à Télécom Paris. Il a fait ses recherches à l’Institut Max Planck en Allemagne, chez Microsoft Research Cambridge/UK, chez Microsoft Research Silicon Valley/USA, et à l’INRIA Saclay. Il est l’auteur principal de YAGO, une des plus grandes bases de connaissances publiques dans le monde.

Prochaine(s) session(s)

  • Du 05/12/2022 au 07/12/2022 à Paris
  • Du 05/07/2023 au 07/07/2023 à Paris
  • Du 27/11/2023 au 29/11/2023 à Paris