FC9BD15
Stage inter entreprise
Durée :
2 jour(s)

Présentation
Le traitement des grandes masses de données (Big Data), dans différents secteurs d’activités, se base sur le Machine Learning. Les méthodes de régression et leur pénalisation permettent de répondre à plusieurs problématiques, en mettant l’accent sur les approches non paramétriques permettant une grande souplesse de modélisation. Les forêts aléatoires ainsi que différentes méthodes d’optimisation permettent d’apprendre les paramètres des modèles à l’aide de données d’entraînement (utilisant une descente de gradient ou non). D’autres problèmes industriels sont traités grâce au traitement statistique des séries temporelles.
Objectifs
L’objectif de cette formation est de prendre en main les différentes méthodologies d’apprentissage statistique tant pour les données indépendantes que pour les séries temporelles. Les concepts ainsi que les résultats introduits permettront de déployer les méthodes les plus récentes, de l’écriture d’un modèle à son optimisation.
La formation a pour but de mettre en œuvre les algorithmes d’apprentissage les plus répandus ainsi que leur application à de nombreux jeux de données. Il s’agira de disposer des outils indispensables à l’implémentation de modèles et d’architectures adaptés aux problèmes considérés.
-
Programme
Introduction
Rappels de Machine Learning
- Introduction à la théorie de l'apprentissage
- Réduction de dimension (analyse en composante principale et décomposition en valeurs singulières)
Modèles de régression
- Rappels sur la régression multivariée (linéaire, pénalisation)
- Régressions non paramétriques
- Forêts aléatoires pour la régression
- Forêts aléatoires combinées aux réseaux de neurones
Méthodes de gradient pour l'apprentissage de modèles complexes
- Convergence des méthodes de gradient, gradient stochastique et gradient accéléré
- Méthodes de gradient utilisées en apprentissage profond
- Application aux réseaux de neurones (Feed Forward, avec convolution)
- Algorithme du gradient stochastique pour les modèles à données cachées
Apprentissage pour les séries temporelles partiellement observées
- Méthodes bayésiennes et réseaux de neurones récurrents pour les séries temporelles
Synthèse et conclusion
-
Points forts
Formation technique permettant la prise en main des algorithmes avancés de machine learning à travers les preuves théoriques et des exercices pratiques sur des données réelles.
-
Modalités pédagogiques
Les concepts sont illustrés par de nombreux exemples utilisant des données simulées ainsi que des données réelles (données économétriques, météorologiques, applications en vision). Des séances de travaux pratiques en Python sont réalisées.
-
Public cible et prérequis
La formation s’adresse aux ingénieurs, chefs de projets souhaitant approfondir leurs connaissances en apprentissage statistique. Elle a pour but de détailler le développement des méthodes considérées ainsi que de fournir des éléments théoriques justifiant leurs performances.
Des connaissances de base en statistiques ou en Machine Learning : notions de probabilités/statistiques élémentaires (variables aléatoires, loi d’une variable aléatoire, espérance, etc.) ainsi que d’une connaissance des enjeux des méthodes d’apprentissage sont indispensables. -
Responsables
Charlotte LACLAU
Enseignante-chercheuse au LTCI à Télécom Paris dans le département Image, Données et Signal. Ses intérêts de recherche portent sur l'apprentissage automatique et plus spécifiquement l'apprentissage de représentation pour des données complexes, avec un accent sur les graphes dynamiques et le texte. De plus, elle travaille sur l'analyse théorique des biais dans l'apprentissage automatique et le développement d'algorithmes équitables pour les données relationnelles.
Prochaine(s) session(s)
- Du 14/12/2023 au 15/12/2023 à Paris
Vous pourriez aussi être intéressé par...
[Formation] Data Science – Introduction au Machine Learning
Domaine : Intelligence Artificielle et Science des Données – Nos formations
Durée : 2 jour(s)