FL9BD01
Durée :
26 jour(s)
Présentation
Nous assistons depuis plus d’une dizaine d’années à un véritable « déluge de données » et à l’émergence de nouveaux métiers tel celui de data scientist pour lequel la demande des entreprises est croissante. Les avancées technologiques récentes, la numérisation et la diversification des modes de collecte de données (web, réseaux sociaux tels Facebook ou Twitter, téléphones mobiles, vidéo, etc.), permettent aujourd’hui de stocker des quantités massives d’observations dans des « entrepôts » de données parfois gigantesques, de façon distribuée. Ces données sont actualisées de plus en plus souvent en « temps réel ».
La formation certifiante présente les différentes facettes du métier de data scientist et permet d’affronter les challenges posés par le big data : infrastructure informatique, données, algorithmiques, statistiques, etc.
#ParlonsFormation – Témoignages clients
Objectifs
- Mettre en œuvre les techniques récentes de gestion et d’analyse de grandes masses de données pour exercer le métier de data scientist
- Identifier et prendre en compte les différents formats des données, modèles, méthodes d’extraction de descripteurs (features) structurels et sémantiques
- Utiliser et adapter les algorithmes et les techniques d’analyse des données et d’apprentissage statistique
- Prendre en compte les problématiques de volumétrie et mettre en œuvre les techniques de passage à l’échelle
-
Programme
Introduction à l'apprentissage statistique
- Objectifs et enjeux de l'apprentissage statistique
- Nomenclature des problèmes
- Formalisme probabiliste
- Régression logistique - loi/vraisemblance conditionnelle - Newton Raphson
- Analyse discriminante linéaire/quadratique
- Le perceptron de F. Rosenblatt
- Méthode des k-plus proches voisins
Bases de données NoSQL
- Concepts de base autour des bases de données distribuées
- MapReduce
- Bases de données clés-valeurs
- Bases de données orientées colonne
- Bases de données orientées document
- Bases de données orientées graphe
- Flux de données
Extraction d'informations du Web
- Reconnaissance d'entités nommées
- Désambiguation
- Fact extraction
- Web sémantique
Données multimédia
- Initiation à l'indexation des images
- Initiation à l'indexation des sons
- Étude de cas
Apprentissage supervisé : de la théorie aux algorithmes
- Éléments de la théorie de Vapnik-Chervonenkis
- Arbres de décision
- Réseaux de neurones
- Support Vector Machines
- Boosting
- Lasso
- Apprentissage par renforcement
Techniques avancées pour l'apprentissage : noyaux et deep learning
- Apprentissage en ligne
- Apprentissage statistique distribué
- Techniques d'échantillonnage
- Réseaux de neurones (ANN, CNN)
- Traitement d’images
Apprentissage non supervisé
- Variables latentes
- Clustering
- Analyse des affinités
- Détection d'anomalies
Réseaux HMM / représentation vectorielles et modèles séquentiels
- Chaînes de Markov cachées
- Représentations vectorielles et modèles séquentiels pour le traitement du langage
Traitement du langage naturel
- Tokenisation
- Marquage de partie de discours
- Représentation de document
- Word Embeddings
- WordNet
Visualisation de données
- Principes de base de la visualisation d'information
- Critique des techniques de visualisation appliquées à une donnée particulière pour une tâche donnée
- Évaluation des systèmes de visualisation
- Conception de nouveaux outils de visualisation
Stockage à l'échelle du Web
- SGBD relationnels distribués classiques
- Systèmes de fichiers distribués HDFS/GFS
- Stockage à grande échelle
- Stockage clés-valeurs par table de hachage distribuée (Dynamo)
- Stockage par arbre distribué (BigTable, HBase)
- Systèmes NewSQL (Google Spanner, SGBD en mémoire, MySQL Cluster)
Calcul distribué
- MapReduce avancé
- Au-delà de MapReduce : Spark, Stratosphere
- Message Passing Interface
- Calculs distribués sur des graphes : GraphLab, Pregel, Giraph
Apprentissage distribué : fouille de graphes
- Distribution d'algorithmes d'indexation, d'apprentissage et de fouille
- Index inversé
- Factorisation de matrice
- Échantillonnage
- PageRank
Retour sur la méthodologie du machine learning
Synthèse et conclusion
-
Points forts
Les algorithmes de Machines Learning et de traitement de données et les technologies de stockage et d'accès aux données les plus récents et innovants sont présentés en expliquant leurs fondements théoriques et en se basant sur des cas pratiques de données et usages réels.
-
Public cible et prérequis
Ingénieur ou chef de projet souhaitant développer vos compétences dans le domaine de la gestion et l'analyse statistique des données massives pour évoluer vers un poste de data scientist, data analyst ou ingénieur big data.
De bonnes connaissances en mathématiques (optimisation, probabilités/statistique, algèbre linéaire) et une bonne expérience de la programmation sont indispensables pour suivre avec profit cette formation (voir la formation MOOC Fondamentaux pour Big Data). -
Responsables
Pietro GORI
Enseignant-chercheur au département Image, Données, Signal de Télécom Paris et au laboratoire LTCI. Ses recherches portent principalement sur l'anatomie computationnelle, l'analyse des formes, l'apprentissage statistique et l'imagerie médicale.
Fabian SUCHANEK
Enseignant-chercheur à Télécom Paris. Il a fait ses recherches à l’Institut Max Planck en Allemagne, chez Microsoft Research Cambridge/UK, chez Microsoft Research Silicon Valley/USA, et à l’INRIA Saclay. Il est l’auteur principal de YAGO, une des plus grandes bases de connaissances publiques dans le monde.
-
Vidéo
-
Évaluation et certification
Contrôle des acquis au travers de QCM, de travaux pratiques et d’un projet en entreprise permettant la rédaction d’un mémoire professionnel.
La certification Certificat d’Études Spécialisées « Data Scientist » de Télécom Paris est délivrée après validation des contrôles de connaissances et du mémoire professionnel présenté oralement devant un jury.