FL9BD01

Prix :

12 500 €

Comment financer sa formation ?
Éligible au CPF

Durée :

26 jour(s)

Prochaine(s) session(s)

Nous contacter pour les sessions à venir

Titre : 
Certificat d’Études Spécialisées (CES) « Data Science – Analyse et gestion de grandes masses de données »
délivré par : 

Présentation

Nous assistons depuis plus d’une dizaine d’années à un véritable « déluge de données » et à l’émergence de nouveaux métiers tel celui de data scientist pour lequel la demande des entreprises est croissante. Les avancées technologiques récentes, la numérisation et la diversification des modes de collecte de données (web, réseaux sociaux tels Facebook ou Twitter, téléphones mobiles, vidéo, etc.), permettent aujourd’hui de stocker des quantités massives d’observations dans des « entrepôts » de données parfois gigantesques, de façon distribuée. Ces données sont actualisées de plus en plus souvent en « temps réel ».

La formation certifiante présente les différentes facettes du métier de data scientist et permet d’affronter les challenges posés par le big data : infrastructure informatique, données, algorithmiques, statistiques, etc.

 

#ParlonsFormation – Témoignages clients



 

Objectifs

  • Mettre en œuvre les techniques récentes de gestion et d’analyse de grandes masses de données pour exercer le métier de data scientist
  • Identifier et prendre en compte les différents formats des données, modèles, méthodes d’extraction de descripteurs (features) structurels et sémantiques
  • Utiliser et adapter les algorithmes et les techniques d’analyse des données et d’apprentissage statistique
  • Prendre en compte les problématiques de volumétrie et mettre en œuvre les techniques de passage à l’échelle
  • Programme

    Introduction à l'apprentissage statistique

    • Objectifs et enjeux de l'apprentissage statistique
    • Nomenclature des problèmes
    • Formalisme probabiliste
    • Régression logistique - loi/vraisemblance conditionnelle - Newton Raphson
    • Analyse discriminante linéaire/quadratique
    • Le perceptron de F. Rosenblatt
    • Méthode des k-plus proches voisins

    Bases de données NoSQL

    • Concepts de base autour des bases de données distribuées
    • MapReduce
    • Bases de données clés-valeurs
    • Bases de données orientées colonne
    • Bases de données orientées document
    • Bases de données orientées graphe
    • Flux de données

    Extraction d'informations du Web

    • Reconnaissance d'entités nommées
    • Désambiguation
    • Fact extraction
    • Web sémantique

    Données multimédia

    • Initiation à l'indexation des images
    • Initiation à l'indexation des sons
    • Étude de cas

    Apprentissage supervisé : de la théorie aux algorithmes

    • Éléments de la théorie de Vapnik-Chervonenkis
    • Arbres de décision
    • Réseaux de neurones
    • Support Vector Machines
    • Boosting
    • Lasso
    • Apprentissage par renforcement

    Techniques avancées pour l'apprentissage : noyaux et deep learning

    • Apprentissage en ligne
    • Apprentissage statistique distribué
    • Techniques d'échantillonnage
    • Réseaux de neurones (ANN, CNN)
    • Traitement d’images

    Apprentissage non supervisé

    • Variables latentes
    • Clustering
    • Analyse des affinités
    • Détection d'anomalies

    Réseaux HMM / représentation vectorielles et modèles séquentiels

    • Chaînes de Markov cachées
    • Représentations vectorielles et modèles séquentiels pour le traitement du langage

    Traitement du langage naturel

    • Tokenisation
    • Marquage de partie de discours
    • Représentation de document
    • Word Embeddings
    • WordNet

    Visualisation de données

    • Principes de base de la visualisation d'information
    • Critique des techniques de visualisation appliquées à une donnée particulière pour une tâche donnée
    • Évaluation des systèmes de visualisation
    • Conception de nouveaux outils de visualisation

    Stockage à l'échelle du Web

    • SGBD relationnels distribués classiques
    • Systèmes de fichiers distribués HDFS/GFS
    • Stockage à grande échelle
    • Stockage clés-valeurs par table de hachage distribuée (Dynamo)
    • Stockage par arbre distribué (BigTable, HBase)
    • Systèmes NewSQL (Google Spanner, SGBD en mémoire, MySQL Cluster)

    Calcul distribué

    • MapReduce avancé
    • Au-delà de MapReduce : Spark, Stratosphere
    • Message Passing Interface
    • Calculs distribués sur des graphes : GraphLab, Pregel, Giraph

    Apprentissage distribué : fouille de graphes

    • Distribution d'algorithmes d'indexation, d'apprentissage et de fouille
    • Index inversé
    • Factorisation de matrice
    • Échantillonnage
    • PageRank

    Retour sur la méthodologie du machine learning

    Synthèse et conclusion

  • Points forts

    Les algorithmes de Machines Learning et de traitement de données et les technologies de stockage et d'accès aux données les plus récents et innovants sont présentés en expliquant leurs fondements théoriques et en se basant sur des cas pratiques de données et usages réels.

  • Public cible et prérequis

    Ingénieur ou chef de projet souhaitant développer vos compétences dans le domaine de la gestion et l'analyse statistique des données massives pour évoluer vers un poste de data scientist, data analyst ou ingénieur big data.

    De bonnes connaissances en mathématiques (optimisation, probabilités/statistique, algèbre linéaire) et une bonne expérience de la programmation sont indispensables pour suivre avec profit cette formation (voir la formation MOOC Fondamentaux pour Big Data).

  • Responsables

    • Pietro GORI

      Enseignant-chercheur au département Image, Données, Signal de Télécom Paris et au laboratoire LTCI. Ses recherches portent principalement sur l'anatomie computationnelle, l'analyse des formes, l'apprentissage statistique et l'imagerie médicale.

    • Fabian SUCHANEK

      Enseignant-chercheur à Télécom Paris. Il a fait ses recherches à l’Institut Max Planck en Allemagne, chez Microsoft Research Cambridge/UK, chez Microsoft Research Silicon Valley/USA, et à l’INRIA Saclay. Il est l’auteur principal de YAGO, une des plus grandes bases de connaissances publiques dans le monde.

  • Vidéo

  • Évaluation et certification

    Contrôle des acquis au travers de QCM, de travaux pratiques et d’un projet en entreprise permettant la rédaction d’un mémoire professionnel.

    La certification Certificat d’Études Spécialisées « Data Scientist » de Télécom Paris est délivrée après validation des contrôles de connaissances et du mémoire professionnel présenté oralement devant un jury.

Prochaine(s) session(s)

Nous contacter pour les sessions à venir