FC9BD03

Stage inter entreprise

Prix 2022 :

1 600 €

Comment financer sa formation ?

Durée :

2 jour(s)

Prochaine(s) session(s)

  • Du 14/11/2022 au 15/11/2022 à Paris

Présentation

L’expression « Big Data » est utilisée aujourd’hui pour décrire les problèmes liés aux besoins croissants d’exploitation des données massives. L’exploitation intelligente de cette grande quantité d’information est une source de création de valeur pour les entreprises, qu’il s’agisse de mieux comprendre leur propre fonctionnement, ou d’identifier les leviers de leur future croissance. Les outils de calcul distribué sont aujourd’hui devenus essentiels à l’identification des indicateurs de performance au sein des entreprises et des organisations.

La formation permet d’appréhender et de comprendre le calcul distribué ainsi que les solutions et outils associés.

Objectifs

  • Mettre en œuvre les solutions de passage à l’échelle (Scaling)
  • Utiliser les techniques de « Scaling Vertical » et « Scaling Horizontal »
  • Identifier les problèmes classiques qu’il est nécessaire de résoudre lors de la mise en place de processus de calculs distribués
  • Utiliser et adapter les outils pour le calcul distribué dans le cadre de traitement par lots, mais aussi pour le calcul temps-réel

 

  • Programme

    Introduction

    • Big Data - définition et contexte
    • Paradigmes de calculs distribués

    Solutions Cloud

    MapReduce

    • Problèmes classiques des architectures distribuées et solutions
    • Introduction au paradigme MapReduce
    • Traitements par lots (Batch Processing)
    • Principes de fonctionnement de MapReduce et exemples

    Technologies NoSQL

    • Introduction aux technologies NoSQL
    • Différences SQL/NoSQL
    • Configuration et administration de MongoDB
    • Utilisation de MongoDB pour le calcul distribué

    Apache Hadoop / Apache Spark

    • Introduction au système de fichiers distribué HDFS
    • Introduction à la gestion de tâches MapReduce
    • Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce
    • Écriture de MapReduce pour la résolution de problèmes concrets

    Calcul temps-réel, Kafka, Kafka Streams

    • Différences fondamentales entre traitement par lots et traitement temps-réel
    • Problématique de traitement des flux de données
    • Présentation d'Apache Kafka pour la mise en tampon des données
    • Présentation et utilisation de Kafka Streams pour le calcul d'indicateurs en temps-réel

    Moteur de recherche, Elastic Search

    • Présentation et principes d'un moteur de recherche
    • Indexation de documents
    • Requêtes et aggrégation de documents
    • Introduction à Kibana pour la création de dashboards

    Synthèse et conclusion

  • Points forts

    Formation présentant les techniques et infrastructures récentes et innovantes pour le stockage, la collecte et le traitement de données massives.

  • Modalités pédagogiques

    La formation comprend des travaux pratiques qui permettent d'appliquer les notions abordées.

  • Public cible et prérequis

    Décideurs et ingénieurs désireux de comprendre comment mettre en œuvre des outils pour le Big Data, qu’il s’agisse du calcul d’indicateurs en mode traitement par lots (Batch Processing) ou en temps-réel.


    Des connaissances de l’environnement Linux/Unix et de la programmation Java ou Python sont requises pour suivre la formation avec profit.

  • Responsables

    • Ons JELASSI

      Enseignante-chercheuse à Télécom Paris en Machine Learning distribué, elle est également consultante en métrologie des réseaux auprès de grandes entreprises pour lesquelles elle effectue des missions d'audit et d'expertise. Ses travaux de recherche actuels, au sein du département Image, Données et Signal portent sur le passage à l'échelle des algorithmes d'apprentissage statistique.

Prochaine(s) session(s)

  • Du 14/11/2022 au 15/11/2022 à Paris