FC9BD03
Stage intra entreprise
Durée :
2 jour(s)
Présentation
L’expression « Big Data » est utilisée aujourd’hui pour décrire les problèmes liés aux besoins croissants d’exploitation des données massives. L’exploitation intelligente de cette grande quantité d’information est une source de création de valeur pour les entreprises, qu’il s’agisse de mieux comprendre leur propre fonctionnement, ou d’identifier les leviers de leur future croissance. Les outils de calcul distribué sont aujourd’hui devenus essentiels à l’identification des indicateurs de performance au sein des entreprises et des organisations.
La formation permet d’appréhender et de comprendre le calcul distribué ainsi que les solutions et outils associés.
Objectifs
- Mettre en œuvre les solutions de passage à l’échelle (Scaling)
- Utiliser les techniques de « Scaling Vertical » et « Scaling Horizontal »
- Identifier les problèmes classiques qu’il est nécessaire de résoudre lors de la mise en place de processus de calculs distribués
- Utiliser et adapter les outils pour le calcul distribué dans le cadre de traitement par lots, mais aussi pour le calcul temps-réel
-
Programme
Introduction
- Big Data - définition et contexte
- Paradigmes de calculs distribués
Solutions Cloud
MapReduce
- Problèmes classiques des architectures distribuées et solutions
- Introduction au paradigme MapReduce
- Traitements par lots (Batch Processing)
- Principes de fonctionnement de MapReduce et exemples
Technologies NoSQL
- Introduction aux technologies NoSQL
- Différences SQL/NoSQL
- Configuration et administration de MongoDB
- Utilisation de MongoDB pour le calcul distribué
Apache Hadoop / Apache Spark
- Introduction au système de fichiers distribué HDFS
- Introduction à la gestion de tâches MapReduce
- Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce
- Écriture de MapReduce pour la résolution de problèmes concrets
Calcul temps-réel, Kafka, Kafka Streams
- Différences fondamentales entre traitement par lots et traitement temps-réel
- Problématique de traitement des flux de données
- Présentation d'Apache Kafka pour la mise en tampon des données
- Présentation et utilisation de Kafka Streams pour le calcul d'indicateurs en temps-réel
Moteur de recherche, Elastic Search
- Présentation et principes d'un moteur de recherche
- Indexation de documents
- Requêtes et aggrégation de documents
- Introduction à Kibana pour la création de dashboards
Synthèse et conclusion
-
Points forts
Formation présentant les techniques et infrastructures récentes et innovantes pour le stockage, la collecte et le traitement de données massives.
-
Modalités pédagogiques
La formation comprend des travaux pratiques qui permettent d'appliquer les notions abordées.
-
Public cible et prérequis
Décideurs et ingénieurs désireux de comprendre comment mettre en œuvre des outils pour le Big Data, qu’il s’agisse du calcul d’indicateurs en mode traitement par lots (Batch Processing) ou en temps-réel.
Des connaissances de l’environnement Linux/Unix et de la programmation Java ou Python sont requises pour suivre la formation avec profit. -
Responsables
Ons JELASSI
Enseignante-chercheuse à Télécom Paris en Machine Learning distribué, elle est également consultante en métrologie des réseaux auprès de grandes entreprises pour lesquelles elle effectue des missions d'audit et d'expertise. Ses travaux de recherche actuels, au sein du département Image, Données et Signal portent sur le passage à l'échelle des algorithmes d'apprentissage statistique.
Prochaine(s) session(s)
Nous contacter pour les sessions à venir