FC9BD02
Stage inter entreprise
Durée :
2 jour(s)

Présentation
L’expression « Big Data » est utilisée aujourd’hui pour décrire les problèmes liés aux besoins croissants d’exploitation des données massives générées par les applications (logs d’applications grand public, données scientifiques ou e-science, données issues de capteurs, etc.). L’exploitation intelligente de ces gisements d’informations est en effet cruciale pour permettre aux entreprises et organisations de mieux comprendre leur fonctionnement et d’optimiser leurs différents processus afin d’être plus concurrentielles. Encore faut-il que cette valorisation respecte les données personnelles et la vie privée des citoyens.
La formation permet de mesurer et prendre en compte les besoins, enjeux et défis techniques associés au Big Data et à l’exploitation des données massives qui s’y rattachent.
Objectifs
- Prendre en compte l'environnement économique en place dans un projet Big Data
- Identifier la donnée à caractère personnel
- Tenir compte des enjeux et des modalités de la conformité au regard de la législation européenne et française
- Intégrer les techniques, qu'il s'agisse du traitement de requêtes ou de l’analyse sur des données très volumineuses (Data Analytics) dans la proposition de solutions Big Data
-
Programme
Introduction
- Big Data : pourquoi s'y intéresser ? Pourquoi maintenant ?
- Caractéristiques du Big Data (les trois "V" : volume, vélocité, variété)
- Exemples de projets Big Data
Écosystème économique du Big Data
- Lier la Data aux sources de création de valeur de l'entreprise
- Renforcement de business models et nouveaux business models
- Shared/Open Data : Gadget ou opportunité
- Valoriser la donnée (Data) au-delà des questions techniques
Introduction aux aspects juridiques : Règlement Général sur la Protection des Données (RGPD) et Big Data
- RGPD et notion de donnée à caractère personnel
- Enjeux pour l'entreprise et les citoyens
- Obligations d'un responsable de traitement
- Respecter les droits des personnes concernées par les données personnelles
- Rôle de la CNIL et des autres autorités de protection des données de l'UE ; leurs pouvoirs
- Piloter la conformité, en particulier l'obligation de responsabilité
Interroger des données très volumineuses
- Limites des SGBD relationnels et SGBD parallèles
- Modèle de programmation parallèle sur les données : MapReduce
- Principe de fonctionnement de MapReduce
- Exemples en MapReduce
- Écosystème Hadoop (implémentation de MapReduce par Apache)
- HDFS et Hadoop
- Exemples de programmes en Hadoop
- Écrire des programmes Hadoop plus facilement : Hive et Pig
- Limites de MapReduce
Interroger des flux en temps réel
- Problématique de traitement des flux de données
- Gérer des flux de données avec Apache Kafka
- Processeurs de flux de données
- Présentation de Storm (Yahoo)
- Exemples en Storm
Analyser des données très volumineuses
- Principes du Machine Learning
- Présentation de Mahout, librairie d'algorithmes de Machine Learning d'Apache
- Spark, un modèle de programmation parallèle adapté au Machine Learning
- Exemples d'un système de recommandation en Mahout
Visualisation des données
Synthèse et conclusion
-
Points forts
Formation abordant de manière complète les aspects techniques, économiques et juridiques des sciences des données et du Big Data.
-
Modalités pédagogiques
Des exemples illustrent les concepts théoriques.
-
Public cible et prérequis
Décideurs et ingénieurs désireux d’appréhender les enjeux du Big Data et comprendre sa mise en œuvre.
Une connaissance des systèmes de gestion de bases de données et/ou des méthodes d’apprentissage automatique permet de tirer un meilleur profit de la formation. -
Responsables
Bruno DEFUDE
Enseignant-chercheur à Télécom SudParis, il est spécialiste de la gestion de données et a notamment travaillé sur la distribution des données à grande échelle. Il travaille aujourd’hui sur la gestion de données dans le Cloud.
Claire LEVALLOIS-BARTH
Enseignante-chercheuse en droit à Télécom Paris, coordinatrice de la chaire Valeurs et Politiques des Informations Personnelles. Elle est spécialiste du droit des nouvelles technologies et plus particulièrement de la protection des données à caractère personnel (Privacy).
Prochaine(s) session(s)
- Du 03/04/2023 au 04/04/2023 à Paris
- Du 30/11/2023 au 01/12/2023 à Paris