FC9BD02

Stage inter entreprise

Durée :

2 jour(s)

Prochaine(s) session(s)

  • Du 04/06/2020 au 05/06/2020 à Paris
  • Du 23/11/2020 au 24/11/2020 à Paris

Présentation

L’expression «  big data  » est utilisée aujourd’hui pour décrire les problèmes liés aux besoins croissants d’exploitation des données massives générées par les applications (logs d’applications grand public, données scientifiques ou e-science, données issues de capteurs, etc.). L’exploitation intelligente de ces gisements d’informations est en effet cruciale pour permettre aux entreprises et organisations de mieux comprendre leur fonctionnement et d’optimiser leurs différents processus afin d’être plus concurrentielles. Encore faut-il que cette valorisation respecte les données personnelles et la vie privée des citoyens. Cette formation permet de mesurer et prendre en compte les besoins, enjeux et défis techniques associés au big data et à l’exploitation des données massives qui s’y rattachent.

Objectifs

  • Prendre en compte l'environnement économique en place dans un projet big data. Identifier la donnée à caractère personnel.
  • Tenir compte des enjeux et des modalités de la conformité au regard de la législation européenne et française.
  • Intégrer les techniques, qu'il s'agisse du traitement de requêtes ou de l’analyse sur des données très volumineuses («  data analytics  ») dans la proposition de solutions big data.
  • Programme

    Introduction

    • Big data : pourquoi s'y intéresser. Pourquoi maintenant
    • Caractéristiques du big data (les trois V : volume, vélocité, variété)
    • Exemples de projets big data

    Ecosystème économique du big data

    • Comment lier la data aux sources de création de valeur de l'entreprise
    • Renforcement de business models et nouveaux business models
    • Shared/open data: gadget ou opportunité
    • Valoriser la donnée (data) au-delà des questions techniques

    Introduction aux aspects juridiques : Règlement (UE) Général sur la Protection des Données (RGPD) et big data

    • RGPD et notion de donnée à caractère personnel
    • Quels sont les enjeux pour l'entreprise et les citoyens
    • Quelles sont les obligations d'un responsable de traitement
    • Comment respecter les droits des personnes concernées par les données personnelles
    • Quel est le rôle de la CNIL et des autres autorités de protection des données de l'UE. Quels sont leurs pouvoirs
    • Comment piloter la conformité, en particulier l'obligation de responsabilité

    Interroger des données très volumineuses

    • Limites des SGBD relationnels et SGBD parallèles
    • Modèle de programmation parallèle sur les données : MapReduce
    • Principe de fonctionnement de MapReduce
    • Exemples en MapReduce
    • Présentation de l'éco-système Hadoop (implémentation de MapReduce par Apache)
    • HDFS et Hadoop
    • Exemples de programmes en Hadoop
    • Ecrire des programmes Hadoop plus facilement : Hive et Pig
    • Limites de MapReduce

    Interroger des flux en temps réel

    • Problématique de traitement des flux de données
    • Gérer des flux de données avec Apache Kafka
    • Processeurs de flux de données
    • Présentation de Storm (Yahoo)
    • Exemples en Storm

    Analyser des données très volumineuses

    • Principes du machine learning
    • Présentation de Mahout, librairie d'algorithmes de machine learning d'Apache
    • Spark, un modèle de programmation parallèle adapté au machine learning
    • Exemples d'un système de recommandation en Mahout

    Visualisation des données

    Synthèse et conclusion

  • Modalités pédagogiques

    Des exemples illustrent les concepts théoriques.

  • Public cible et prérequis

    Décideurs et ingénieurs désireux d’appréhender les enjeux du big data et comprendre sa mise en œuvre.

    Une connaissance des systèmes de gestion de bases de données et/ou des méthodes d’apprentissage automatique permet de tirer un meilleur profit de la formation.

  • Responsables

    • Bruno DEFUDE

      Professeur à Télécom SudParis, il est spécialiste de la gestion de données et a notamment travaillé sur la distribution des données à grande échelle. Il travaille aujourd’hui sur la gestion de données dans le Cloud.

    • Claire LEVALLOIS-BARTH

      Maître de conférences en droit à Télécom Paris, coordinatrice de la chaire «Valeurs et politiques des informations personnelles» . Elle est spécialiste du droit des nouvelles technologies et plus particulièrement de la protection des données à caractère personnel (Privacy).

Prochaine(s) session(s)

  • Du 04/06/2020 au 05/06/2020 à Paris
  • Du 23/11/2020 au 24/11/2020 à Paris

Vous pourriez aussi être intéressé par...

En savoir plus

CES Architecture en cybersécurité, RSSI

Domaine : Cybersécurité

Durée : 28 jour(s)

Session(s) :

  • Du 23/03/2020 au 01/10/2020 à Paris
En savoir plus

CES Sécurité des systèmes d’information et des réseaux

Domaine : Cybersécurité

Durée : 19 jour(s)

Session(s) :

  • Du 01/03/2020 au 01/02/2021 à Evry
En savoir plus

CES Intelligence artificielle

Domaine : Intelligence artificielle et big data

Durée : 25 jour(s)

Session(s) :

  • Du 20/01/2020 au 01/01/2021 à Paris