FC9BD03

Stage inter entreprise

Durée :

2 jour(s)

Prochaine(s) session(s)

  • Du 23/04/2020 au 24/04/2020 à Paris
  • Du 24/09/2020 au 25/09/2020 à Paris

Présentation

L’expression «  big data  » est utilisée aujourd’hui pour décrire les problèmes liés aux besoins croissants d’exploitation des données massives. L’exploitation intelligente de cette grande quantité d’information est une source de création de valeur pour les entreprises, qu’il s’agisse de mieux comprendre leur propre fonctionnement, ou d’identifier les leviers de leur future croissance. Les outils de calcul distribué sont aujourd’hui devenus essentiels à l’identification des indicateurs de performance (Key Performance Indicators, KPI) au sein des entreprises et des organisations. Cette formation permet d’appréhender et de comprendre le calcul distribué ainsi que les solutions et outils associés.

Objectifs

Mettre en oeuvre les solutions de passage à l’échelle (scaling). Utiliser les techniques de «  scaling vertical  » et «  scaling horizontal  ». Identifier les problèmes classiques qu’il est nécessaire de résoudre lors de la mise en place de processus de calculs distribués. Utiliser et adapter les outils pour le calcul distribué dans le cadre de traitement par lots mais aussi pour le calcul temps-réel.

  • Programme

    Introduction

    • Big data - définition et contexte
    • Paradigmes de calculs distribués

    Solutions Cloud

    MapReduce

    • Problèmes classiques des architectures distribuées et solutions
    • Introduction au paradigme MapReduce
    • Traitements par lots (batch processing)
    • Principes de fonctionnement de MapReduce et exemples

    Technologies NoSQL

    • Introduction aux technologies NoSQL
    • Différences SQL/NoSQL
    • Configuration et administration de MongoDB
    • Utilisation de MongoDB pour le calcul distribué

    Apache Hadoop / Apache Spark

    • Introduction au système de fichiers distribué HDFS
    • Introduction à la gestion de tâches MapReduce
    • Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce
    • Ecriture de MapReduce pour la résolution de problèmes concrets

    Calcul temps-réel, Kafka, Kafka Streams

    • Différences fondamentales entre traitement par lots et traitement temps-réel
    • Problématique de traitement des flux de données
    • Présentation d'Apache Kafka pour la mise en tampon des données
    • Présentation et utilisation de Kafka Streams pour le calcul d'indicateurs en temps-réel

    Moteur de recherche, Elasticsearch

    • Présentation et principes d'un moteur de recherche

    • Indexation de documents
    • Requêtes et aggrégation de documents
    • Introduction à Kibana pour la création de dashboards

    Synthèse et conclusion

  • Modalités pédagogiques

    La formation comprend des travaux pratiques qui permettent d'appliquer les notions abordées.

  • Public cible et prérequis

    Décideurs et ingénieurs désireux de comprendre comment mettre en œuvre des outils pour le big data, qu’il s’agisse du calcul d’indicateurs en mode traitement par lots (batch processing) ou en temps-réel.

    Des connaissances de l’environnement Linux / Unix et de la programmation Java ou Python sont requises pour suivre cette formation avec profit.

  • Responsables

    • Jérémie ALBERT

      Co-fondateur et directeur technique de l’entreprise inBlocks, il est spécialiste des architectures pour le calcul distribué et des problématiques associées au passage à l’échelle.

Prochaine(s) session(s)

  • Du 23/04/2020 au 24/04/2020 à Paris
  • Du 24/09/2020 au 25/09/2020 à Paris