FC9BD09

Stage inter entreprise

Durée :

3 jour(s)

Prochaine(s) session(s)

Nous contacter pour les sessions à venir

Présentation

L'émergence des nouvelles technologies informatiques de type big data et cloud computing a révolutionné notre capacité d'analyse des données et d'extraction des connaissances, cœur du métier du data scientist. Dans cette formation, nous utilisons des outils big data sur la plate-forme Cloud de Google afin de réaliser des analyses statistiques et du Machine Learning. Au travers de cas d'étude concrets sur des données climatiques, nous explorons plusieurs décennies de données satellitaires.

Objectifs

Utiliser et adapter les nouvelles pratiques et méthodes pour le traitement de données massives sur une plate-forme Cloud en ligne. Mettre en œuvre les méthodes classiques de fouille de données.

  • Programme

    Introduction

    Présentation des concepts principaux abordés pendant la formation:

    • Big data, data science, cloud computing, machine learning, langage Python

    Prise en main de Google Cloud Platform

    • Machines virtuelles (Compute)
    • Stockage en ligne (Storage)
    • Plate-forme de traitements (DataProc)
    • Environnement d'analyse de données (Datalab)
    • Gestion du coût d'utilisation

    Introduction aux plate-formes distribuées et technologies du big data
     

    • Stockage et processing distribués
    • Bases de données distribuées (NoSQL Columnar Storage)
    • Processing de données pour analyses en mode batch (Hadoop, Spark / Python)
    • Analyse interactive de données (BigQuery)

    Présentation du jeu de données réelles

    • Variables observées
    • Problématiques sous-jacentes (étude de tendances, mise en évidence d'oscillations, interpolation / extrapolation/classification de données)

    Algorithmes de Machine Learning

    • Méthodes de régression usuelles (linéaires ou non, paramétriques ou non)
    • Méthodes de classification (supervisées ou non, paramétriques ou non)

    Synthèse et conclusion

  • Modalités pédagogiques

    La formation comprend des travaux pratiques qui permettent d'appliquer les notions abordées.

  • Public cible et prérequis

    Ingénieurs, chefs de projets souhaitant pratiquer des outils statistiques et informatiques du big data sur des données réelles.

    Des notions en bases de données, en programmation Python et en méthodes statistiques permettent de tirer un meilleur profit de la formation.

  • Responsables

    • Pierre TANDEO

      Enseignant-chercheur en mathématiques appliquées à IMT Atlantique. Il travaille depuis environ 10 ans sur l'utilisation des statistiques pour la fouille de données environnementales, notamment sur des données spatiales.

Prochaine(s) session(s)

Nous contacter pour les sessions à venir