FL9BD01

Prix :

10 900 €

Comment financer sa formation ?
Éligible au CPF

Durée :

26 jour(s)

Prochaine(s) session(s)

Nous contacter pour les sessions à venir

Titre : 
Certificat d’Études Spécialisées "Data Scientist / Data science : Analyse et gestion de grandes masses de données"
délivré par : 
Télécom Paris

Présentation

Nous assistons depuis plus d’une dizaine d’années à un véritable «  déluge de données  » et l'émergence de nouveaux métiers tel celui de Data Scientist pour lequel la demande est croissante. Les avancées technologiques récentes, la numérisation et la diversification des modes de collecte de données (web, réseaux sociaux tels Facebook ou Twitter, téléphones mobiles, vidéo, etc.), permettent aujourd’hui de stocker des quantités massives d’observations dans des «  entrepôts  » de données parfois gigantesques, de façon distribuée. Ces données sont actualisées de plus en plus souvent en «  temps réel  ». Dans de nombreux secteurs d’activité, des investissements considérables ont été réalisés (finance, internet, CRM, biologie, médecine individualisée, télécoms, e-commerce, grande distribution, sécurité, industrie high-tech) pour conduire à cette nouvelle ère technologique de l’information. Le phénomène «  big data  » est aujourd’hui perçu comme une tendance de fond, aux conséquences sociétales et économiques considérables. Le déploiement généralisé de plates-formes Hadoop permettant l’analyse de données massives non structurées, la mise sur le marché de solutions dédiées à ces analyses par les éditeurs de logiciel majeurs, le phénomène Open Data, le développement du «  cloud  » et le succès de sociétés nouvelles dont l’activité repose précisément sur l’exploitation des flux de données de trafic web, indiquent qu’une mutation est en train de se produire.

 

Cette formation certifiante présente les différentes facettes du métier de «  data scientist  » et permet d’affronter les challenges posés par le «  big data  » : infrastructure informatique, données, algorithmique, statistique.

 

Objectifs

  • Mettre en œuvre les techniques récentes de gestion et d’analyse de grandes masses de données
  • Identifier et prendre en compte les différents formats des données, modèles, méthodes d’extraction de descripteurs (features) structurels et sémantiques
  • Utiliser et adapter les algorithmes et les techniques d’analyse des données et d’apprentissage statistique
  • Prendre en compte les problématiques de volumétrie et mettre en œuvre les techniques de passage à l’échelle
  • Programme

    Introduction à l'apprentissage statistique

    • Objectifs et enjeux de l'apprentissage statistique
    • Nomenclature des problèmes
    • Formalisme probabiliste
    • Régression logistique - loi / vraisemblance conditionnelle - Newton Raphson
    • Analyse discriminante linéaire / quadratique
    • Le perceptron de F. Rosenblatt
    • Méthode des k-plus proches voisins

    Bases de données NoSQL

    • Concepts de base autour des bases de données distribuées
    • MapReduce
    • Bases de données clés-valeurs
    • Bases de données orientées colonne
    • Bases de données orientées document
    • Bases de données orientées graphe
    • Flux de données

    Extraction d'informations du web

    • Reconnaissance d'entités nommées
    • Désambiguation
    • Fact extraction
    • Web sémantique

    Données multimédia

    • Initiation à l'indexation des images
    • Initiation à l'indexation des sons
    • Etude de cas

    Apprentissage supervisé : de la théorie aux algorithmes

    • Eléments de la théorie de Vapnik-Chervonenkis
    • Arbres de décision
    • Réseaux de neurones
    • Support Vector machines
    • Boosting
    • Lasso
    • Apprentissage par renforcement

    Techniques avancées pour l'apprentissage : Noyaux et Deep Learning

    • Apprentissage en ligne
    • Apprentissage statistique distribué
    • Techniques d'échantillonnage

    Apprentissage non supervisé

    • Variables latentes
    • Clustering
    • Analyse des affinités
    • Détection d'anomalies

    Réseaux bayésiens / HMM

    • Chaines de Markov cachées
    • Réseaux bayésiens

    Visualisation de données

    • Principes de base de la visualisation d'information
    • Critique des techniques de visualisation appliquées à une donnée particulière pour une tâche donnée
    • Evaluation des systèmes de visualisation
    • Conception de nouveaux outils de visualisation

    Stockage à l'échelle du Web

    • SGBD relationnels distribués classiques
    • Systèmes de fichiers distribués HDFS / GFS
    • Stockage à grande échelle
    • Stockage clés-valeurs par table de hachage distribuée (Dynamo)
    • Stockage par arbre distribué (BigTable, HBase)
    • Systèmes NewSQL (Google Spanner, SGBD en mémoire, MySQL Cluster)

    Calcul distribué

    • MapReduce avancé
    • Au-delà de MapReduce : Spark, Stratosphere
    • Message Passing Interface
    • Calculs distribués sur des graphes : GraphLab, Pregel, Giraph

    Apprentissage distribué - Fouille de graphes

    • Distribution d'algorithmes d'indexation, d'apprentissage et de fouille
    • Index inversé
    • Factorisation de matrice
    • Echantillonnage
    • PageRank

    Retour sur la méthodologie du Machine Learning

  • Modalités pédagogiques

    • Suivre le MOOC gratuit "Fondamentaux pour le Big Data" en pré-requis de la formation
    • Cours et travaux pratiques
    • Mini-projets inter-sessions
    • Retours d’expérience de professionnels
  • Public cible et prérequis

    Cette formation s’adresse à des ingénieurs, chefs de projet avec des bonnes connaissances en mathématiques (probabilités, optimisation, algèbre linéaire) et une bonne expérience de la programmation, souhaitant développer leurs compétences dans le domaine de la gestion et l’analyse statistique des données massives. De bonnes connaissances en mathématiques (optimisation, probabilités / statistique, algèbre linéaire) et une bonne expérience de la programmation sont indispensables pour suivre avec profit cette formation (voir MOOC Fondamentaux pour Big Data).

  • Responsables

    • Anne SABOURIN

      Maître de conférence au sein du Département "Image, Données et Signal" de Télécom Paris, elle consacre ses recherches à l’apprentissage statistique sur des événements rares. Les applications directes de ses recherches concernent la détection d’anomalie et la gestion des risques liés aux valeurs extrêmes.

    • Fabian SUCHANEK

      Professeur à Télécom Paris. Il a fait ses recherches à l’Institut Max Planck en Allemagne, chez Microsoft Research Cambridge/UK, chez Microsoft Research Silicon Valley/USA, et à l’INRIA Saclay. Il est l’auteur principal de YAGO, une des plus grandes bases de connaissances publiques dans le monde.

  • Vidéo

  • Évaluation et certification

    Contrôle des acquis au travers de QCM, de travaux pratiques et d’un projet en entreprise permettant la rédaction d’un mémoire professionnel. Le Certificat d’Etudes Spécialisées « Data Scientist » de Télécom Paris est délivré après validation des contrôles de connaissances et du mémoire professionnel présenté oralement devant un jury.

Prochaine(s) session(s)

Nous contacter pour les sessions à venir