FL9BD01
Durée :
26 jour(s)

Présentation
Nous assistons depuis plus d’une dizaine d’années à un véritable « déluge de données » et à l’émergence de nouveaux métiers tel celui de Data Scientist pour lequel la demande des entreprises est croissante. Les avancées technologiques récentes, la numérisation et la diversification des modes de collecte de données (web, réseaux sociaux tels Facebook ou Twitter, téléphones mobiles, vidéo, etc.), permettent aujourd’hui de stocker des quantités massives d’observations dans des « entrepôts » de données parfois gigantesques, de façon distribuée. Ces données sont actualisées de plus en plus souvent en « temps réel ».
La formation certifiante présente les différentes facettes du métier de Data Scientist et permet d’affronter les challenges posés par le Big Data : infrastructure informatique, données, algorithmique, statistique.
Objectifs
- Mettre en œuvre les techniques récentes de gestion et d’analyse de grandes masses de données pour excercer le métier de Data Scientist.
- Identifier et prendre en compte les différents formats des données, modèles, méthodes d’extraction de descripteurs (features) structurels et sémantiques.
- Utiliser et adapter les algorithmes et les techniques d’analyse des données et d’apprentissage statistique.
- Prendre en compte les problématiques de volumétrie et mettre en œuvre les techniques de passage à l’échelle.
-
Programme
Introduction à l'apprentissage statistique
- Objectifs et enjeux de l'apprentissage statistique
- Nomenclature des problèmes
- Formalisme probabiliste
- Régression logistique - loi/vraisemblance conditionnelle - Newton Raphson
- Analyse discriminante linéaire/quadratique
- Le perceptron de F. Rosenblatt
- Méthode des k-plus proches voisins
Bases de données NoSQL
- Concepts de base autour des bases de données distribuées
- MapReduce
- Bases de données clés-valeurs
- Bases de données orientées colonne
- Bases de données orientées document
- Bases de données orientées graphe
- Flux de données
Extraction d'informations du web
- Reconnaissance d'entités nommées
- Désambiguation
- Fact extraction
- Web sémantique
Données multimédia
- Initiation à l'indexation des images
- Initiation à l'indexation des sons
- Étude de cas
Apprentissage supervisé : de la théorie aux algorithmes
- Éléments de la théorie de Vapnik-Chervonenkis
- Arbres de décision
- Réseaux de neurones
- Support Vector Machines
- Boosting
- Lasso
- Apprentissage par renforcement
Techniques avancées pour l'apprentissage : Noyaux et Deep Learning
- Apprentissage en ligne
- Apprentissage statistique distribué
- Techniques d'échantillonnage
Apprentissage non supervisé
- Variables latentes
- Clustering
- Analyse des affinités
- Détection d'anomalies
Réseaux bayésiens/HMM
- Chaînes de Markov cachées
- Réseaux bayésiens
Visualisation de données
- Principes de base de la visualisation d'information
- Critique des techniques de visualisation appliquées à une donnée particulière pour une tâche donnée
- Évaluation des systèmes de visualisation
- Conception de nouveaux outils de visualisation
Stockage à l'échelle du Web
- SGBD relationnels distribués classiques
- Systèmes de fichiers distribués HDFS/GFS
- Stockage à grande échelle
- Stockage clés-valeurs par table de hachage distribuée (Dynamo)
- Stockage par arbre distribué (BigTable, HBase)
- Systèmes NewSQL (Google Spanner, SGBD en mémoire, MySQL Cluster)
Calcul distribué
- MapReduce avancé
- Au-delà de MapReduce : Spark, Stratosphere
- Message Passing Interface
- Calculs distribués sur des graphes : GraphLab, Pregel, Giraph
Apprentissage distribué - Fouille de graphes
- Distribution d'algorithmes d'indexation, d'apprentissage et de fouille
- Index inversé
- Factorisation de matrice
- Échantillonnage
- PageRank
Retour sur la méthodologie du Machine Learning
-
Modalités pédagogiques
- Suivre le MOOC gratuit « Fondamentaux pour le Big Data » en prérequis de la formation
- Cours et travaux pratiques
- Mini-projets inter-sessions
- Retours d’expérience de professionnels
-
Public cible et prérequis
Cette formation s’adresse aux ingénieurs et chefs de projet souhaitant développer leurs compétences dans le domaine de la gestion et l'analyse statistique des données massives pour évoluer vers un poste de Data Scientist, Data Analyst ou Ingénieur Big Data.
De bonnes connaissances en mathématiques (optimisation, probabilités/statistique, algèbre linéaire) et une bonne expérience de la programmation sont indispensables pour suivre avec profit cette formation (voir MOOC Fondamentaux pour Big Data).
-
Responsables
Anne SABOURIN
Maître de conférence au sein du Département "Image, Données et Signal" de Télécom Paris, elle consacre ses recherches à l’apprentissage statistique sur des événements rares. Les applications directes de ses recherches concernent la détection d’anomalie et la gestion des risques liés aux valeurs extrêmes.
Fabian SUCHANEK
Professeur à Télécom Paris. Il a fait ses recherches à l’Institut Max Planck en Allemagne, chez Microsoft Research Cambridge/UK, chez Microsoft Research Silicon Valley/USA, et à l’INRIA Saclay. Il est l’auteur principal de YAGO, une des plus grandes bases de connaissances publiques dans le monde.
-
Vidéo
-
Évaluation et certification
Contrôle des acquis au travers de QCM, de travaux pratiques et d’un projet en entreprise permettant la rédaction d’un mémoire professionnel.
La certification Certificat d’Études Spécialisées « Data Scientist » de Télécom Paris est délivrée après validation des contrôles de connaissances et du mémoire professionnel présenté oralement devant un jury.