Data science : introduction au machine learning

Stage inter entreprise

Présentation

Les sciences de l’information transforment aujourd’hui de nombreux domaines tels que la médecine, la finance, le marketing, la défense ou encore la sécurité. La capacité à traiter et analyser des données de très grande dimension, souvent massives (big data) est un enjeu majeur dans ces secteurs d’activités. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données s'appelle le machine learning. A l’interface des mathématiques appliquées et de l’informatique, elle vise à produire des outils de prédiction et d'aide à la décision, automatiquement, à partir d’un apprentissage sur des données et des évènements. L'apparition d'algorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les support vector machines (SVM) dans le milieu des années 90, a progressivement transformé le champ occupé jusqu'alors par la statistique traditionnelle. Celle-ci s'appuyait en grande partie sur le prétraitement réalisé par l'opérateur humain.
Cette formation présente le domaine et ses fondements. Ses problèmes et ses méthodes les plus récentes sont également étudiés. Les concepts sont illustrés par des applications variées (filtres anti-spam, CRM, détection d’anomalies).

Objectifs

Acquérir des bases solides dans le domaine du machine learning. Comprendre la nature des problèmes traités par les techniques d'apprentissage, les principes de base de la théorie (minimisation du risque, pénalisation, convexification), les heuristiques des algorithmes majeurs en machine learning, les règles expérimentales permettant de comparer les performances de différentes techniques d'apprentissage. Apprendre à mettre en place des plans expérimentaux, mettre en œuvre les algorithmes d'apprentissage sur des données réelles ou simulées, interpréter les règles prédictives obtenues et mesurer leur performance.

Stage

Programme

Introduction au machine learning et à la théorie de l'apprentissage

Problèmes supervisés, non supervisés, batch, on-line
Principe de la minimisation du risque empirique
Evaluation des performances – design expérimental
Sélection de modèles

Travaux pratiques

Mise en œuvre d'algorithmes « classiques » – perceptron, arbres de décision, réseaux de neurones
Application des principes de validation croisée, des méthodes de ré-échantillonnage (bootstrap)

Méthodes avancées en machine learning et apprentissage

Convexification, agrégation
Boosting, forêts aléatoires, machines à vecteurs de support
Méthodes de sélection de variables pour la régression
Big Data : échantillonnage, apprentissage distribué, graph mining

Travaux Pratiques

Mise en œuvre d'algorithmes de machine-learning « avancés »

Application de techniques récentes pour l'apprentissage non supervisé

Synthèse et conclusion

Modalités pédagogiques

La formation comprend des travaux pratiques qui permettent de valider les notions abordées. Ces travaux pratiques utilisent des packages Python.

Public cible et prérequis

Ingénieurs et techniciens ayant besoin de méthodes d'apprentissage pour automatiser des tâches (prédiction, décision, etc.) de manière performante. Chefs de projets qui souhaitent mieux identifier les tâches que le machine learning permettrait d'automatiser.

Avoir des connaissances de base dans le domaine des mathématiques (analyse, statistique, optimisation) et une expérience de la programmation, de préférence en python est nécessaire pour tirer un meilleur profit de la formation.

Responsables

Stephan CLEMENCON

Professeur au département "Traitement du Signal et de l'Image" de Télécom ParisTech, ses recherches portent sur la théorie statistique de l'apprentissage. Il est coordinateur de la chaire "Machine Learning for big data" et enseigne le "machine-learning" à Télécom ParisTech, à l'ENSAE ParisTech, à l'Université Paris 7 et à l'ENS Cachan.

Code : FC9BD04

Prix : 1345 €

Durée : 2 jour(s)

Sessions

22 au 23 septembre 2016

à Paris

Contact

N° Vert

0800 880 915

International : 33 (0)1 45 81 70 91

Nous écrire

Financement

Financer votre formation