Data science : introduction au machine learning


Présentation
Les sciences de l’information transforment aujourd’hui de nombreux domaines tels que la médecine, la finance, le marketing, la défense ou encore la sécurité. La capacité à traiter et analyser des données de très grande dimension, souvent massives (big data) est un enjeu majeur dans ces secteurs d’activités. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données s'appelle le machine learning. A l’interface des mathématiques appliquées et de l’informatique, elle vise à produire des outils de prédiction et d'aide à la décision, automatiquement, à partir d’un apprentissage sur des données et des évènements. L'apparition d'algorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les support vector machines (SVM) dans le milieu des années 90, a progressivement transformé le champ occupé jusqu'alors par la statistique traditionnelle. Celle-ci s'appuyait en grande partie sur le prétraitement réalisé par l'opérateur humain.
Cette formation présente le domaine et ses fondements. Ses problèmes et ses méthodes les plus récentes sont également étudiés. Les concepts sont illustrés par des applications variées (filtres anti-spam, CRM, détection d’anomalies).
Objectifs
Acquérir des bases solides dans le domaine du machine learning. Comprendre la nature des problèmes traités par les techniques d'apprentissage, les principes de base de la théorie (minimisation du risque, pénalisation, convexification), les heuristiques des algorithmes majeurs en machine learning, les règles expérimentales permettant de comparer les performances de différentes techniques d'apprentissage. Apprendre à mettre en place des plans expérimentaux, mettre en œuvre les algorithmes d'apprentissage sur des données réelles ou simulées, interpréter les règles prédictives obtenues et mesurer leur performance.
