FC9BD10

Stage inter entreprise

Prix 2020 :

2 000 €

Comment financer sa formation ?

Durée :

3 jour(s)

Prochaine(s) session(s)

  • Du 07/12/2020 au 09/12/2020 à Paris - 2 000 €

Présentation

Les données linguistiques ont cela de particulier qu’elles sont «semi-structurées» : elles possèdent une structure profonde mais implicite, qui se base sur la connaissance d’une (ou plusieurs) langue(s) donnée(s). Le traitement automatique de langue et la fouille de texte (text mining) ont pour but de permettre l’extraction d’informations et de connaissances de ces données. Elles sont donc d’importance capitale pour les entreprises qui manipulent des données textuelles (Web, échanges avec les clients, rapports, documentation, etc.).

Objectifs

  • Présenter les outils de traitement de langue, qu’ils soient basés sur des méthodes statistiques ou sur de méthodes formelles.
  • Identifier, à l’aide des connaissances linguistiques, les défis à relever et les approches utilisées par les outils, et mieux les évaluer et les faire adapter à chaque type de problème. L’exploration d’outils aussi bien statistiques (approches fréquentistes, similarité sémantique, plongements) que formels (langages formels, logiques de premier ordre et de description, lambda-calcul, ontologies) permet de comparer et de combiner ces deux approches, et d’imaginer des solutions hybrides selon la complexité et les contraintes spécifiques à chaque tâche.
  • Programme

    Introduction à la linguistique

    • Différentes couches d’étude de la langue :
      • phonétique/graphématique, phonologie, morphologie, syntaxe, sémantique, pragmatique. La syntaxe par dépendances
    • Différente approches de l’étude du sens
    • La base de données lexicale WordNet
    • Analyse de concepts formels, ontologies et graphes conceptuels
    • Analyse du discours (DRT). Implicatures et maximes de coopération de Grice.
    • Sentiments, opinions, argumentation
    • Classification des actes de langage et le langage figuratif

    Approches statistiques

    • Désambiguïsation de mot, différentes approches
    • Correction orthographique
    • Extraction d’information
    • Classification supervisée de textes
    • Similarité et parenté sémantiques
    • Classification non supervisée de textes
    • Introduction aux réseaux de neurones profonds (deep learning), plongements de mots et de documents, application des réseaux convolutifs au texte brut.
    • Travaux pratiques
      • Étude d’un corpus de critiques de films (IMDB).
      • Lemmatisation/analyse syntaxique à l’aide de la librairie Python SpaCy
      • Utilisation de SentiWordNet pour la classification des critiques
      • Utilisation de réseaux de neurones sur le même corpus de textes, comparaison des résultats. Possibilité d’approche hybride (plongement d’arbres syntaxiques)

    Approches formelles

    • Langages formels et principe de compositionnalité
    • Syntaxe par constituants
    • Grammaires formelles stochastiques
    • Inférence grammaticale
    • Logique du premier ordre, lambda-calcul, sémantique formelle de Montague
    • Logiques modales
    • Logiques de description, RDF, OWL, langages contrôlés

     

    • Travaux pratiques
      • Modélisation de la langue par des grammaires formelles
      • Utilisation de la librairie Python NLTK
      • Lambda-calcul
      • Logique typée
      • Implémentation de la sémantique formelle de Montague en Python (noms propres, noms, verbes, adjectifs, coordination, quantification, articles indéfinis, articles définis)
  • Modalités pédagogiques

    La formation comprend des travaux pratiques qui permettent d'appliquer les notions abordées.

  • Public cible et prérequis

    Ingénieurs, chefs de projet devant traiter des données textuelles.

    Des connaissances du langage Python sont requises pour suivre cette formation avec profit.

  • Responsables

    • Yannis HARALAMBOUS

      Directeur d'études à IMT Atlantique. Ses domaines d’enseignement et de recherche portent sur le traitement automatique de la langue, la fouille de texte, les langages contrôlés/hybrides, le document électronique et l’internationalisation.

    • Ali Derya CAN

      Data scientist chez La Mètis, leader du conseil stratégique par investigation du Web.

Prochaine(s) session(s)

  • Du 07/12/2020 au 09/12/2020 à Paris - 2 000 €