FC9BD07

Stage inter entreprise

Prix 2020 :

1 500 €

Comment financer sa formation ?

Durée :

2 jour(s)

Prochaine(s) session(s)

  • Du 06/07/2020 au 07/07/2020 à Paris - 1 500 €

Présentation

L’extraction d’informations est la science de transformer les documents textuels du Web en informations structurées qui peuvent être comprises par l’ordinateur. Elle sert notamment à construire des bases de connaissances, qui sont appliquées dans les moteurs de recherche et les assistants intelligents. Un moteur de recherche permet de trouver des pages Web à partir des mots clés. Avec des entreprises comme Google, Microsoft, et Baidu, la recherche est un marché de plusieurs milliards d'euros par an.

Objectifs

Mettre en œuvre les solutions de la représentation des connaissances. Utiliser et adapter les algorithmes les plus importants d’extraction d’informations.

  • Programme

    Introduction

    Représentation des connaissances

    • Représentation des entités
    • Représentation des classes
    • Représentation du monde réel
    • Représentation sous forme de graphe

    Reconnaissance d'entités nommées

    • Expressions régulières
    • Structures de données
    • Algorithmes de traitement de texte à l'échelle

    Evaluation

    • Evaluation des résultats d'un algorithme
    • Design de méthodes d'extraction d'information

    Désambiguation

    • Prior
    • Similarité
    • Cohérence

    Extraction des instances

    • Set Expansion
    • Patterns de Hearst

    Extraction des faits

    • Principe itératif de DIPRE

    Web sémantique

    • RDF
    • RDFS
    • URI

    Synthèse et conclusion

  • Modalités pédagogiques

    La résolution d'un problème concret d'extraction d'informations est mise en œuvre au cours de travaux pratiques.

  • Public cible et prérequis

    Ingénieurs, chefs de projet, data scientists, intéressés par les moteurs de recherche et l’extraction de données du web.

    Des connaissances de base en programmation (Python), et en logique sont requises pour suivre cette formation.

  • Responsables

    • Fabian SUCHANEK

      Professeur à Télécom Paris. Il a fait ses recherches à l’Institut Max Planck en Allemagne, chez Microsoft Research Cambridge/UK, chez Microsoft Research Silicon Valley/USA, et à l’INRIA Saclay. Il est l’auteur principal de YAGO, une des plus grandes bases de connaissances publiques dans le monde.

Prochaine(s) session(s)

  • Du 06/07/2020 au 07/07/2020 à Paris - 1 500 €