Nouvelles perspectives en extraction d'information
L’extraction d’information (EI) est une technologie visant à reconnaître dans un
corpus de documents textuels un ensemble d’informations spécifiques, à les extraire et à les
structurer dans un format prédéfini. L’EI a connu un essor considérable ces dix dernières
années et devrait conduire à des applications industrielles dans un avenir proche. Après une
présentation des principes de cette technologie, cet article décrit les travaux menés dans
notre groupe sur ce thème. Un système opérationnel, ayant permis d’analyser un corpus de
constats d’accidents, y est présenté. Nous montrons ensuite comment les techniques de l’EI
peuvent être exploitées pour de nouvelles tâches de l’informatique documentaire : encodage
sémantique, aide à la lecture, structuration de documents composites. Enfin nous présentons
des travaux en sémantique susceptibles d’améliorer les performances des systèmes actuels.
The aim of Information Extraction (IE) consists in recognizing and extracting a
specific set of information from a corpus of texts, and structuring it in a predefined format.
IE has fostered an increasing interest in the last decade, and is likely to lead to industrial
applications in a close future. After a short presentation of the principles of the technology,
this paper describes researches performed by our group. An operational system, designed for
analysis of car crash reports is presented. Then we show how IE techniques can be used in
new tasks of document processing: semantic encoding, reading assistance, composite
document structuring. Finally we present some work in semantics aimed to improve the
performances of nowadays systems.
M.DUPONT, J.VUILLAUME, B.VICTORRI, P.ENJALBERT, Y.MATHET, N.MALANDAIN
Reçu le 7 juin 1999.
Accepté le 10 janvier 2000.
traitement automatique des langues, extraction d’information, sémantique, encodage sémantique, informatique documentaire.
Natural Language Processing, Information Extraction, Semantics, Semantic Encoding, Information Retrieval.
Français
|