ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Auteurs : soumettez
votre article en ligne
Autres revues >>

Technique et Science Informatiques

0752-4072
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 22/7-8 - 2003  - pp.1011-1034  - doi:10.3166/tsi.22.1011-1034
TITRE
Alignement approximatif d'arbres pour la recherche d'information en contexte dans les données XML hétérogènes

RÉSUMÉ
Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les banques de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est bien adapté à la caractérisation de la recherche de contenu peu structuré (texte, image, séries temporelles) dans les contextes XML définis par les structures d'arbres associées aux documents indexés. Les mécanismes de recherche mis en oeuvre s'appuient sur des principes d'alignement quasi optimaux d'arbres qui exploitent une distance de Levenstein modifiée et sur des heuristiques de fusion d'information. La complexité des algorithmes proposés est étudiée. Une implémentation qui exploite simultanément l'information structurée, i.e. l'arborescence des éléments XML, les relations « attribut/valeur » qui sont attachées à ces éléments, et le contenu texte libre des documents indexés est décrite. Une analyse préliminaire de performance est présentée pour cette implémentation.


ABSTRACT
We propose specific data structures designed to the indexing and retrieval of information elements in heterogeneous XML data bases (originated from a set of WEB pages for instance). The indexing scheme is well suited to the management of various contextual searches, expressed either at a structural level or at an information content level. Search mechanisms are based on context tree matching algorithms that involve a modified Levenstein editing distance and information fusion heuristics. Complexity of main algorithms is studied and performance analyzed. The implementation that is finally described highlights the mixing of structured information presented as field/value instances and free text elements.


AUTEUR(S)
Pierre-François MARTEAU, Gildas MÉNIER

Reçu le 15 juin 2002.    Accepté le 17 mars 2003.

MOTS-CLÉS
XML, base de données hétérogènes, recherche et extraction d'information, fusion d'information, distance d'édition de Levenstein, opérateurs de recherche basés sur des heuristiques.

KEYWORDS
XML, heterogeneous data base, information retrieval, information fusion, Levenstein edition distance, heuristic based operators.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (338 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier