Résumé de bases de données. Application au domaine bancaire.
Dans cet article, une approche originale du résumé de données est appliquée à une
base réelle du service marketing d’un groupe bancaire. Le processus de résumé se fonde sur un
algorithme de formation de concepts hiérarchique et incrémental. Les niveaux de la hiérarchie
proposent des vues de l’intégralité de la base selon différentes granularités. Chaque résumé
décrit une partie des données de la base. La représentation des résumés fondée sur la théorie
des ensembles flous donne au système une forte robustesse et une bonne précision, minimisant
l’effet de seuil des méthodes non floues de classification. Le processus de résumé repose également
sur une base de connaissances préalable qui permet une description des données dans
le vocabulaire de l’utilisateur. Quoique notre méthode ne soit pas immédiatement concernée
par les problèmes de performance, sa complexité linéaire et ses faibles besoins en ressource
mémoire lui permettent d’envisager le traitement de grands ensembles de données réelles, ainsi
que le montre l’application présentée.
In this paper, an original approach to database summarization is applied to a massive data set provided by a bank marketing department. The summarization process is based on an incremental and hierarchical conceptual clustering algorithm, building a summary hierarchy from database records. Levels of the hierarchy provide some views with different granularities over the entire database. Each summary describes part of the data set. Furthermore, the fuzzy set-based representation of summaries allows the system to ensure a strong robustness and accuracy regarding the well-known threshold effect of the crisp clustering methods. The summarization process is also supported by some background knowledge, providing a user-friendly vocabulary to describe summaries with a high-level semantics. Even though our method is not immediately concerned with computational performance, its low time and memory requirements makes it appropriate for large real-life databases. The scalability of the process is demonstrated through the application on a banking data set.
R.SAINT-PAUL, G.RASCHIA, N.MOUADDIB
Reçu le 5 février 2003.
Accepté le 3 juin 2003.
résumé de bases de données, extraction de connaissances, logique floue.
database summarization, knowledge discovery, fuzzy logic.
Français
|