Etablissement
Ecole Nationale Supérieure d'informatique
Affiliation
Département de Post-Graduation
Auteur
SAID LHADJ, Lynda
Directeur de thèse
BOUGHANEM Mohand (Professeur)
Co-directeur
AMROUCHE Karima (Maitre de conférence)
Filière
Informatique
Diplôme
Doctorat
Titre
Recherche Conceptuelle d'Information -Modèles de langue mixtes: concepts-mots
Mots clés
Recherche d'information, modèles de langues, ressource sémantique
Résumé
La approches de RI dites classiques considèrent le contenu d'un document comme un sac de mots sans syntaxe et sans sémantique et traduisent la pertinence d'un document vis-à-vis d'une requête par la plus ou moins grande fréquence des mots de la requête dans le document. De telles approches ne permettent donc pas de prendre en compte les deux phénomènes pourtant fondamentaux en sémantique lexicale que sont la synonymie et la polysémie. Ces deux phénomènes étant structurellement liés. Beaucoup de travaux ont souligné l'insuffisance de cette représentation et ont proposé d'incorporer l'information sémantique dans le processus de recherche d’information. Les plus répandus tentent d’indexer les documents et les requêtes en se basant sur le sens des mots plutôt que les mots en utilisant principalement sur des algorithmes de désambiguïsation pour déterminer les sens des de mots. D'autres ont proposé des approches de désambiguïsation plus élaborées en utilisant des représentations hiérarchiques pour calculer la distance sémantique ou similarité sémantique entre les termes à comparer. Ces approches ont un impact assez varié dans le domaine de la RI. Pour notre part, notre objectif dans le cadre de ce thème est d’aller au-delà de cette vision simpliste en tentant de capturer automatiquement les sens ainsi que les concepts véhiculés dans le document. Cette notion de concepts est assez large et difficile à appréhender, elle va au delà de la simple désambiguïsation souvent investie en RI, mais nous tentons pour notre part de capturer automatiquement tous les éléments qui pourraient concerner un concept en nous appuyant sur des structures de type ontologie, thésaurus/liste hiérarchique.
Statut
Vérifié