Etablissement
Ecole Nationale Supérieure d'informatique
Affiliation
Département de Post-Graduation
Auteur
DAHAK, Fouad
Directeur de thèse
Mohan BOUGHANEM (Professeur)
Co-directeur
Amar BALLA (Professeur)
Filière
Système d’Information
Diplôme
Doctorat
Titre
Prise en compte de la structure et du contenu des documents semi-structurés pour une recherche focalisée d’information
Mots clés
Recherche d'information, document semi structurés, modèles de langue
Résumé
Ces travaux rentrent dans le cadre de la prise en compte de l’information structurelle et du contenu des documents XML pour mieux identifier l’information pertinente répondant au besoin de l’utilisateur. Les documents XML, par leur structure même, doivent permettre aux Systèmes de Recherche d’Information (SRI) de se focaliser sur l’information pertinente des documents. Les documents peuvent en effet posséder des contenus hétérogènes, délimités par de l’information structurelle. Cette information structurelle peut alors servir aux SRI à traiter l’information textuelle avec une autre granularité que le document tout entier. Leur but est alors de retrouver des unités d’information (et non plus des documents) pertinentes à une requête utilisateur. Ces unités doivent se suffire à elles-mêmes pour répondre à la requête, et pourront être présentées telles quelles à l’utilisateur (on ne cherche pas à lui fournir un point d’entrée dans le document, mais au contraire à lui donner une unité d’information ne dépendant pas d’une autre pour être comprise). Les unités d’information doivent donc répondre de manière exhaustiveet spécifiqueau besoin de l’utilisateur. La structure du document combinée avec le contenu peut également servir pour identifier des caractéristiques du document pouvant être utiles lors de l’interrogation. Ces caractéristiques sont par exemple : le profil du document (document orienté donné, ou document orienté texte), et sa thématique (sport/art/culture), etc. La question posée est alors comment peut-on utiliser les différentes sources d’évidence liées au contenu et à la structure du document pour répondre efficacement à l’utilisateur ? C’est dans cette perspective que se situent ces travaux, leur objectif est de proposer des approches permettant de mieux prendre en compte la structure et le contenu des documents pour mieux identifier le contexte (la thématique du document) et également identifier le granule d’information répondant de manière exhaustive et spécifique à l’utilisateur).
Statut
Vérifié