Etablissement Université 8 mai 1945 de Guelma Affiliation Département d’Informatique Auteur KELAIAIA, Abdessalem Directeur de thèse M.C

Mémoires de Fin d’Etudes
Etablissement Université 8 mai 1945 de Guelma Affiliation Département d’Informatique Auteur KELAIAIA, Abdessalem Directeur de thèse M.C : H. Seridi (Maitre de conférence) Filière Informatique Diplôme Magister Titre Classification non supervisée de textes arabes appliquée à la recherche documentaire Mots clés textes, langue arabe, classification non supervisée documentaire, clustering documentaire, classification hiérarchique, k-médoïds, stemming, TF-IDF, Recherche documentaire. Résumé La langue arabe a été et reste sujet de diverses recherches vu ses caractéristiques morphosyntaxiques. En effet, et mise à part l’orientation d’écriture qui est de droite à gauche, les deux principales caractéristiques de cette langue sont l’agglutination et la structure très particulière combinant schème et radical. Ces deux caractéristiques ont longtemps posé de problèmes dans le traitement automatique de cette langue. Dans ce mémoire, nous avons appliqué une approche de classification non supervisée ou clustering sur une collection de textes en langue arabe, afin d’étudier la réaction de cette langue à un tel processus. Pour évaluer cette influence, nous avons fait recours à la recherche documentaire (RD). Une recherche documentaire classique emploie, généralement, des méthodes statistiques permettant le traitement des requêtes en langage naturel sur les corpus. Ces méthodes calculent la ressemblance entre la requête introduite et tous les documents du corpus pour fournir une liste ordonnée de documents. Malheureusement, les documents pertinents à la requête sont, généralement, mal positionnés voir inexistant sur cette liste, ce qui ne permet pas à l’utilisateur de les explorer. Dans notre approche, avant d’effectuer une recherche documentaire, le corpus est soumis à une classification non supervisée, ensuite la liste des documents renvoyée est construite à partir des clusters formés selon le principe du plus proche représentant parmi les représentants des clusters par rapport à la requête introduite. Plusieurs paramètres influents tels que le stemming (radicalisation), le nombre de clusters et la méthode de classification non supervisée sont étudiés. Pour effectuer la classification nous avons choisi de tester deux méthodes, la première est la classification hiérarchique par agglomération, la deuxième est la méthode des kmédoïds Date de soutenance Année 2010 Cote 004 Pagination 110 PAGES Illusatration relieure Format PDF Statut Traitée

Etablissement Université 8 mai 1945 de Guelma Affiliation Département d’Informatique Auteur KELAIAIA, Abdessalem Directeur de thèse M.C

Etablissement Université 8 mai 1945 de Guelma Affiliation Département d’Informatique Auteur KELAIAIA, Abdessalem Directeur de thèse M.C

Tags & Categories

Own a Business?