Mémoires de Fin d’Etudes
Etablissement
Université de Laghouat - Amar Telidji
Affiliation
Département d’Informatique
Auteur
Lakhdari, Abdallah
Directeur de thèse
Cherroun.H (Maitre de conférence)
Co-directeur
Nehar.A
Filière
Informatique
Diplôme
Magister
Titre
Etude statistique des documents Web en langue Arabe
Mots clés
TALN, Linguistique informatique, Web, Analyse morphologique, Langue Arabe, Apprentissage automatique, Statistique, non supervis ee, Mot, Racine.
Résumé
Le Traitement Automatique des Langues Naturelles -TALN-, est un domaine de recherche multidisciplinaire regroupant l’informatique et la linguistique. Ses applications ne cessent de s’accroitre et leurs importances dans notre vie de tous les jours prennent de l’ampleur. Le traitement hi erarchique dans le processus TALN se compose principalement d’analyse morphologique, syntaxique et s emantique. Dans ce travail, nous nous sommes int eress es au niveau "analyse morphologique". Vu que c’est une etape cruciale qui s’int eresse a l’ etude de la structure des mots de la langue. En e et, nous avons instrument e les solutions d’apprentissage automatique non supervis e ainsi qu’aux statistiques pour d evelopper un mod ele statistique pour capter les r egularit es de la structure des mots en langue Arabe. Le mod ele statistique a et e entrain e a l’aide du corpus OSAC; un corpus compos e de milliers de documents Web en langue Arabe comportant plus de 18 millions mots. Nous avons aussi con cu un analyseur morphologique non supervis e pour l’extraction de la racine tri-litt erale. Les r esultats obtenus montrent que notre analyseur atteint une pr ecision de 65%. Ils sont meilleurs que ceux obtenus par les analyseurs de m^eme cat egorie. Ces r esultats sont m^eme comp etitive avec ceux des analyseurs supervis es exigeants beaucoup de connaissance linguistique co^uteuses.
Date de soutenance
29/06/2013
Cote
THL10.130
Pagination
I-V-92p
Illusatration
ill.graph.;tabl.fig.
Format
29cm
Notes
Bibliogr.Annexes
Statut
Soutenue