Etablissement
Ecole Nationale Supérieure d'informatique
Affiliation
Département de Post-Graduation
Auteur
LOUKAM, Mourad
Directeur de thèse
LASKRI Mohamed Tayeb (Professeur)
Co-directeur
BALLA Amar (Professeur)
Filière
Informatique
Diplôme
Doctorat
Titre
Vers une plateforme d’analyse des textes arabes basée sur le formalisme HPSG
Mots clés
HPSG, Analyse, Langue Arabe, Formalisme syntaxique, Plate-forme
Résumé
Les formalismes d’unification, et notamment HPSG (Head-driven Phrase Structure Grammar ou Grammaires syntagmatiques dirigées par la tête), connaissent actuellement un essor remarquable dans le domaine du TALN . Les raisons d’un tel succès sont, entre autres : • Richesse et uniformisation de la représentation des unités linguistiques : les informations morphologiques, syntaxiques et même sémantiques se retrouvent ensemble dans une même structure : la structure de traits. • Universalité : en théorie, HPSG peut s’appliquer à toutes les langues naturelles, grâce à la formalisation des « principes » et des « schémas ». • HPSG semble bien adapté au traitement informatique, dont elle reprend directement certaines idées (héritage, typage). Plusieurs outils se réclamant plus ou moins des formalismes d’unification existent ; on peut citer entre autres : LKB (université de Cambridge), TRALE (Université de Breme /Allemagne), Enju (Université de Tokyo), Babel (Université de Berlin) . La principale remarque qu’on peut faire concernant ces outils est leur limitation par rapports aux niveaux d’analyse traités : à titre d’exemple, le système LKB ne possède pas un analyseur morpho-lexical (pourtant première étape essentielle à toute analyse d’un texte). Par ailleurs, il semble que ces outils s’adaptent peu à la langue arabe du fait de ses spécificités. L’originalité du sujet de thèse proposé est de proposer une plate-forme d’analyse conçue sur la base d’une intégration des principaux modules concernés par la chaîne d’analyse d’un texte arabe. L’objectif premier de la plate-forme est de produire une analyse en format HPSG d’un texte en arabe standard. La conception de la plate-forme privilégiera : 1. L’ouverture, autant que possible, au niveau des différents modules et ressources (paramètres, système de signes, de règles, …) , pour permettre le développement d’autres applications de TALN pour l’arabe sollicitant tout ou partie de la chaîne d’analyse de la plate-forme. 2. L’orientation open-source, pour respecter cette orientation, qui s’impose de plus en plus comme éthique dans le domaine de la recherche, il sera fait recours aux outils de développement open-source.
Statut
Vérifié