Mémoires de Fin d’Etudes
Etablissement
Université d’Oran1 - Ahmed Ben Bella
Affiliation
Département d’Informatique
Auteur
FYAD, Houda
Directeur de thèse
BOUAMRANE K. (Maitre de conférence)
Co-directeur
ATMANI B. (Maitre de conférence)
Filière
Informatique et Automatique Appliquée
Diplôme
Magister
Titre
Technique de Bio-Mining pour la représentation, la gestion etl’extraction des informations associées aux séquences d’ADN
Mots clés
Fouilles de textes; Ontologie; Corpus de textes; Extraction terminologique; Champignons modèles; Neurospora crassa; Podospora anserina;Expressed Sequence Tags (EST); Clustering.
Résumé
Un des problèmes majeurs rencontré par les biologistes, est l’extraction et l’exploitation des données qui les intéressent à travers les multiples ressources disponibles sur le Web. Ce problème n’est pas simple en raison de la multiplicité des ressources, l’hétérogénéité et la variabilité des formats, les mises à jour inégales, la redondance des nomenclatures, etc. Par conséquent, un recours à la fouille de données pour l’extraction de données particulières apporterait une solution à ce problème. Ainsi, la fouille de données ou plus particulièrement la fouille de textes dans notre cas d’application, est un domaine de recherche qui vise à résoudre les problèmes de surcharge d’informations et à faciliter la découverte de connaissances cachées dans les documents. En effet, la plupart des informations exploitées par les biologistes sont sous forme textuelle et écrites en langage naturel à partir desquelles il s’agit d’extraire les éléments susceptibles de constituer des connaissances pertinentes de telle sorte qu’un biologiste puisse obtenir des réponses claires à une requête spécifique. Traditionnellement, deux approches permettent une telle extraction : L’approche linguistique basée sur la définition de patrons lexico syntaxiques. L’approche statistique basée sur la découverte des termes-clés. Dans le contexte de notre application qui vise à exploiter les informations en langage naturel associées à des données biologiques de séquences biologiques, les ESTs (Expressed Sequence Tags), nous avons utilisé un extracteur de termes-clés, basé sur des principes statistiques appelé Automatic Keyphrase Extraction (K.E.A). Ensuite, nous avons construit quatre ontologies à partir de termes extraits afin de représenter les connaissances associées aux séquences issues des deux champignons modèles Neurospora crassa et Podospora anserina. Enfin, avec l’utilisation du clustering, nous montrons comment les termes des ontologies obtenues peuvent être exploités pour l’évaluation du niveau d’expression des gènes.
Date de soutenance
2011
Cote
TH3458
Pagination
162F.
Illusatration
ILL. EN COUL
Format
30 cm
Notes
RESUME ET MOTS CLES EN FRANCAIS EN ANGLAIS. BIBLIOG.134-141F.ANNEXES 144-162F.
Statut
Soutenue