Etablissement Université d’Oran1 - Ahmed Ben Bella Affiliation Département d’Informatique Auteur FYAD, Houda Directeur de thèse BOUAMRANE

Mémoires de Fin d’Etudes
Etablissement Université d’Oran1 - Ahmed Ben Bella Affiliation Département d’Informatique Auteur FYAD, Houda Directeur de thèse BOUAMRANE K. (Maitre de conférence) Co-directeur ATMANI B. (Maitre de conférence) Filière Informatique et Automatique Appliquée Diplôme Magister Titre Technique de Bio-Mining pour la représentation, la gestion etl’extraction des informations associées aux séquences d’ADN Mots clés Fouilles de textes; Ontologie; Corpus de textes; Extraction terminologique; Champignons modèles; Neurospora crassa; Podospora anserina;Expressed Sequence Tags (EST); Clustering. Résumé Un des problèmes majeurs rencontré par les biologistes, est l’extraction et l’exploitation des données qui les intéressent à travers les multiples ressources disponibles sur le Web. Ce problème n’est pas simple en raison de la multiplicité des ressources, l’hétérogénéité et la variabilité des formats, les mises à jour inégales, la redondance des nomenclatures, etc. Par conséquent, un recours à la fouille de données pour l’extraction de données particulières apporterait une solution à ce problème. Ainsi, la fouille de données ou plus particulièrement la fouille de textes dans notre cas d’application, est un domaine de recherche qui vise à résoudre les problèmes de surcharge d’informations et à faciliter la découverte de connaissances cachées dans les documents. En effet, la plupart des informations exploitées par les biologistes sont sous forme textuelle et écrites en langage naturel à partir desquelles il s’agit d’extraire les éléments susceptibles de constituer des connaissances pertinentes de telle sorte qu’un biologiste puisse obtenir des réponses claires à une requête spécifique. Traditionnellement, deux approches permettent une telle extraction : L’approche linguistique basée sur la définition de patrons lexico syntaxiques. L’approche statistique basée sur la découverte des termes-clés. Dans le contexte de notre application qui vise à exploiter les informations en langage naturel associées à des données biologiques de séquences biologiques, les ESTs (Expressed Sequence Tags), nous avons utilisé un extracteur de termes-clés, basé sur des principes statistiques appelé Automatic Keyphrase Extraction (K.E.A). Ensuite, nous avons construit quatre ontologies à partir de termes extraits afin de représenter les connaissances associées aux séquences issues des deux champignons modèles Neurospora crassa et Podospora anserina. Enfin, avec l’utilisation du clustering, nous montrons comment les termes des ontologies obtenues peuvent être exploités pour l’évaluation du niveau d’expression des gènes. Date de soutenance 2011 Cote TH3458 Pagination 162F. Illusatration ILL. EN COUL Format 30 cm Notes RESUME ET MOTS CLES EN FRANCAIS EN ANGLAIS. BIBLIOG.134-141F.ANNEXES 144-162F. Statut Soutenue

Etablissement Université d’Oran1 - Ahmed Ben Bella Affiliation Département d’Informatique Auteur FYAD, Houda Directeur de thèse BOUAMRANE

Etablissement Université d’Oran1 - Ahmed Ben Bella Affiliation Département d’Informatique Auteur FYAD, Houda Directeur de thèse BOUAMRANE

Tags & Categories

Own a Business?