Etablissement Université de Tlemcen - Abou Bekr Belkaid Affiliation Département d’informatique Auteur SAIDI, Meryem Directeur de thèse CHIKH

Mémoires de Fin d’Etudes
Etablissement Université de Tlemcen - Abou Bekr Belkaid Affiliation Département d’informatique Auteur SAIDI, Meryem Directeur de thèse CHIKH Mohammed EL Amine (Professeur) Filière Intelligence Artificielle et Génie Logiciels Diplôme Doctorat Titre Traitement des données biologiques par les méthodes ensemblistes Mots clés Sélection d’instances, méthodes ensembliste, forêt aléatoire, marge ensembliste, reconnaissance automatique des globules blancs, images cytologique. Résumé Le développement des modèles de classiﬁcation est l’une des principales tâches dans le domaine de data mining. Toutefois, le volume élevé de données générées par différents domaines de recherche, allant du séquençage du génome humain, qui permet d’obtenir des niveaux d’expressions de plusieurs milliers de gènes, aux millions d’informations circulant sur internet rend l’utilisation des méthodes d’apprentissage automatique un vrai déﬁ. D’où la nécessité d’une étape de prétraitement aﬁn de préparer la base aux algorithmes d’apprentissage. L’induction d’un modèle de classiﬁcation pour le diagnostic avec autant d’instances et de variables est un déﬁ majeur dans le domaine de l’apprentissage statistique. D’où la nécessité de réduire ce nombre. Parmi les processus de prétraitements applicables sur une base, nous trouvons les méthodes de réduction : les algorithmes de sélection d’instances et de variables. Le sujet de cette thèse est orienté vers la recherche de méthodes efﬁcaces de traitements des données médicales et biologiques. Nous nous sommes principalement intéressés à l’application d’une méthode de sélection d’instances pour nettoyer et réduire la base d’apprentissage avant la conception du classiﬁeur. Au cours de nos recherches, nous avons pu étudier les différentes approches existantes ainsi que leur avantages et limitations. Nous nous sommes intéressés aux méthodes ensemblistes aﬁn de pallier les problèmes rencontrés par les méthodes de sélection classiques. Les méthodes ensemblistes sont un ensemble d’algorithmes qui s’inspire du principe « l’union fait la force », en effet ces méthodes combinent les décisions individuelles de plusieurs algorithmes de classiﬁcation faibles aﬁn d’améliorer leurs performances pour classer de nouveaux exemples. Un algorithme de sélection d’instances basé sur les algorithmes ensemblistes et notamment sur l’algorithme Forêt aléatoire a été implémenté. Nous avons testé notre proposition sur plusieurs problèmes de classiﬁcation de UCI Machine Learning Repository ainsi que sur une base d’image cytologique aﬁn d’optimiser la segmentation automatique de globules blancs. Les résultats obtenus démontrent que notre proposition est aussi performante que les méthodes existantes tout en étant moins coûteuse. Statut Validé

Etablissement Université de Tlemcen - Abou Bekr Belkaid Affiliation Département d’informatique Auteur SAIDI, Meryem Directeur de thèse CHIKH

Etablissement Université de Tlemcen - Abou Bekr Belkaid Affiliation Département d’informatique Auteur SAIDI, Meryem Directeur de thèse CHIKH

Tags & Categories

Own a Business?