Mémoires de Fin d’Etudes
Etablissement
Université de Laghouat - Amar Telidji
Affiliation
Département d’Informatique
Auteur
YAGOUBI, RACHED
Directeur de thèse
MOUSSAOUI Abdelouahab
Co-directeur
YAGOUBI Mohamed Bachir
Filière
Informatique
Diplôme
Doctorat
Titre
Apprentissage automatique appliqué à la prédiction des structures des séquences biologiques
Mots clés
Apprentissage automatique, Fouille de données, Extraction de connaissance, Séquences Biologiques, ADN, ARN, Protéines, Recherche de motifs, Extraction de profils
Résumé
Prédire donc la structure d’une protéine (la Structure 3D par exemple), permet d’approcher la fonction potentielle qu’elle assure dans la cellule. Outre leurs importances fonctionnelles, les structures secondaires et tertiaires et même quaternaires présentent un intérêt cognitif majeur car elles sont mieux conservées que les séquences au cours de l’évolution. Or, déterminer les différentes structures des protéines expérimentalement est une tâche très lourde, qui peut s’avérer parfois impossible à réaliser. De plus, l’arrivée massive de données provenant des programmes de séquençage à grande échelle impose la nécessité de passer d’une approche biochimique à une approche bioinformatique, et offre en particulier une excellente opportunité de développer les méthodes de prédiction sur des séquences. L’objet de ce projet est donc, dans le contexte de la prédiction de structures des protéines, de mettre en évidence des problèmes génériques difficiles et de proposer des méthodes susceptibles de faire progresser l’état de l’art dans le domaine. Pour ce faire, nous nous appuyons sur des approches relevant de l’apprentissage automatique, à travers la conception et la mise en œuvre, par exemple, de machines à noyau (SVM), de réseaux de neurones récurrents, ainsi que la théorie des automates, avec en particulier l’inférence de machines de reconnaissances probabilistes (automates probabilistes, HMMs, ...) pour la modélisation des différentes interactions des composantes ou sous séquences de d’acides aminés composant les séquences protéiques comme les virus. La proposition de nouveaux modèles de représentations de ces sous-séquences et de leurs itérations spatio-temporelles (sites protéiques en 3D ou 4D) ou même la mise en œuvre combinée des différentes techniques d’apprentissage automatique citées devront en particulier permettre de prendre en compte, par exemple, les dépendances à long terme, encore mal exploitées par les méthodes de prédiction classiques.
Notes
Statut
Validé