Mémoires de Fin d’Etudes
Etablissement
Université de Sidi Bel Abbès - Djillali Liabes
Affiliation
Département d’Informatique
Auteur
CHAIEB, Yazid
Directeur de thèse
Faraoun Kamel Mohammed (Maitre de conférence)
Filière
Informatique
Diplôme
Doctorat
Titre
Optimisation des Algorithmes de Data Mining sur Grille de Calcul
Mots clés
Grid Computing - Data Mining- Optimisation- VLDB- Parallel Processing
Résumé
L’habilité croissante en matière de sauvegarde de données ainsi que les avancées récentes dans le domaine de la recherche d’information en général, et dans celui de la fouille de données ( Data Mining ou encore D.M) en particulier ont récemment abouti à un souci croissant quand à l’efficacité des algorithmes de Data Mining pour une taille de base de données de plus en plus conséquente. La fouille de données vise l’élaboration d’un traitement dans le but de trouver une information inconnue auparavant au sein d’une base de données. Elle peut avoir recours à la combinaison d’informations déduites à partir de fragments ou parties répartis de cette base de données, ce qui donne lieu à un ensemble de critères de performances qui doivent être respectés en matière de rapidité d’exécution et une tolérance à la scalabilité ( extensions futures de cette bases de données) ainsi que des spécificités de la B.D.D qui doivent toujours être prises en compte, comme la politique de sécurité de la B.D.D initiale, le maintien de la confidentialité des données, un temps de réponse opportun, une occupation optimisée des ressources de la grille. Cependant, un algorithme de D.M se doit d’avoir une complexité quine s’accroît pas rapidement quand la taille de la B.D.D vient à augmenter de façon conséquente. L’apport de la grille de calcul réside dans le fait que le calcul peut être effectué de façon indépendante et avec le niveau de parallélisme le plus élevé possible. Le fait que tout soit orienté autour d’une organisation virtuelle (V.O) permet d’exploiter un maximum de ressources pourvu que celle-ci soient disponibles. La gestion dynamique de ces parallélismes donne lieu à des critères supplémentaires relatifs à la performance, comme le temps de communication entre les nœuds, l’efficacité du calcul au niveau de chaque nœud, l’équilibre de la charge et le support de l’extensibilité. Le but de notre thèse consiste à appliquer la théorie d’optimisation aux algorithmes les plus en vue du D.M dans le but d’aboutir à des résultats de haute qualité garantissant l’efficacité, la robustesse et la précision en dépit de la taille de la base de données (nombre conséquent d’itemsets – itemsets de grande taille) sans impacter le coût en terme de ressources dédiées à cette tâche, Donc l’approche abordée dans le contexte de cette thèse est d’optimiser en essayant d’occuper le moins de ressources possibles.
Statut
Validé