Mémoires de Fin d’Etudes
Etablissement
Université de M’Sila - Mohamed Boudiaf
Affiliation
Institut d’Informatique
Auteur
CHALABI, Baya
Directeur de thèse
Prof . Slimani Yahya (Professeur)
Filière
Informatique
Diplôme
Magister
Titre
Mise en œuvre d’une solution Cloud Computing avec le modèle MapReduce
Mots clés
Mots clés: Système à large échelle, Cloud Computing, MapReduce.KmeansClustering, CloudSim. كلمات المفاتيح: نظم الكمبيوتر على نطاق كبير ، السحابة المعلوماتية ، تجميع ، k-means Clustering .CloudSim Keywords: Large scale system, Cloud Computing, MapReduce, KmeansClustering, CloudSim.
Résumé
Depuis quelques années, les systèmes informatiques à large échelle sont بالفرنسية، apparus a_n de répondre aux demandes de stockage élevées, de calcul intensif et d’applications utilisant de très larges ensembles de données. L’émergence du Cloud Computing offre un potentiel pour l’analyse et le traitement de larges ensembles de données. MapReduce est l’un des modèles de programmation les plus populaires qui est utilisé pour soutenir le développement de telles applications. Il a été initialement créé par Google pour mettre en place de grands centres de données (datacenters) à large échelle, afin de fournir des services de recherche Web stables avec une réponse rapide et une haute disponibilité. Dans ce rapport, nous allons tester l’algorithme de clustering K-means Clustering dans un Cloud Computing. Cet algorithme est implémenté selon le modèle MapReduce. Cet algorithme a été choisi parce qu’il a des caractéristiques représentatives de nombreux algorithmes itératifs d’analyse de données et MapReduce n’est pas intrinsèquement conçu pour les algorithmes itératifs. Puis nous allons simuler l’exécution de K-means Clustering dans différents Clouds Computing, qui varient selon la taille et les caractéristiques des infrastructures utilisées. Les expérimentations montrent que l’implémentation de K-means Clustering donne des bons résultats surtout pour de larges ensemble de données et l’infrastructure de Cloud Computing a une influence sur ces résultats. الملخص : بالعربية، في السنوات الأخيرة ، ظهرت أنظمة الكمبيوتر ذات النطاق الواسع لتلبية الحاجة لاستعمال مطالب التخزين الكبيرة ، والحوسبة الفائقة، والتطبيقات التي تستخدم مجموعات البيانات الكبيرة جدا ، ظهور السحابة المعلوماتية وفر إمكانية تحليل وتجهيز مجموعات البيانات الكبيرة . البرمـجة الأكثر شعبيــة الذي يستخدم لدعم تطويــــــــر هـذه التطبيقــــــــــــات هو نموذج MapReduce وقد صمم في البداية من طرف جوجل لبناء مراكز البيانات الكبيرة على نطاق واسع وذلك لتقديم خدمات البحث علـى الشبكة العالمية مع الاستجابة السريعة وزيادة التوافر. في هذا التقرير سوف نقوم باختبار تنفيذ خوازمية التجميع : ، MapReduce في السحابة المعلوماتية ، ويتم تنفيذ وبرمجة هذه الخوارزمية على k-means Clustering وقد تم اختيار هذا النموذج لخصائصه التي تمثل العديد من تطبيقات تحليل البيانات التكرارية . بعد ذلك قمنا بمحاكاة تنفيذ في سحابات معلوماتية مختلفة ، اعتمادا على حجمها وخصائص المنصات المستهدفة. k-means Clustering تعطي نتائج جيدة وخاصة بالنسبة لمجموعة البيانــــــــــــات الكبيرة ، k-means Clusteringوتظهر التجربة أن تنفيذ كما أن البنية التحتية للسحابة المعلوماتية لها تأثير على هذه النتائج بالإنجليزية ، In recent years, large scale computer systems have emerged to meet the demands of high storage, supercomputing, and applications using very large data sets. The emergence of Cloud Computing offers the potentiel for analysis and processing of large data sets. Mapreduce is the most popular programming model which is used to support the developement of such applications. It was initially designed by Google for build large datacenters on a large scale, to provide Web search services with rapid response and high availability. In this report we will test the clustering algorithm K-means Clustering in a Cloud Computing. This algorithm is implemented on MapReduce. It has been choosen for its characteristics that are representative of many iterative data analysis algorithms. Then, we simulate the execution of K-means Clustering on diferent Cloud Computing, depending on their size and characteristics of target platforms. The experiment show that the implementation of K-means Clustering gives good results especially for large data set and the Cloud infrastructure has an infuence on these results.
Date de soutenance
22/10/2012
Pagination
94 p
Illusatration
reié
Format
30 cm
Notes
une copier papier +un cdrom
Statut
Soutenue