Mémoires de Fin d’Etudes
Etablissement
Université de Sétif 1 - Ferhat Abbas
Affiliation
Département de Mécanique de Précision
Auteur
BENMAHDI, Dalila
Directeur de thèse
Felkaoui ahmed (Maitre de conférence)
Co-directeur
Hamouda abdellatif (Professeur)
Filière
Optique et Mécanique de Précision
Diplôme
Doctorat LMD
Titre
Contribution à l’étude du diagnostic des défauts mécaniques par classification non supervisée
Mots clés
Classification par partitionnement, K-means, Cartes de Kohonen, algorithme "EM" (Expectation Maximization), Classification floue, Classification hiérarchique, recherche du nombre de classes, graphe des distances, variance intra-classe, variance inter-classe, F de Fisher , T² de Hotelling, AIC, BIC,…
Résumé
Le but ultime de la classification non supervisée (ou "classification automatique", ou "clustering", ou "regroupement") est d’identifier les k populations et donc d’affecter à chaque observation une "étiquette de classe" qui matérialise l’appartenance de l’observation à l’une d’entre elles. De plus, on souhaite pouvoir également affecter à toute nouvelle observation une étiquette de classe. La recherche du nombre approprié de classes est toujours une phase indispensable dans la construction d’une classification de données, mais elle est longue et souvent ambiguë. Il n’y a pas de formule permettant de calculer ce nombre à partir des données. La recherche se fait par essais et erreurs. Une même technique est utilisée à plusieurs reprises avec un nombre croissant de classes, et pour chaque nouvelle partition obtenue, on calcule la valeur d’un critère de qualité. Le nombre de classes retenu est celui qui conduit à la meilleure valeur de ce critère. Parmi les critères les plus utilisés, mentionnons : • Divers indices comparant la variance intra-classe à la variance totale (R-Square, Semi-partial R-Square, Root-Mean-Square, Standard Deviation...). • Des indices "pseudo-statistiques", comme le F de Fisher ou le T² de Hotelling, utilisés hors du contexte où ces grandeurs ont une distribution connue, et donc une signification statistique. • Des indices dérivés des indices classiques des modèles linéaires (principalement AIC et BIC). Le but de cette étude est de comparer la recherche du nombre de classes par les méthodes ci-dessus et les méthodes d’optimisation heuristiques telles que : les algorithmes génétiques, le recuit simulé, les colonies de fourmis,… pour pouvoir quantifier la qualité d’une partition puisque aucun critère n’est universellement satisfaisant.
Statut
Vérifié