- Ecole Nationale Polytechnique - Bibliothèque - Ouamour Siham - Indexation automatique des documents audio en vue d'une classification par locuteurs : Application à l'archivage des emissions TV et radio

Business Listing - April 01, 2020

- Ecole Nationale Polytechnique - Bibliothèque - Ouamour Siham - Indexation automatique des documents audio en vue d'une classification par locuteurs : Application à l'archivage des emissions TV et radio

Etablissement Ecole Nationale Polytechnique Affiliation Bibliothèque Auteur Ouamour, Siham Directeur de thèse Guerti, Mhania Filière Electronique Diplôme Doctorat Titre Indexation automatique des documents audio en vue d'une classification par locuteurs : Application à l'archivage des emissions TV et radio Mots clés Electronique Indexation audio Segmentation de la parole Fusion des classifieurs Classifieurs statistiques Réseaux de neurones SVM Résumé Ce travail de thèse s’intéresse à l’indexation des émissions radio et télé-diffusées en classes de locuteurs, dans le but d’obtenir un archivage hiérarchique des interventions audio en fonction des différents locuteurs. La tâche d’indexation fait appel à deux disciplines différentes, la première s’intéresse à découper le flux audio en segments homogènes: c’est la segmentation, tandis que la deuxième tâche consiste à identifier les différents segments ou bien les regrouper en classes de locuteurs: c’est l’étiquetage ou le regroupement. Pour arriver à cette fin, nous avons proposé et implémenté deux systèmes: • Le premier s’intéresse à l’indexation avec connaissances a priori des locuteurs où les identités des différents locuteurs, sont connues à l’avance par le système; • Le deuxième traite la tâche d’indexation sans aucune connaissance des modèles des locuteurs. Pour réaliser le premier système, nous avons développé un nouvel algorithme d’indexation que nous avons appelé ISI (Interlaced Speech Indexing). Ce dernier est basé sur une indexation entrelacée en utilisant les mesures SOSM (Mesures Statistiques du Second Ordre). Pour le second système, nous avons développé une nouvelle caractéristique relative du locuteur que nous avons appelée RSC (Relative Speaker Characteristic). Nous avons implémenté trois classifieurs différents: un classifieur statistique, un réseau de neurones du type MLP (Multi-Layer Perceptron) et un classifieur SVM (Support Vector Machines). Par la suite, nous avons proposé plusieurs architectures afin de fusionner ces classifieurs. L’évaluation de nos systèmes a été faite sur une base de données de parole réelle: HUB-4 Broadcast News. Les résultats obtenus ont montré la bonne performance de l’algorithme ISI, la pertinence de la nouvelle caractéristique RSC, ainsi que l’intérêt de la fusion quant à l’amélioration de la précision de segmentation et d’indexation. Nous avons organisé notre document en quatre chapitres: • Dans le chapitre 1, nous définissons certaines généralités sur la reconnaissance du locuteur et ses différentes disciplines, ensuite, nous présentons l’indexation par locuteurs et ses applications. Nous détaillons après, les deux tâches principales de l’indexation, notamment la segmentation et le regroupement, tout en définissant les différents algorithmes existants dans la littérature, en rapport avec ces deux tâches; • Le chapitre 2 expose un état de l’art détaillé sur les principales caractéristiques et les différents algorithmes relatifs à la segmentation et au regroupement par locuteurs; • Au chapitre 3, nous définissons les différents classifieurs implémentés durant notre étude. Nous expliquons ensuite les différents algorithmes que nous avons développés pour accomplir la tâche d’indexation avec et sans connaissances a priori des locuteurs. Nous présentons aussi dans ce chapitre les différentes architectures que nous avons développées pour fusionner les différents classifieurs utilisés; • Le dernier chapitre expose les résultats expérimentaux obtenus durant cette étude, avec des interprétations et des conclusions. Une conclusion générale clôture ce travail de thèse, et quelques perspectives concernant les deux tâches étudiées (segmentation et regroupement) sont proposées. Finalement, des références bibliographiques ainsi que des annexes utiles sont mises à la disposition du lecteur pour plus de détails. Date de soutenance 2009 Cote D001109 Pagination 99 p Illusatration Fig. Tabl.; A4+ CD Format pdf Notes Thèse de Doctorat: Electronique: Alger, Ecole Nationale Supérieure Polytechnique: 2009 . Bibliogr.: 100 - 107 p. Statut Soutenue

Featured

This is a premium business listing. Stand out from the competition!

Own a Business?

List your company and reach more customers today.

Add Your Business