CONTRIBUTIONS A LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

Loading...
Thumbnail Image
Date
2021
Journal Title
Journal ISSN
Volume Title
Publisher
université 20aout skikda
Abstract
Cette thèse s’inscrit dans le cadre général de la reconnaissance automatique de la parole (RAP) qui, malgré son évolution frappante durant la dernière décennie, continue à attirer l’attention de la communauté scientifique, car la conception d’un SRAP (système de RAP), à la fois performant et robuste, reste toujours une problématique. L’ultime objectif de ce travail est de proposer des solutions pour améliorer les performances des SRAP, et de booster leur robustesse face à la variabilité des données, et ce, dans le cas particulier d'une application à vocabulaire limité. Notre contribution, dans ce contexte, s’axe sur deux points principaux : En premier lieu, nous proposons une nouvelle approche hybride basée sur une modélisation multiple par les modèles de Markov cachés (HMM). Dans cette approche, les HMM sont intégrés au sein d’une architecture 𝑘NN (𝑘Nearest Neighbors) au niveau représentation et au niveau reconnaissance. L’objectif est de concevoir un classifieur héritant à la fois de la robustesse du 𝑘NN et de l’efficacité des HMM tout en écartant leurs inconvénients respectifs. Le second point de notre contribution est la proposition d’une approche ensembliste qui, comme la première approche, basée sur une modélisation markovienne multiple. L’idée est de faire apprendre, pour la même classe de données, plusieurs modèles, obtenus à partir de différentes configurations initiales. Ces modèles doivent ensuite être regroupés dans des classifieurs qui seront combinés durant la phase de reconnaissance. En plus, nous mettons en place une étude expérimentale visant à montrer l’impact des différents paramètres initiaux de l’apprentissage markovien sur la création des ensembles de classifieurs, où nous faisons une analyse profonde de la relation entre chaque paramètre et les mesures de diversité utilisées couramment dans la littérature. Ce problème, à notre connaissance, n’a jamais été exploré de la façon avec laquelle nous l’avons abordé. A travers la modélisation multiple proposée, nous visons, d’une part, à réduire l'influence de la configuration initiale des paramètres de l’apprentissage, et d’autre part, à améliorer la robustesse face à la variabilité des données. Nos contributions sont évaluées en utilisant la base des chiffres arabes « Spoken Arabic Digits ». Les résultats comparatifs en termes de performances et de robustesse montrent la supériorité de nos approches, d'une part, sur un HMM et un 𝑘NN de base, et d'autre part, sur des travaux précédents de la littérature. Les approches proposées peuvent être appliquées directement dans le domaine de la commande vocale (un composeur téléphonique par exemple) où un vocabulaire limité est suffisant. Comme elles peuvent être adaptées facilement à la parole continue à grand vocabulaire en utilisant, dans ce cas, une approche analytique basée sur les phonèmes contextuels comme unités de modélisation acoustique, et en bénéficiant de la segmentation implicite, assurée par les HMM
Description
Keywords
Citation
Collections