CONTRIBUTIONS A LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE
Loading...
Date
2021
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
université 20aout skikda
Abstract
Cette thèse s’inscrit dans le cadre général de la reconnaissance automatique de la parole
(RAP) qui, malgré son évolution frappante durant la dernière décennie, continue à attirer
l’attention de la communauté scientifique, car la conception d’un SRAP (système de RAP),
à la fois performant et robuste, reste toujours une problématique. L’ultime objectif de ce
travail est de proposer des solutions pour améliorer les performances des SRAP, et de
booster leur robustesse face à la variabilité des données, et ce, dans le cas particulier
d'une application à vocabulaire limité.
Notre contribution, dans ce contexte, s’axe sur deux points principaux : En premier lieu,
nous proposons une nouvelle approche hybride basée sur une modélisation multiple par
les modèles de Markov cachés (HMM). Dans cette approche, les HMM sont intégrés au sein
d’une architecture 𝑘NN (𝑘Nearest Neighbors) au niveau représentation et au niveau
reconnaissance. L’objectif est de concevoir un classifieur héritant à la fois de la robustesse
du 𝑘NN et de l’efficacité des HMM tout en écartant leurs inconvénients respectifs. Le
second point de notre contribution est la proposition d’une approche ensembliste qui,
comme la première approche, basée sur une modélisation markovienne multiple. L’idée
est de faire apprendre, pour la même classe de données, plusieurs modèles, obtenus à
partir de différentes configurations initiales. Ces modèles doivent ensuite être regroupés
dans des classifieurs qui seront combinés durant la phase de reconnaissance. En plus,
nous mettons en place une étude expérimentale visant à montrer l’impact des différents
paramètres initiaux de l’apprentissage markovien sur la création des ensembles de
classifieurs, où nous faisons une analyse profonde de la relation entre chaque paramètre
et les mesures de diversité utilisées couramment dans la littérature. Ce problème, à notre
connaissance, n’a jamais été exploré de la façon avec laquelle nous l’avons abordé. A
travers la modélisation multiple proposée, nous visons, d’une part, à réduire l'influence
de la configuration initiale des paramètres de l’apprentissage, et d’autre part, à améliorer
la robustesse face à la variabilité des données.
Nos contributions sont évaluées en utilisant la base des chiffres arabes « Spoken Arabic
Digits ». Les résultats comparatifs en termes de performances et de robustesse montrent
la supériorité de nos approches, d'une part, sur un HMM et un 𝑘NN de base, et d'autre
part, sur des travaux précédents de la littérature.
Les approches proposées peuvent être appliquées directement dans le domaine de la
commande vocale (un composeur téléphonique par exemple) où un vocabulaire limité est
suffisant. Comme elles peuvent être adaptées facilement à la parole continue à grand
vocabulaire en utilisant, dans ce cas, une approche analytique basée sur les phonèmes
contextuels comme unités de modélisation acoustique, et en bénéficiant de la
segmentation implicite, assurée par les HMM