Advanced Methods for Establishing Similarity between Time Series: Study and Applications
Loading...
Date
2022
Journal Title
Journal ISSN
Volume Title
Publisher
University of Skikda - 20 Août 1955
Abstract
Les séries temporelles (ST) sont des séquences de données à valeur réelle enregistrées
régulièrement dans le temps. Elles peuvent être trouvées dans pratiquement toutes les applications du monde réel, telles que la médecine, la finance, l’économie, l’industrie et bien d’autres.
Dans cette thèse, nous abordons la problématique de l’établissement de similarité entre séries
temporelles. La mesure de similarité des séries temporelles est un élément clé de plusieurs
tâches d’exploration/fouille de ces séries y compris, mais sans s’y limiter, la classification, la
recherche par similarité, le clustering et la détection d’anomalies dans ce type de données.
En raison de son importance considérable, la tâche de mesure de similarité des séries temporelles a reçu une attention grandissante et est devenue un domaine de recherche très actif dans
la fouille de séries temporelles. D’une manière générale, la problématique d’établissement de
similarité des séries temporelles consiste à définir une méthode permettant de comparer/aligner
deux séries temporelles données, en déterminant le degré d’accord/discordance entre ces ST.
Cependant, mesurer la similarité entre séries temporelles a toujours été une problématique
difficile. La difficulté de cette problématique réside dans le fait que les séries temporelles
sont intrinsèquement de grande dimension et portent de grandes quantités de données. De
plus, diverses distorsions, souvent rencontrées dans les séries temporelles, compliquent davantage l’établissement de similarité (par exemple, le bruit, les valeurs aberrantes, le changement d’échelle du temps/amplitude et le décalage dans le temps/amplitude). Par conséquent,
la mesure de similitude doit être soigneusement établie afin de saisir correctement la vraie
similitude entre deux séries temporelles.
D’autre part, la classification des séries temporelles (CST) est une tâche de plus en plus importante dans le cadre de la fouille de séries temporelles. La CST est, brièvement, la tâche dédiée
à la prédiction de l’étiquette (classe) d’une série temporelle requête à partir d’un ensemble de
données d’apprentissage étiqueté. Au cours des deux dernières décennies, il y a eu un intérêt
croissant pour la CST et, par conséquent, de nombreuses approches ont été publiées dans la
littérature. Étonnamment, des études approfondies, dans ce domaine de recherche, ont rapporté
que l’approche basée sur distance où le classificateur 1-Nearest Neighbor (1-NN) combiné avec
une mesure de distance/similarité appropriée est plus précise que la plupart des approches existantes. De toute évidence, dans ce contexte, la mesure de similarité est un ingrédient crucial et
joue un rôle essentiel dans la précision du classificateur 1-NN. Par conséquent, la grande majorité de recherches dans le cadre de la CST s’est concentrée sur le développement de nouvelles
mesures de distance/similarité.
L’objectif principal de cette thèse concerne, alors, la problématique de mesure de similarité entre séries temporelles avec un focus particulier sur la classification comme domaine
d’application très motivant. Nous visons donc à étudier et à développer des mesures de similarité dans le contexte de la CST qui soient compétitives (robustes, précises et efficaces) par
rapport aux méthodes existantes dans la littérature. À cette fin, diverses contributions ont été
proposées au cours de l’élaboration de ce travail de thèse.
Dans la première contribution, nous avons effectué une large comparaison expérimentale entre
la célèbre mesure de similarité des ST “Dynamic Time Warping” (DTW) et ses variantes les
plus populaires dans le cadre de la CST. Dans cette étude, nous avons évalué empiriquement
les méthodes en termes de précision de classification en utilisant 85 ensembles de données de
l’archive publique des ST ’Université de Californie-Riverside’ (UCR). Les résultats expérimentaux montrent que pratiquement toutes les variantes sont statistiquement équivalentes. Dans la
deuxième contribution, nous avons abordé le problème de la classification des longues séries
temporelles en introduisant une nouvelle mesure de similarité appelée “Local Extrema Dynamic Time Warping” (LE-DTW). LE-DTW transforme d’abord les séries temporelles originelles en un espace de faible dimension en extrayant des caractéristiques locales extrêmes.
Ensuite, elle compare les séries temporelles transformées ainsi obtenues en utilisant une version adaptée de DTW. Afin d’évaluer la performance de LE-DTW, nous avons effectué des
expérimentations approfondies sur une grande variété d’ensembles de données provenant de
l’archive UCR. Les résultats ont montré la précision et l’efficacité de notre nouvelle proposition LE-DTW par rapport à certaines méthodes de l’état de l’art, en particulier sur les longues
séries temporelles.
Dans la troisième contribution, une version accélérée de la méthode Shape Exchange Algorithm
(Boucheham, 2008) est proposée pour l’alignement des Séries Temporelles Quasi-Périodiques
(STQP). FastSEA est basé sur un algorithme de tri plus efficace mais simple qui est ‘Counting
Sort Algorithm’. Le but de FastSEA est d’accélérer le processus d’alignement de la méthode
SEA sans affecter sa qualité. La dernière contribution est consacrée à l’extension de la pertinence de la méthode SEA à la classification des séries temporelles générales. Dans ce contexte,
nous avons proposé la mesure “Local Matching and Distance Selection SEA” (LMDS-SEA),
qui est principalement basée sur un nouveau paradigme de sélection de distance proposé dans
(Kotsifakos et al., 2016; Mori et al., 2016; Mosbah and Boucheham, 2017). Les résultats expérimentaux ont montré que la méthode LMDS-SEA proposée est plus performante que SEA.
et rivalise avec DTW en termes de précision de classification.