Tandem clustering with invariant coordinate selection (ICS)

Alfons, A., Archimbaud, A., Nordhausen, K. and Ruiz-Gazen, A.

Date

July 3 – 7, 2023

Time

12:00 AM

Location

Université libre de Bruxelles, Belgium

Event

Abstract

Le “tandem clustering” ou clustering en tandem est une technique bien connue pour traiter des données bruitées ou en grande dimension, afin de mieux identifier les clusters. Il s’agit d’une approche séquentielle basée sur une étape préliminaire de réduction de la dimension des données, puis sur la réalisation du clustering. L’approche la plus connue, basée sur l’analyse en composantes principales (ACP), a été critiquée pour se concentrer uniquement sur la maximisation de l’inertie et pas nécessairement sur la préservation de la structure d’intérêt pour le clustering. Par conséquent, nous proposons une nouvelle approche de clustering en tandem, basée sur la méthode ICS (“Invariant coordinate selection” ou sélection de coordonnées invariantes). Cette méthode multivariée est conçue pour identifier la structure des données en diagonalisant conjointement deux matrices de dispersion, tout en maintenant l’affine invariance des nouvelles coordonnées. Plus précisément, certains résultats théoriques ont prouvé que dans certains modèles de mélange elliptiques, les premières et/ou dernières composantes portent l’information concernant la structure de clustering. Cependant, malgré les propriétés intéressantes de la méthode ICS, celle-ci n’a pas été étudiée en détail dans le contexte du clustering, mais principalement pour des problématiques de détection d’anomalies. Les deux principaux challenges à l’utilisation de la méthode sont le choix des paires de matrices de dispersion ainsi que les composantes à retenir. Dans un contexte de clustering, nous suggérons que les meilleures paires de dispersion consistent en une matrice qui capture la structure intra-cluster et une autre qui capture la structure globale. Pour estimer la structure intra-cluster, les estimateurs “local-shape” et “pairwise” se sont révélés être des choix intéressants. De plus, nous étudions également l’utilisation de l’estimateur bien connu du “Minimum Covariance Determinant” (MCD) basé sur une taille de sous-ensemble plus petite qu’habituellement. La performance de la méthode ICS en tant que méthode de réduction de dimension est évaluée pour déterminer sa capacité à préserver la structure de clustering des données. Pour cela, nous avons mené une vaste étude basée sur des simulations ainsi que sur des jeux de données de référence. Nous avons testé diverses combinaisons de matrices de dispersion, de critères de sélection des composantes ainsi que les effets de la présence de valeurs aberrantes. Les résultats indiquent que l’approche de clustering en tandem basée sur la méthode ICS a des performances supérieures à celle basée sur l’ACP et s’avère être une approche prometteuse.

Details
Posted on:
July 4, 2023
Length:
2 minute read, 424 words
See Also: