Multivariate outlier detection with ICS

Archimbaud A.

Date

October 24, 2017

Time

12:00 AM

Location

Université Paul Sabatier, France

Event

Abstract - French version

Dans cette présentation, nous nous intéressons à la détection non supervisée d’observations atypiques, au sein de données numériques multivariées. Nous considérons plus particulièrement le cas d’une faible proportion d’observations atypiques, comme par exemple dans la détection de fraudes ou de produits défectueux. La distance de Mahalanobis permet de calculer un score associé à chaque observation en prenant en compte la structure de covariances des données. Des scores élevés indiquent de potentiels atypiques. Nous montrons les limites de cette méthode dans le cas où la dimension augmente alors que la structure d’intérêt reste dans un espace de dimension fixe. La méthode ICS (Invariant Coordinate Selection) permet de pallier cet inconvénient en ne sélectionnant que des composantes pertinentes pour la détection d’atypiques. Les résultats seront illustrés sur des exemples simulés et sur des exemples réels à l’aide du package R ICSOutlier et de l’application ICSShiny que nous avons développés.

Abstract - English version

In this presentation, we are interested in detecting outliers in an unsupervised way in multivariate numerical data sets. We focus specifically on the case of a small proportion of outlying observations, like for example fraud or manufacturing faults. The Mahalalanobis distance computes a score for each observation taking into account the covariance structure of the data set. High scores indicate possible outliers. However, the limitation of this method appears if the dimension of the data increases while the structure of interest remains in a fixed dimension subspace. The ICS method (Invariant Coordinate Selection) overcomes this drawback by selecting relevant components for outlier detection. The results will be illustrated on simulated and real data sets through the R package ICSOutlier and the shiny app ICSShiny we implemented.

Details
Posted on:
October 24, 2017
Length:
2 minute read, 315 words
See Also: