Distance de Mahalanobis et ICS pour la détection d’observations atypiques

Archimbaud, A., Nordhausen, K., and Ruiz-Gazen, A. (2017). 49èmes Journées de Statistique, Avignon, France

Abstract - English version

In this presentation, we are interested in detecting outliers in an unsupervised way in multivariate numerical data sets. We focus specifically on the case of a small proportion of outlying observations, like for example fraud or manufacturing faults. The Mahalalanobis distance computes a score for each observation taking into account the covariance structure of the data set. High scores indicate possible outliers. However, the limitation of this method appears if the dimension of the data increases while the structure of interest remains in a fixed dimension subspace. The ICS method (Invariant Coordinate Selection) overcomes this drawback by selecting relevant components for outlier detection. The results will be illustrated on simulated and real data sets through the R package ICSOutlier we implemented.

Abstract - French version

Dans cette présentation, nous nous intéressons à la détection non supervisée d’observations atypiques, au sein de données numériques multivariées. Nous considérons plus particulièrement le cas d’une faible proportion d’observations atypiques, comme par exemple dans la détection de fraudes ou de produits défectueux. La distance de Mahalanobis permet de calculer un score associé à chaque observation en prenant en compte la structure de covariances des données. Des scores élevés indiquent de potentiels atypiques. Nous montrons les limites de cette méthode dans le cas o`u la dimension augmente alors que la structure d’intérˆet reste dans un espace de dimension fixe. La méthode ICS (Invariant Coordinate Selection) permet de pallier cet inconvénient en ne sélectionnant que des composantes pertinentes pour la détection d’atypiques. Les résultats seront illustrés sur des exemples simulés et sur des exemples réels à l’aide du package R ICSOutlier que nous avons développé.

Details
Posted on:
June 1, 2017
Length:
2 minute read, 306 words
See Also: