Distance de Mahalanobis et ICS pour la détection d'observations atypiques
Archimbaud A., Nordhausen K. and Ruiz-Gazen A.
Date
May 29 – June 2, 2017
Time
12:00 AM
Location
Avignon, France
Event
Abstract - French version
Dans cette présentation, nous nous intéressons à la détection non supervisée d’observations atypiques, au sein de données numériques multivariées. Nous considérons plus particulièrement le cas d’une faible proportion d’observations atypiques, comme par exemple dans la détection de fraudes ou de produits défectueux. La distance de Mahalanobis permet de calculer un score associé à chaque observation en prenant en compte la structure de covariances des données. Des scores élevés indiquent de potentiels atypiques. Nous montrons les limites de cette méthode dans le cas où la dimension augmente alors que la structure d’intérêt reste dans un espace de dimension fixe. La méthode ICS (Invariant Coordinate Selection) permet de pallier cet inconvénient en ne sélectionnant que des composantes pertinentes pour la détection d’atypiques. Les résultats seront illustrés sur des exemples simulés et sur des exemples réels à l’aide du package R ICSOutlier que nous avons développé.
Abstract - English version
In this presentation, we are interested in detecting outliers in an unsupervised way in multivariate numerical data sets. We focus specifically on the case of a small proportion of outlying observations, like for example fraud or manufacturing faults. The Mahalalanobis distance computes a score for each observation taking into account the covariance structure of the data set. High scores indicate possible outliers. However, the limitation of this method appears if the dimension of the data increases while the structure of interest remains in a fixed dimension subspace. The ICS method (Invariant Coordinate Selection) overcomes this drawback by selecting relevant components for outlier detection. The results will be illustrated on simulated and real data sets through the R package ICSOutlier we implemented.
Details
- Posted on:
- May 29, 2017
- Length:
- 2 minute read, 306 words
- See Also: