Détection non-supervisée d’observations atypiques en contrôle de qualité: un survol

Archimbaud, A. (2018). Journal de la Société Française de Statistique, Vol. 159(3):1–39

Abstract - French version

La détection d’observations atypiques ou d’anomalies est un challenge dans de nombreux domaines. Dans cet article, une revue de la littérature des méthodes non-supervisées est dressée et l’accent est principalement mis sur le contrôle de qualité. Tout d’abord il est important de noter que la notion d’anormalité retenue suit celle donnée par Hawkins (1980) , à savoir qu’une observation est atypique si elle est générée par un mécanisme différent de celui de la majorité des données. Une première section se focalise sur le contexte du contrôle de qualité dans l’industrie des composants électroniques destinés aux applications automobiles, afin d’établir un inventaire des différentes méthodes utilisées en pratique. Il apparaît que ce sont principalement des méthodes univariées qui sont intégrées aux différents processus de détection de défauts. Seules quelques méthodes multivariées de type distance de Mahalanobis ou Analyse en Composantes Principales semblent connues de quelques industriels. Les sections suivantes essaient de résumer l’ensemble de la palette de possibilités destinées à la détection d’observations atypiques de manière non-supervisée ainsi que leur mise en œuvre sous le logiciel R ( R Core Team, 2017 ). Une distinction est faite entre les méthodes ne traitant que des données en dimension standard, i.e avec plus d’observations que de variables, et celles acceptant des données en grande dimension et avec une faible taille d’échantillon.

Abstract - English version

The outlier or anomaly detection is quite a challenge in many areas. In this article, we mainly focus on quality control and we do a review of the literature of unsupervised methods. All along this work, the notion of outlyingness follows the definition given by Hawkins (1980) , namely that an observation is outlying if it is generated by a different mechanism than the one of the bulk of the data. A first section focuses on the context of quality control for the electronic components for automotive applications. It reviews all the common methods used in practice. It appears that mainly univariate methods are integrated into the fault detection processes. Only a few multivariate methods like the Mahalanobis distance or the Principal Components Analysis are used by some manufacturers. The next sections attempt to summarize all the unsupervised methods for outlier detection as well as their implementation in the R software ( R Core Team, 2017 ). A distinction is made between methods designed for standard data, i.e. with more observations than variables, and those adapted to high dimensional data with a small sampling size.

Details
Posted on:
December 1, 2018
Length:
3 minute read, 445 words
See Also: