Détection des valeurs aberrantes

Définition - Que signifie la détection des valeurs aberrantes?

La détection des valeurs aberrantes est le processus de détection et d'exclusion des valeurs aberrantes d'un ensemble de données donné.

Une valeur aberrante peut être définie comme une donnée ou une observation qui s'écarte radicalement de la norme donnée ou de la moyenne de l'ensemble de données. Une valeur aberrante peut être causée simplement par hasard, mais elle peut également indiquer une erreur de mesure ou que l'ensemble de données donné a une distribution à queue lourde.

Voici un scénario simple de détection des valeurs aberrantes, un processus de mesure produit systématiquement des lectures comprises entre 1 et 10, mais dans de rares cas, nous obtenons des mesures supérieures à 20.

Ces mesures rares au-delà de la norme sont appelées valeurs aberrantes car elles «se situent en dehors» de la courbe de distribution normale.

Definir Tech explique la détection des valeurs aberrantes

Il n'existe pas vraiment de méthode mathématique standardisée et rigide pour déterminer une valeur aberrante, car elle varie vraiment en fonction de l'ensemble ou de la population de données, de sorte que sa détermination et sa détection deviennent finalement subjectives. Grâce à un échantillonnage continu dans un champ de données donné, les caractéristiques d'une valeur aberrante peuvent être établies pour faciliter la détection.

Il existe des méthodes basées sur des modèles pour détecter les valeurs aberrantes et elles supposent que les données sont toutes extraites d'une distribution normale et identifieront des observations ou des points jugés improbables sur la base de la moyenne ou de l'écart type comme valeurs aberrantes. Il existe plusieurs méthodes de détection des valeurs aberrantes:

  • Test de Grubb pour les valeurs aberrantes - Ceci est basé sur l'hypothèse que les données ont une distribution normale et supprime une valeur aberrante à la fois, le test étant itéré jusqu'à ce qu'il n'y ait plus de valeurs aberrantes.
  • Test Q de Dixon - Également basé sur la normalité de l'ensemble de données, cette méthode teste les mauvaises données. Il a été noté que cela devrait être utilisé avec parcimonie et jamais plus d'une fois dans un ensemble de données.
  • Critère de Chauvenet - Ceci est utilisé pour analyser si la valeur aberrante est fausse ou est toujours dans les limites et être considérée comme faisant partie de l'ensemble. La moyenne et l'écart type sont pris et la probabilité que la valeur aberrante se produise est calculée. Les résultats détermineront s'il doit être inclus ou non.
  • Critère de Pierce - Une limite d'erreur est fixée pour une série d'observations, au-delà de laquelle toutes les observations seront rejetées car elles impliquent déjà une si grande erreur.