Définition - Que signifie le prétraitement des données ?
Le prétraitement des données est une technique d'exploration de données qui consiste à transformer les données brutes en un format compréhensible. Les données du monde réel sont souvent incomplètes, incohérentes, absentes de certains comportements ou tendances et sont susceptibles de contenir de nombreuses erreurs.
Le prétraitement des données est une méthode éprouvée pour résoudre ces problèmes. Le prétraitement des données prépare les données brutes pour un traitement ultérieur.
Le prétraitement des données est utilisé dans les applications basées sur des bases de données telles que la gestion de la relation client et les applications basées sur des règles (comme les réseaux neuronaux).
Dans les processus d'apprentissage automatique (ML), le prétraitement des données est essentiel pour coder l'ensemble de données sous une forme qui pourrait être interprétée et analysée par l'algorithme.
Definir Tech explique le prétraitement des données
Les données passent par une série d'étapes pendant le prétraitement :
Nettoyage des données : Les données sont nettoyées via des processus tels que le remplissage des valeurs manquantes ou la suppression de lignes avec des données manquantes, le lissage des données bruyantes ou la résolution des incohérences dans les données.
Le lissage des données bruyantes est particulièrement important pour les ensembles de données ML, car les machines ne peuvent pas utiliser des données qu'elles ne peuvent pas interpréter. Les données peuvent être nettoyées en les divisant en segments de taille égale qui sont ainsi lissés (binning), en les adaptant à une fonction de régression linéaire ou multiple (régression), ou en les regroupant en grappes de données similaires (clustering).
Des incohérences dans les données peuvent survenir en raison d'erreurs humaines (les informations ont été stockées dans un mauvais champ). Les valeurs dupliquées doivent être supprimées par déduplication pour éviter de donner un avantage (biais) à cet objet de données.
Intégration des données : Les données avec différentes représentations sont rassemblées et les conflits au sein des données sont résolus.
Transformation des données : Les données sont normalisées et généralisées. La normalisation est un processus qui garantit qu'aucune donnée n'est redondante, tout est stocké dans un seul endroit et toutes les dépendances sont logiques.
Réduction de donnée : Lorsque le volume de données est énorme, les bases de données peuvent devenir plus lentes, coûteuses à accéder et difficiles à stocker correctement. L'étape de réduction des données vise à présenter une représentation réduite des données dans un entrepôt de données.
Il existe différentes méthodes pour réduire les données. Par exemple, une fois qu'un sous-ensemble d'attributs pertinents est choisi pour sa signification, tout ce qui se trouve en dessous d'un niveau donné est ignoré. Des mécanismes de codage peuvent également être utilisés pour réduire la taille des données. Si toutes les données d'origine peuvent être récupérées après la compression, l'opération est étiquetée comme sans perte.
Si certaines données sont perdues, cela s'appelle une réduction avec perte. L'agrégation peut par ailleurs être utilisée, par exemple, pour condenser d'innombrables transactions en une seule valeur hebdomadaire ou mensuelle, ce qui réduit considérablement le nombre d'objets de données.
Discrétisation des données : Les données pourraient aussi être discrétisées pour remplacer les valeurs brutes par des niveaux d'intervalle. Cette étape implique la réduction d'un nombre de valeurs d'un attribut continu en divisant la plage d'intervalles d'attribut.
Échantillonnage des données : Parfois, en raison de contraintes de temps, de stockage ou de mémoire, un ensemble de données est trop volumineux ou trop complexe pour être utilisé. Les techniques d'échantillonnage peuvent être utilisées pour sélectionner et travailler avec juste un sous-ensemble de l'ensemble de données, à condition qu'il ait approximativement les mêmes propriétés que celui d'origine.