Data mining

Définition - Que signifie l'exploration de données?

L'exploration de données est le processus d'analyse de modèles cachés de données selon différentes perspectives afin de transformer ces données en informations utiles et souvent exploitables. Les données sont collectées et assemblées dans des zones communes, telles que les entrepôts de données, et les algorithmes d'exploration de données recherchent des modèles que les entreprises peuvent utiliser pour prendre de meilleures décisions, telles que des décisions qui aident à réduire les coûts, à augmenter les revenus ou à mieux servir les clients ou les clients.

L'exploration de données est également appelée découverte de données ou découverte de connaissances. Il est essentiel dans l'intelligence d'affaires d'établir des décisions basées sur les données.

Definir Tech explique l'exploration de données

Les principales étapes d'un processus d'exploration de données sont:

  • Extraire, transformer et charger des données dans un entrepôt de données
  • Stockez et gérez les données dans des bases de données multidimensionnelles
  • Fournir un accès aux données aux analystes commerciaux à l'aide d'un logiciel d'application
  • Présenter les données analysées sous des formes facilement compréhensibles, telles que des graphiques

La première étape de l'exploration de données consiste à collecter des données pertinentes essentielles pour les entreprises. Les données de l'entreprise sont soit transactionnelles, non opérationnelles ou métadonnées. Les données transactionnelles traitent des opérations quotidiennes telles que les ventes, les stocks et les coûts. Les données non opérationnelles sont normalement prévues, tandis que les métadonnées concernent la conception logique de la base de données. Les modèles et les relations entre les éléments de données peuvent souvent rendre des informations pertinentes pour améliorer les processus métier. Les organisations fortement axées sur le consommateur utilisent des techniques d'exploration de données fournissant des images claires des produits vendus, des prix, de la concurrence et des données démographiques des clients.

Par exemple, le géant de la vente au détail Walmart transmet toutes ses informations pertinentes à un entrepôt de données avec des téraoctets de données. Ces données sont facilement accessibles aux fournisseurs, ce qui leur permet d'identifier les modèles d'achat des clients. Ils peuvent générer des modèles sur les habitudes d'achat, les jours les plus achetés, les produits les plus recherchés et d'autres informations à l'aide de techniques d'exploration de données.

La deuxième étape de l'exploration de données consiste à sélectionner un algorithme approprié - un mécanisme produisant un modèle d'exploration de données. Le fonctionnement général de l'algorithme consiste à identifier les tendances dans un ensemble de données et à utiliser la sortie pour la définition des paramètres. Les algorithmes les plus couramment utilisés pour l'exploration de données sont les algorithmes de classification et de régression, qui sont utilisés pour identifier les relations entre les éléments de données. Les principaux fournisseurs de bases de données comme Oracle et SQL intègrent des algorithmes d'exploration de données, tels que le clustering et les arbres de régression, pour répondre à la demande d'exploration de données.