Définition - Que signifie la découverte des connaissances dans les bases de données (KDD) ?
La découverte de connaissances dans les bases de données (KDD) est le processus de découverte de connaissances utiles à partir d'une collection de données. Cette technique d'exploration de données largement utilisée est un processus qui comprend la préparation et la sélection des données, le nettoyage des données, l'intégration des connaissances préalables sur les ensembles de données et l'interprétation de solutions précises à partir des résultats observés.
Les principaux domaines d'application de KDD comprennent le marketing, la détection des fraudes, les télécommunications et la fabrication.
Definir Tech explique la découverte des connaissances dans les bases de données (KDD)
Traditionnellement, l'exploration de données et la découverte des connaissances étaient effectuées manuellement. Au fil du temps, la quantité de données dans de nombreux systèmes est devenue supérieure à la taille du téraoctet et ne pouvait plus être gérée manuellement. De plus, pour le succès de toute entreprise, la découverte de modèles sous-jacents dans les données est considérée comme essentielle. En conséquence, plusieurs outils logiciels ont été développés pour découvrir des données cachées et faire des hypothèses, qui faisaient partie de l'intelligence artificielle.
Le processus KDD a atteint son apogée au cours des 10 dernières années. Il héberge désormais de nombreuses approches différentes de la découverte, notamment l'apprentissage inductif, les statistiques bayésiennes, l'optimisation des requêtes sémantiques, l'acquisition de connaissances pour les systèmes experts et la théorie de l'information. Le but ultime est d'extraire des connaissances de haut niveau à partir de données de bas niveau.
Le processus KDD comprend des activités multidisciplinaires. Cela comprend le stockage et l'accès aux données, la mise à l'échelle des algorithmes en ensembles de données massifs et l'interprétation des résultats. Le processus de nettoyage et d'accès aux données inclus dans l'entrepôt de données facilite le processus KDD. L'intelligence artificielle soutient également le KDD en découvrant des lois empiriques à partir d'expérimentation et d'observations. Les modèles reconnus dans les données doivent être valides sur de nouvelles données et posséder un certain degré de certitude. Ces modèles sont considérés comme de nouvelles connaissances. Les étapes impliquées dans l'ensemble du processus KDD sont :
- Identifiez l'objectif du processus KDD du point de vue du client.
- Comprendre les domaines d'application impliqués et les connaissances requises.
- Sélectionnez un ensemble de données cible ou un sous-ensemble d'échantillons de données sur lequel la découverte est effectuée.
- Nettoyez et prétraitez les données en décidant des stratégies pour gérer les champs manquants et modifier les données selon les exigences.
- Simplifiez les ensembles de données en supprimant les variables indésirables. Ensuite, analysez les fonctionnalités utiles qui peuvent être utilisées pour représenter les données, en fonction de l'objectif ou de la tâche.
- Faites correspondre les objectifs KDD avec les méthodes d'exploration de données pour suggérer des modèles cachés.
- Choisissez des algorithmes d'exploration de données pour découvrir des modèles cachés. Ce processus comprend le choix des modèles et des paramètres qui pourraient être appropriés pour le processus KDD global.
- Recherchez des modèles d'intérêt dans une forme de représentation particulière, qui incluent des règles ou des arbres de classification, la régression et le regroupement.
- Interpréter les connaissances essentielles à partir des modèles.
- Utilisez les connaissances et intégrez-les dans un autre système pour une action ultérieure.
- Documentez-le et rédigez des rapports pour les parties intéressées.