Définition - Que signifient les données non étiquetées?
Les données non étiquetées sont une désignation pour des éléments de données qui n'ont pas été étiquetés avec des étiquettes identifiant des caractéristiques, des propriétés ou des classifications. Les données non étiquetées sont généralement utilisées dans diverses formes d'apprentissage automatique.
Definir Tech explique les données sans étiquette
Dans les types d'apprentissage automatique appelés apprentissage automatique non supervisé, le programme d'apprentissage automatique fonctionne en évaluant des ensembles de données non étiquetées. Étant donné que les données n'ont pas d'étiquettes, le programme d'apprentissage automatique doit identifier chaque élément de données sur ses propriétés et ses caractéristiques.
L'une des meilleures façons d'expliquer cela est d'utiliser la métaphore du bol de fruits. Supposons que le programme d'apprentissage automatique apprenne à identifier trois types de fruits différents: les bananes, les raisins et les pommes. Si les données de l'ensemble d'apprentissage initial sont étiquetées, le programme d'apprentissage automatique fonctionne dans cette perspective - en faisant correspondre les images successives à l'une de ces trois catégories.
Si, cependant, aucune des données n'est étiquetée avec les trois noms de fruits - bananes, raisins et pommes - le programme d'apprentissage automatique devra travailler en évaluant chaque image et en examinant des caractéristiques telles que la couleur - jaune, rouge ou violet - formes - long et mince, rond ou groupé - et d'autres caractéristiques.
À partir de cet exemple, il est facile de voir à quel point les données étiquetées offrent des opportunités beaucoup plus faciles d'utiliser des algorithmes d'apprentissage automatique pour les résultats de décision. Cependant, des programmes sophistiqués d'apprentissage automatique non supervisé traitant des données non étiquetées peuvent également produire des résultats incroyablement précis et précis.