Définition - Que signifient les données synthétiques?
Les données synthétiques sont un concept fondamental des nouvelles technologies de données qui utilisent des données non authentiques, inventées ou générées automatiquement qui ne sont pas générées par des événements dans le monde réel.
En comparant les données réelles et synthétiques, il est possible de mieux comprendre le fonctionnement de l'apprentissage automatique et d'autres nouvelles formes d'intelligence artificielle.
Definir Tech explique les données synthétiques
La manière la plus claire d'expliquer le concept de données synthétiques est que les données synthétiques ne sont pas des données «réelles» créées naturellement dans le monde réel, «IRL» ou «dans l'espace de viande» comme les pros font parfois référence au monde non numérique. Les données synthétiques sont créées sans véritables événements de données organiques.
Par exemple, alors qu'un véritable ensemble d'identifiants est collecté sur un client qui utilise une plate-forme, un ingénieur pourrait finalement simplement créer les mêmes identifiants pour un client fictif et les charger dans le système - et ce serait un exemple de données synthétiques.
Une meilleure compréhension des données synthétiques a à voir avec la façon dont elles sont utilisées dans l'apprentissage automatique et des technologies similaires. Tout d'abord, les données synthétiques peuvent aider à donner plus de travail à un programme d'apprentissage automatique - mais la clé réside dans la manière dont ces données sont générées, car contrairement aux données réelles, les données synthétiques doivent être imaginées et inventées.
Les données synthétiques peuvent également être utilisées comme pot de miel pour déjouer les pirates. Les entreprises peuvent créer de vastes trésors de données synthétiques avec des identifiants financiers non authentiques, par exemple, et les placer sur un système pour voir comment elles sont ciblées par des attaquants extérieurs. C'est une autre utilisation courante des données synthétiques dans les systèmes informatiques.
L'utilisation de données synthétiques devrait être un problème majeur dans le développement de futurs ensembles de données de test et de formation à partir de technologies d'apprentissage automatique telles que les réseaux de neurones.