Perturbation des données

Définition - Que signifie la perturbation des données?

La perturbation des données est une forme d'exploration de données préservant la confidentialité des dossiers de santé électroniques (DSE). Il existe deux principaux types de perturbation des données appropriés pour la protection des données du DSE. Le premier type est appelé approche de distribution de probabilité et le second type est appelé approche de distorsion de valeur. La pertubation des données est considérée comme une technique relativement simple et efficace pour protéger les données électroniques sensibles d'une utilisation non autorisée.

Definir Tech explique la perturbation des données

La pertubation des données a été saluée comme une application plus efficace de la protection des données dans les soins de santé que la désidentification / ré-identification en raison de la probabilité plus élevée que des attaques puissent avoir lieu qui relient des ensembles de données publics à des identifiants ou des sujets d'origine. Pour cette raison même, la pertubation des données est saluée comme une application plus solide en matière de sécurité de DSE.

L'approche de distribution de probabilité prend les données et les remplace à partir du même échantillon de distribution ou de la distribution elle-même. L'approche de distorsion de valeur perturbe les données par un bruit multiplacatif ou additif, ou d'autres processus aléatoires. Elle est considérée comme plus efficace que l'ancien type de perturbation. Cette approche construit des classificateurs d'arbre de décision où chaque élément se voit attribuer un bruit aléatoire provenant de la distribution gaussienne, par exemple. Par l'exploration de données, la distribution de données d'origine est reconstruite à partir de sa version perturbée. Cependant, les critiques soulignent le fait que le bruit additif aléatoire peut être filtré, ce qui peut entraîner des compromis sur la confidentialité du DSE.