Désanonymisation (deanonymization)

La désanonymisation est une stratégie d'exploration de données dans laquelle des données anonymes sont croisées avec d'autres sources de données pour réidentifier la source de données anonymes. La désanonymisation peut utiliser toute information permettant de distinguer une source de données d'une autre. Bien que le concept de désanonymisation remonte à plusieurs décennies, le terme a fait la une des journaux en 2006 lorsque Arvind Narayanan et Vitaly Shmatikov ont participé à un concours organisé par Netflix, un service populaire de location de films. Narayanan et Shmatikov ont appliqué leur méthodologie de désanonymisation à un ensemble de données contenant les évaluations anonymes de films de 500 000 membres et ont réussi à identifier les données Netflix pour un certain nombre de membres spécifiques. Selon Narayanan et Shmatik, la désanonymisation nécessite des données abondantes, granulaires et relativement stables dans le temps et le contexte. À mesure que le gouvernement des États-Unis et d'autres pays mettent en œuvre des initiatives de gouvernement ouvert, de plus en plus de données deviennent accessibles au public sur Internet. Une grande partie de ces données a été épurée pour créer ce que le gouvernement appelle des "ensembles de données limités". Les informations personnellement identifiables (PII), telles que les noms, les adresses et les numéros de sécurité sociale, sont supprimées des ensembles de données limités ou obscurcies par un processus d'anonymisation des données, de sorte que la source spécifique des données reste anonyme. Cette garantie d'anonymat protège la vie privée de la source et permet au gouvernement de partager légalement des ensembles de données limitées avec des tiers sans avoir besoin d'une autorisation écrite. Ces données sont extrêmement précieuses, notamment pour les chercheurs en soins de santé. Les défenseurs de la vie privée s'inquiètent toutefois du fait que, même si les données ont été épurées, elles sont disponibles en si grand nombre que l'identité d'une personne en particulier pourrait être redécouverte. Voir également : Règles d'association, Business Intelligence, Opinion Mining, OLAP et logique floue.