Redondance des données

Définition - Que signifie la redondance des données ?

La redondance des données est une condition créée dans une base de données ou une technologie de stockage de données dans laquelle le même élément de données est conservé à deux endroits distincts.

Cela peut signifier deux champs différents dans une seule base de données ou deux emplacements différents dans plusieurs environnements logiciels ou plates-formes. Chaque fois que des données sont répétées, elles constituent essentiellement une redondance des données.

La redondance des données peut se produire par accident, mais est également effectuée délibérément à des fins de sauvegarde et de restauration.

Definir Tech explique la redondance des données

Dans la définition générale de la redondance des données, il existe différentes classifications basées sur ce qui est considéré comme approprié dans la gestion de base de données et ce qui est considéré comme excessif ou inutile. La redondance des données inutiles se produit généralement lorsqu'une donnée n'a pas besoin d'être répétée mais finit par être dupliquée en raison d'un codage inefficace ou de la complexité du processus.

Par exemple, une redondance inutile des données peut se produire lorsque des doublons incohérents de la même entrée sont trouvés dans la même base de données. Une redondance accidentelle des données peut se produire en raison d'un codage inefficace ou de processus de stockage de données trop compliqués, et représenter un problème en termes d'efficacité et de coûts.

Étant donné que l'existence de champs de données en double ou inutiles doit être résolue, les opérations de réconciliation, d'intégration et de normalisation nécessaires pour supprimer les incohérences peuvent être coûteuses et prendre du temps. Les erreurs générées par l'accès aux mauvais ensembles de données redondants peuvent entraîner de nombreux problèmes avec les clients. Enfin, l'espace supplémentaire occupé par les données redondantes peut commencer à s'accumuler au fil du temps, conduisant à des bases de données saturées.

Un type positif de redondance des données fonctionne pour protéger les données et promouvoir la cohérence. Plusieurs instances des mêmes ensembles de données pourraient être exploitées à des fins de sauvegarde, de reprise après sinistre (DR) et de contrôles de qualité.

Les données redondantes peuvent être stockées exprès en créant des versions compressées des données de sauvegarde qui peuvent être restaurées et faire partie de stratégies de DR spécifiques. En cas de cyberattaque ou de violation de données, par exemple, le stockage des mêmes données à plusieurs endroits différents peut être essentiel pour assurer la continuité des opérations ainsi que l'atténuation des dommages.

La redondance des données peut également être exploitée pour améliorer la vitesse des mises à jour et l'accès aux données si elles sont stockées sur plusieurs systèmes accessibles par différents services.

De nombreux développeurs considèrent qu'il est acceptable que les données soient stockées à plusieurs endroits. La clé est d'avoir un champ ou un espace central, maître pour ces données, de sorte qu'il y ait un moyen de mettre à jour tous les endroits où les données sont redondantes via un point d'accès central. Sinon, la redondance des données peut entraîner de gros problèmes d'incohérence des données, où une mise à jour ne met pas automatiquement à jour un autre champ. En conséquence, des éléments de données censés être identiques finissent par avoir des valeurs différentes.

Chaque fois que la prévention ne suffit pas, des opérations de normalisation ou de rapprochement de la base de données peuvent être nécessaires pour éliminer les redondances déjà existantes. Une série de règles de normalisation sont d'abord définies pour définir ce que sont réellement les "données normales". Ensuite, la base de données est vérifiée pour s'assurer que les dépendances dans toutes les colonnes et tables sont correctement appliquées et que tous les doublons inutiles sont correctement traités.