Architecture de données en continu

Une architecture de données en continu est un cadre informatique qui met l'accent sur le traitement des données en mouvement et traite le traitement par lots ETL (extract-transform-load) comme un événement de plus dans un flux continu d'événements. Ce type d'architecture comporte trois composantes de base : un agrégateur qui rassemble les flux d'événements et les fichiers batch provenant de diverses sources de données, un courtier qui rend les données disponibles pour la consommation et un moteur d'analyse qui analyse les données, corrèle les valeurs et mélange les flux. Le système qui reçoit et envoie les flux de données et exécute la logique d'application et d'analyse en temps réel s'appelle le processeur de flux. Une architecture de données en continu permet aux développeurs d'utiliser l'approvisionnement par événement, ce qui réduit le temps nécessaire à la maintenance et à la création de bases de données partagées. Au lieu de cela, toutes les modifications de l'état d'une application sont stockées sous la forme d'une séquence de déclencheurs de traitement par événement (ESP) qui peuvent être reconstitués ou interrogés si nécessaire. À la réception d'un événement, le processeur de flux réagit en temps réel ou quasi réel et déclenche une action, telle que la mémorisation de l'événement pour une référence ultérieure. La popularité des architectures de données en continu témoigne du passage d'architectures monolithiques à des architectures décentralisées pour les services et les produits. Ce type d'architecture est généralement plus souple et plus évolutif qu'une architecture d'application classique centrée sur la base de données, car il associe le traitement des données au stockage afin de réduire les temps de réponse des applications (latence) et d'améliorer le débit. Une architecture de données en continu présente un autre avantage : elle prend en compte le moment où un événement se produit. Il est donc plus simple pour les applications de partager leur état ou leur processus entre plusieurs instances. Les développeurs peuvent créer des applications utilisant à la fois des données non liées et liées avec des architectures de données en continu. Par exemple, l'équipe chargée de l'infrastructure de recherche d'Alibaba utilise une architecture de données en continu alimentée par Apache Flink pour mettre à jour les informations détaillées sur les produits et les stocks en temps réel. Flink est également utilisé par Netflix pour alimenter ses moteurs de recommandation. ING, une banque mondiale dont le siège est aux Pays-Bas, utilise Flink pour protéger l'identité et prévenir la fraude. Parmi les autres plates-formes capables de prendre en charge le traitement en continu et le traitement par lots, citons Apache Spark, Apache Storm, Google Cloud Dataflow et AWS Kinesis.

Vous pouvez également être intéressé
  1. Architecture de communication en continu (csa) Définition - Que signifie l'architecture de flux de communication (CSA)? Communication Streaming Architecture (CSA) est une interface de communication développée par Intel qui relie le concentrateur de contrôleur de mémoire (MCH) du chipset au contrôleur réseau. Le périphérique est une connexion individualisée qui n'utilise pas le bus d'interconnexion de composants...
  2. Architecture de connectivité de base de données java (architecture jdbc) Définition - Que signifie l'architecture de connectivité de base de données Java (architecture JDBC)? L'architecture JDBC (Java Database Connectivity) est une API spécifiant des interfaces pour accéder aux bases de données relationnelles. JDBC permet de se connecter à une base de données, d'envoyer des requêtes et des mises à jour...