Apache avro

Définition - Que signifie Apache Avro?

Apache Avro est un framework de sérialisation de données et d'appel de procédure à distance qui est développé dans le projet Apache Hadoop où il fournit à la fois un format de sérialisation pour obtenir des données persistantes et un format filaire pour fournir une communication entre les nœuds Hadoop, ainsi que pour connecter des programmes clients à Hadoop prestations de service.

Avro utilise le format JSON pour définir les protocoles et les types de données, et sérialise les données dans un format binaire compact.

Definir Tech explique Apache Avro

Apache Avro est un framework de sérialisation de Big Data qui produit des données dans un format binaire compact qui ne nécessite pas de génération de code ou d'objets proxy.

Il est utilisé comme composant de sérialisation de données pour Apache Hadoop. Avro travaille sur le concept de schémas. Lors de la lecture des données Avro, le schéma utilisé lors de l'écriture de ces données spécifiques est toujours présent.

Cela permet à chaque ensemble de données sans frais généraux par valeur, ce qui rend la sérialisation à la fois rapide et relativement petite. Et comme les données et leur schéma sont entièrement auto-descriptifs, cela facilite leur utilisation avec les langages de script dynamiques.

Lorsque les données Avro sont stockées dans un fichier spécifique, le schéma est également stocké avec eux pour être traité ultérieurement par un autre programme. Donc, si un programme lisant les données attend un autre schéma, cela peut être facilement résolu puisque les deux schémas sont présents.

L'Euro fournit:

  • Un format de données binaire compact et rapide

  • Structures de données riches

  • Un fichier conteneur pour stocker des données persistantes

  • Appel de procédure distante (RPC)

  • Intégration avec des langages dynamiques

La génération de code n'est pas une exigence pour lire ou écrire des fichiers de données ou pour utiliser ou implémenter des protocoles RPC.