Apache Parquet

Apache Parquet, un système de stockage orienté colonne pour Hadoop est disponible. Hadoop est un cadre de programmation libre, basé sur Java, qui prend en charge le traitement de grands ensembles de données dans un environnement informatique distribué. Parquet est optimisé pour travailler avec des données complexes en masse et comprend des méthodes pour une compression efficace des données et des types d'encodage. Les données sont généralement stockées par ligne. Même dans les bases de données, les données sont conventionnellement stockées de cette manière et sont optimisées pour travailler avec un enregistrement à la fois. Parquet utilise un algorithme de destruction d'enregistrements et un algorithme d'assemblage pour désassembler les données et les réassembler. Les valeurs de chaque colonne sont stockées dans des emplacements mémoire distincts. Les données stockées par colonne selon cette méthode sérialisée permettent d'effectuer des recherches efficaces dans des ensembles de données massifs. Le stockage en colonnes, qui est complémentaire de la plateforme de big data Hadoop, est une option. Le stockage des données dans un format columnar offre des avantages tels que : Le format columnar permet une compression plus efficace. La similitude des données des colonnes permet une compression des données pour le type spécifique de données. Les requêtes recherchant des valeurs de colonnes spécifiques n'ont pas besoin de lire l'ensemble des données de la ligne, ce qui accélère les recherches. Les colonnes peuvent avoir des encodages différents, ce qui permet une plus grande compression. Le cadre Apache Thrift de Parquet augmente la flexibilité, pour permettre de travailler avec C++, Java et Python. Parquet est compatible avec la majorité des frameworks de traitement de données dans Hadoop. OrC, RCFile optimisé et RCFile sont d'autres formats de stockage en colonnes.

Parquet, un projet de haut niveau parrainé par l'Apache Software Foundation (ASF). Ce projet est le fruit d'une collaboration entre Cloudera et Twitter.

Vous pouvez également être intéressé
  1. Serveur Web Apache Définition - Que signifie Apache Web Server? Apache Web Server est un logiciel de création, de déploiement et de gestion de serveur Web open source. Initialement développé par un groupe de programmeurs de logiciels, il est maintenant maintenu par l'Apache Software Foundation. Definir Tech explique Apache Web Server Apache Web...
  2. Incubateur apache Définition - Que signifie Apache Incubator? Apache Incubator est le point de départ de toutes les applications logicielles open source et de tous les projets pour faire partie de l'Apache Software Foundation. Créé en 2002, tous les dons de code logiciel d'application provenant de projets externes et de fournisseurs doivent...

  1. Fourmi apache Définition - Que signifie Apache Ant? Apache Ant est un outil de création de logiciels open source basé sur Java développé par Apache Software Foundation. Il est similaire à l'utilitaire "make", mais est principalement fonctionnel sur la plate-forme Java. Contrairement à make, les scripts Ant sont écrits en XML pour...
  2. Apache hadoop Définition - Que signifie Apache Hadoop? Apache Hadoop est un framework logiciel sous licence libre développé par Apache Software Foundation et utilisé pour développer une informatique distribuée et intensive en données. Hadoop est conçu pour évoluer d'une seule machine à des milliers d'ordinateurs. Un concept central Hadoop est que les...