SequenceFile

SequenceFile peut être décrit comme un fichier plat binaire qui stocke les données pour les projets de calcul distribué Apache Hadoop. Les SequenceFiles sont largement utilisés avec MapReduce. Comme Hadoop fonctionne mieux avec des fichiers plus volumineux, les SequenceFiles sont utilisés pour stocker et compresser des fichiers dont la taille est inférieure à la taille optimale pour un fonctionnement efficace avec Hadoop, ce qui peut contribuer à réduire la capacité d'espace disque requise et les exigences en matière d'entrée/sortie. Les SequenceFiles servent de conteneur pour une séquence de fichiers. Les SequenceFiles sont utilisés pour stocker des informations clés. Les SequenceFiles prennent en charge une classe Writer, une classe Reader et une classe Sorter pour les fonctions respectives relatives aux clés. Un SequenceFile peut contenir de nombreux fichiers journaux utilisés pour enregistrer les données des serveurs. La clé est un horodatage, et la valeur le fichier journal entier. Les petits fichiers texte sont normalement inefficaces pour Hadoop. Ils peuvent cependant être utilisés efficacement après avoir été empaquetés dans SequenceFiles.

SequenceFiles prend en charge la compression des clés et des valeurs, ou des deux, afin de réduire la taille des fichiers pour Hadoop. Lorsque les deux sont compressés, les clés et les valeurs du fichier sont rassemblées en blocs et compressées séparément. Le type de compression choisi détermine le format du fichier.