Définition - Que signifie Apache Pig?
Apache Pig est une plate-forme utilisée pour analyser de grands ensembles de données. Il se compose d'un langage de haut niveau pour exprimer des programmes d'analyse de données, ainsi que de l'infrastructure pour évaluer ces programmes. L'une des caractéristiques les plus importantes de Pig est que sa structure est sensible à une parallélisation importante.
Pig fonctionne sur la plate-forme Hadoop, écrivant et lisant des données à partir du système de fichiers distribués Hadoop (HDFS) et effectuant le traitement au moyen d'un ou plusieurs travaux MapReduce. Apache Pig est disponible en open source.
Apache Pig est également connu sous le nom de langage de programmation Pig ou Hadoop Pig.
Definir Tech explique Apache Pig
Apache Pig comprend deux parties: la langue latine Pig et le moteur Pig. Le langage Pig Latin est un langage de script qui permet aux utilisateurs d'illustrer la manière dont les flux de données d'une ou plusieurs entrées doivent être lus et traités, ainsi que l'emplacement dans lequel doivent être stockés.
Certaines des propriétés clés de Pig Latin sont les suivantes:
- Facile à programmer: les tâches complexes constituées de diverses transformations de données interconnectées sont clairement codées sous forme de séquences de flux de données. Cela les rend simples à écrire, à comprendre et à maintenir.
- Possibilités d'optimisation: La manière dont les tâches sont codées permet au système d'optimiser l'exécution automatique. Cela permet à l'utilisateur de prêter attention à la sémantique plutôt qu'à l'efficacité.
- Extensibilité: les utilisateurs sont autorisés à créer leurs propres fonctions pour effectuer des traitements spécifiques. Le moteur Pig est responsable de l'exécution du flux de données écrit en Pig Latin. Tout comme une conception de système de gestion de base de données relationnelle (SGBDR) standard, Apache Pig se compose d'un analyseur, d'un optimiseur et d'un vérificateur de type, en plus d'opérateurs qui effectuent le traitement des données. Pig n'inclut pas les transactions, un catalogue de données ou la possibilité de gérer directement le stockage des données ou d'employer le cadre d'exécution.