Système de fichiers distribué hadoop (hdfs)

Définition - Que signifie le système de fichiers distribués Hadoop (HDFS)?

Le système de fichiers distribués Hadoop (HDFS) est un système de fichiers distribué qui s'exécute sur du matériel standard ou bas de gamme. Développé par Apache Hadoop, HDFS fonctionne comme un système de fichiers distribué standard mais offre un meilleur débit de données et un meilleur accès via l'algorithme MapReduce, une tolérance de pannes élevée et une prise en charge native de grands ensembles de données.

Definir Tech explique le système de fichiers distribués Hadoop (HDFS)

Le HDFS stocke une grande quantité de données placées sur plusieurs machines, généralement dans des centaines et des milliers de nœuds connectés simultanément, et assure la fiabilité des données en répliquant chaque instance de données sous forme de trois copies différentes - deux dans un groupe et une dans l'autre. Ces copies peuvent être remplacées en cas de panne.

L'architecture HDFS se compose de clusters, dont chacun est accessible via un seul outil logiciel NameNode installé sur une machine distincte pour surveiller et gérer le système de fichiers et le mécanisme d'accès utilisateur de ce cluster. Les autres machines installent une instance de DataNode pour gérer le stockage en cluster.

Comme HDFS est écrit en Java, il prend en charge nativement les interfaces de programmation d'application (API) Java pour l'intégration et l'accessibilité des applications. Il est également accessible via les navigateurs Web standard.