Apache nutch

Définition - Que signifie Apache Nutch?

Apache Nutch est un logiciel de robot d'exploration Web qui peut être utilisé pour agréger des données à partir du Web. Il est utilisé en conjonction avec d'autres outils Apache, tels que Hadoop, pour l'analyse des données.

Definir Tech explique Apache Nutch

Apache Nutch est un produit open source sous licence de la Apache Software Foundation. Cette communauté de développeurs détient des licences pour une gamme d'outils logiciels Apache capables de trier et d'analyser les données. L'une des technologies centrales est Apache Hadoop, un outil d'analyse de données volumineuses très populaire dans la communauté des affaires.

Outre des outils comme Apache Hadoop et des fonctionnalités de stockage de fichiers, d'analyse et plus encore, le rôle de Nutch est de collecter et de stocker des données à partir du Web grâce à l'utilisation d'algorithmes d'exploration Web.

Les utilisateurs peuvent profiter de commandes simples dans Apache Nutch pour collecter des informations sous des URL. Les utilisateurs utilisent généralement Apache Nutch avec un autre outil open source, un framework appelé Apache Solr, qui peut servir de référentiel pour les données collectées avec Apache Nutch.