Définition - Que signifie Web Crawler?
Un robot d'exploration Web est un robot Internet qui aide à l'indexation Web. Ils explorent une page à la fois sur un site Web jusqu'à ce que toutes les pages aient été indexées. Les robots d'exploration Web aident à collecter des informations sur un site Web et les liens qui y sont associés, et aident également à valider le code HTML et les liens hypertexte.
Un robot d'exploration Web est également connu sous le nom d'araignée Web, d'indexeur automatique ou simplement de robot d'exploration.
Definir Tech explique Web Crawler
Les robots d'exploration Web collectent des informations telles que l'URL du site Web, les informations de balise meta, le contenu de la page Web, les liens de la page Web et les destinations menant à partir de ces liens, le titre de la page Web et toute autre information pertinente. Ils gardent une trace des URL qui ont déjà été téléchargées pour éviter de télécharger à nouveau la même page. Une combinaison de politiques telles que la politique de nouvelle visite, la politique de sélection, la politique de parallélisation et la politique de politesse détermine le comportement du robot d'exploration Web. Il existe de nombreux défis pour les robots d'exploration Web, à savoir le vaste World Wide Web en constante évolution, les compromis de sélection de contenu, les obligations sociales et la gestion des adversaires.
Les robots d'exploration Web sont les composants clés des moteurs de recherche Web et des systèmes qui examinent les pages Web. Ils aident à indexer les entrées Web et permettent aux utilisateurs d'envoyer des requêtes sur l'index et fournissent également les pages Web qui correspondent aux requêtes. Une autre utilisation des robots d'exploration Web est l'archivage Web, qui implique de grands ensembles de pages Web à collecter et archiver périodiquement. Les robots d'exploration Web sont également utilisés dans l'exploration de données, dans laquelle les pages sont analysées pour différentes propriétés telles que les statistiques, et des analyses de données sont ensuite effectuées sur elles.