Crawler

Un crawler, ou programme qui scanne les pages Web pour trouver des informations et créer des index pour les moteurs de recherche, est l'un de ces programmes. Les principaux moteurs de recherche sur le Web disposent tous d'un tel programme, également connu sous le nom de "spider" ou "bot". Les robots sont généralement programmés pour visiter les sites qui ont été soumis par leurs propriétaires comme nouveaux ou mis à jour. Des sites entiers ou des pages spécifiques peuvent être visités et indexés de manière sélective. Le nom "crawler" viendrait du fait qu'ils parcourent un site Web page par page, puis suivent les liens vers d'autres pages jusqu'à ce que le site entier ait été indexé.

Le crawler du moteur de recherche AltaVista et de son site Web s'appelle Scooter. Scooter suit les directives relatives aux robots d'exploration du Web énoncées dans le Standard for Robot Exclusion. Scooter demande à chaque serveur quels fichiers il doit exclure de l'indexation. Il ne traverse pas (ou ne peut pas traverser) les pare-feu. Il utilise un algorithme pour attendre entre les requêtes du serveur, afin de ne pas affecter les temps de réponse des autres utilisateurs.

Vous pouvez également être intéressé
  1. Web crawler Définition - Que signifie Web Crawler? Un robot d'exploration Web est un robot Internet qui aide à l'indexation Web. Ils explorent une page à la fois sur un site Web jusqu'à ce que toutes les pages aient été indexées. Les robots d'exploration Web aident à collecter des informations sur un...