Googlebot

Googlebot est un robot de recherche logiciel d'exploration du Web (également connu sous le nom d'araignée ou de webcrawler) qui rassemble les informations des pages Web utilisées pour alimenter les pages de résultats du moteur de recherche Google (SERP).

Googlebot crée un index en fonction des restrictions définies par les webmasters dans le fichier robots.txt. Un webmaster peut configurer un fichier robots.txt pour empêcher Googlebot d'accéder aux pages qui ne sont pas visibles dans la recherche Google. Googlebot ne peut pas suivre les liens d'une page d'un site Web si la balise meta n'est pas incluse. Pour empêcher le robot de suivre des liens spécifiques, le webmaster doit ajouter rel="nofollow". Le webmaster d'un site peut détecter les visiteurs de google.com toutes les quelques secondes et afficher l'agent utilisateur Googlebot. En général, Google essaie d'indexer la plus grande partie possible d'un site sans saturer la bande passante du site. Un webmaster peut ajuster le taux que Googlebot utilise pour indexer le contenu d'un site. Cette modification sera effective pendant 90 jours au maximum.

Josh Giardino, qui a fait une présentation lors de la conférence SearchLove 2011, a affirmé que Googlebot était en fait le navigateur Chrome. Cela signifierait que Googlebot n'a pas seulement la capacité de parcourir des pages en texte, comme le font les crawlers, mais qu'il peut aussi exécuter des scripts et des médias comme le font les navigateurs web. Cette capacité pourrait permettre à Googlebot de trouver des informations cachées et d'effectuer d'autres tâches qui ne sont pas reconnues par Google. Giardino a même suggéré que Googlebot pourrait être la raison pour laquelle Google a créé Chrome.

Googlebot utilise des algorithmes pour décider des sites et des prix à visiter, ainsi que du nombre de pages qu'il doit aller chercher. Googlebot commence avec une liste des sessions précédentes. Cette liste est ensuite complétée par les sitemaps fournis par les webmasters. Le logiciel explore tous les éléments liés dans les pages Web qu'il parcourt, notant les nouveaux sites, les mises à jour de sites et les liens morts. Les informations recueillies sont utilisées pour mettre à jour l'index du Web de Google.

Googlebot collecte des documents sur le Web pour construire l'index de recherche de Google. En collectant constamment des documents, le logiciel découvre de nouvelles pages et des mises à jour de pages existantes. Googlebot est capable de se développer grâce à une conception distribuée qui couvre de nombreux ordinateurs.