Definición:
Googlebot es el robot de rastreo web de Google, lo que le permite buscar, agregar, escanear e indexar nuevas páginas web. El rastreo es el proceso mediante el cual el robot de Google descubre páginas nuevas y actualizadas y las añade al índice de Google.
Además de localizar e indexar páginas web, Googlebot indexa también archivos, tales como los formatos .doc, .zip, xls, etc.
Cómo funciona Googlebot
Googlebot funciona a través de un algoritmo que le indica qué páginas web rastrear, descargando dichas páginas a una base de datos para que posteriormente sean interpretadas por el buscador. Según avanza en su rastreo va siguiendo las rutas marcadas por los enlaces logrando cada vez una mayor profundidad. Todo ello se realiza desde los potentes servidores de Google, repartidos a lo largo del planeta.
La frecuencia con la que Google visita las distintas páginas que componen la red de internet depende de la importancia que Google asigna a dichas páginas. Cuanto más autoridad tenga la página mayor frecuencia y profundidad de rastreo tendrá por parte de Googlebot.
Versiones de Googlebot
Existen dos versiones del bot de Google:
- Deepbot: rastrea la web en profundidad para incluirla en el caché de Google.
- Freshbot: busca contenidos nuevos. Lo hace más frecuentemente en sitios que se actualizan regularmente (tales como medios de comunicación), y con menos frecuencia (días o semanas) en sitios con pocas actualizaciones.
Cómo saber si Googlebot visita una web
El rastreo por parte de Googlebot es fundamental para poder lograr un posicionamiento en Google. Es por ello que en ocasiones, cuando no se consigue la indexación de una web, el primer paso debe ser comprobar si el Googlebot ha logrado acceder a dicha web.
Cuando Googlebot visita una web, deja en el log un registro del tipo crawl1.googlebot.com, con su ip correspondiente. Si no hay registros de Googlebot, es recomendable realizar una revisión del archivo robots.txt.
Rastreadores de Google
Podemos identificar qué rastreador de google ha visitado una página viendo en el registro el user-agent:
- APIs-Google: APIs-Google
- Adsense: Mediapartners-Google
- Adsbot para Web móvil: Adsbot-Google-Mobile
- Adsbot: Adsbot-Google
- Robot de Google: Googlebot
- Robot de Google para imágenes: Googlebot-Image
- Robot de Google para noticias: Googlebot-News
- Robot de Google para video: Googlebot-Video
- Feedtecher: Feedfecher-Google
- Google Read Aloud: Google-Read-Aloud
Cómo bloquear a Googlebot
Existen ocasiones en las que por temas de privacidad no se desea que ciertos contenidos aparezcan en Google. En este caso se pueden llevar a cabo diversas acciones:
- Proteger directorios con contraseña: Googlebot nunca rastreará sitios protegidos con contraseña.
- Utilizar etiqueta «noindex» en las páginas html que no se deseen indexar.