SEO: La frecuencia de rastreo de tu web

Cuando hablamos de la frecuencia de rastreo o Crawl Rate, hablamos de la frecuencia de paso de los robots para que analicen nuestro website para indexar nuevas páginas o actualizaciones.

En el caso de Google (por mencionar al más importante), tenemos 3 tipos de bots:

  1. Googlebots: Partiendo de la información previamente almacenada, rastrean con el objetivo de ampliar y actualizar los datos de los índices, así como identificar los objetos obsoletos.
  2. Freshbots: Rastrean urls de actualización frecuente para indexar contenido nuevo, lo más reciente. Por ejemplo, la página de un periódico, revista, etc.
  3. Deepbots: Es un explorador que investiga en profundidad la red intentando seguir todas los enlaces, además de poner la página en el cache y dejarla disponible para Google.

Esta es la base que luego permite construir el Pagerank y toda la plataforma Google.

¿Qué es PageRank? Según Wikipedia:

“PageRank confía en la naturaleza democrática de la web utilizando su vasta estructura de enlaces como un indicador del valor de una página en concreto. Google interpreta un enlace de una página A a una página B como un voto, de la página A, para la página B. Pero Google mira más allá del volumen de votos, o enlaces que una página recibe; también analiza la página que emite el voto. Los votos emitidos por las páginas consideradas “importantes”, es decir con un PageRank elevado, valen más, y ayudan a hacer a otras páginas “importantes”. Por lo tanto, el PageRank de una página refleja la importancia de la misma en Internet.”

La frecuencia de rastreo de los bots viene dada por un algoritmo propio. El Pagerank es un factor decisivo que determina la frecuencia de rastreo, así como la relevancia y popularidad, pero también hay otros muy importantes a tener en cuenta.

También Google te permite establecer o cambiar la frecuencia de rastreo de tu web desde las Webmaster Tools, aunque eso no quita que se deban revisar todos los aspectos de la web.

Algunos consejos para mejorar la frecuencia de rastreo:

No todo es PageRank. Podéis ver lo que opinan los profesionales SEO sobre los criterios de posicionamiento: http://www.seomoz.org/article/search-ranking-factors

Como detalle anecdótico, os adjunto un artículo de como Google ajustó Googlebot para no penalizar webs que se hayan sumado al blackout contra SOPA.

SEO: Técnicas prohibidas o Black Hat

Black Hat Seo

En SEO, las técnicas prohibidas y penalizadas forman parte de lo que se denomina Black Hat SEO.

Básicamente existen dos modelos, White Hat y Black Hat.

El primero son el conjunto de técnicas pensadas para ofrecer unos resultados concretos que duren un largo periodo de tiempo, es decir, lo que serían las técnicas aprobadas.

Mientras que Black Hat está formado por todas aquellas técnicas que usan estrategias que van en contra de las reglas establecidas por los motores de búsqueda, técnicas que ofrecen resultados mágicos en cuestión de días, pero que corren el riesgo de ser penalizadas con incluso la exclusión completa por parte de los buscadores.

Estas serían las técnicas más habituales que podrían penalizar el posicionamiento del website:

  • Cloaking, mostrar un contenido diferente al usuario del que muestras al bot. (Ip delivery, redirecciones JS, Cabeceras Http, Doorway, etc…). Doorway es un tipo concreto de cloaking, donde su objetivo es que la página para el robot esté optimizada al máximo para conseguir una mayor y rápida indexación, y así poder redirigir el tráfico a la página original.
  • Intercambio de enlaces con paginas no relacionadas (Cross Linking) o penalizadas, o con IPs similares.
  • Utilizar las Granjas de Enlaces o Dominios Sombra, paginas dedicadas al intercambio de enlaces. Se suele sancionar tanto a las granjas como a los enlaces.
  • Uso de texto/contenidos ocultos, o ilegibles para el usuario (mismo color que el fondo), con contenido estratégico.
  • Contenido duplicado, ya sea en la misma o diferentes webs.
  • Sobrecarga (spam) de keywords, y uso de keywords irrelevantes.
  • Enviar consultas automatizadas a Google.
  • Páginas de suplantación de de identidad (phishing), o páginas que instalen software malicioso.
  • Llevar a cabo spam en blogs, guestbooks, etc… Quien tenga un blog, seguro ha sufrido esto alguna vez.

Probablemente este sea el primero de una serie de posts sobre SEO.

Espero que os pueda ser de utilidad!