Dirigiendo las Arañas

De Libro de Mercadeo y Posicionamiento web

Contenido



Cuando optimizamos un sitio web muchas veces es necesario dirigir o bien poder decirle a las arañas o robots de los motores de búsqueda por donde queremos o no queremos que vaya, qué contenidos son indexables y cuales no, para ello usaremos sigamos las sugerencias expuestas seguidamente.

[editar] Restricciones para el Robot

Hay muchas situaciones donde se debe restringir el acceso de un robot a ciertas páginas, o se debe controlar el flujo del robot dentro del sitio web. Por ejemplo, páginas con información sensible de la empresa, listados de clientes, etc.

Algunas formas de controlar el flujo de los robots es editando el archivo:

robot.txt

Es un archivo localizado en la raíz del sitio web, donde damos directrices a los robots de qué paginas o carpetas indexar y cuáles no. Pero NO se recomienda mucho para el caso de que no se desee que las páginas ahí seleccionadas no sean mostradas pues los spiders lo respetaran, pero si desde otro sitio se hace una referencia a dicha página, entonces el buscador la mostrará!. Si lo que se desea es proteger páginas es mejor usar el .htaccess asegurándolas o asegurando la carpeta con clave.

Encontrará mucha información en www.Robotstxt.org.

Un fuente de excelentes herramientas para trabajar con el robot.txt y ahorrarse tiempo puede ser localizada en

http://www.davidnaylor.co.uk/the-robotstxt-builder-a-new-tool.html

En cualquier caso algunos ejm del contenido de robot.txt son:

Para que indexe todo:

User-agent: *

Disallow:

Para que no indexe nada del sitio:

User-agent: *

Disallow: /

(http://www.robotstxt.org/robotstxt.html)

Para que no indexe el contenido del folder /images/

User-agent: *

Disallow: /images/

Un uso bien útil de éste archivo en sitios dinámicos que generan varias urls para el mismo producto, y en tal caso Google los ve como contenidos repetidos y por tanto es afectado en ranking del sitio, por ejemplo:

www.sitio.com/index.php?&id=3423&cat=32&itemid=540

que va a la misma página que:

www.sitio.com/camisas/hombre/camisa-polo.html

Lo que se hace para evitar dicha duplicación de contenido sería algo así como:

User-agent: *

Disallow: /index.php?&id

Con eso los robots no indexaran nada que empiece con index.php?... solo indexaran las url amistosas.  ;)

Además podrías especificar que alguna instrucción es solo para Google bot u otro.

De no existir el robot.txt el robot indexara todo el sitio y cualquier carpeta.

En Herramientas para el Webmaster de Google se muestran las páginas que han sido indexadas y ahí mismo se le da una herramienta para que cree un archivo robots.txt que le permite bloquear partes del sitio.

[editar] Meta etiqueta Robot

Esta metaetiqueta es o puede ser parte de la cabecera de cualquier página y básicamente tiene el objetivo de dar información al robot si indexar o no indexar una página (otros comandos como revisit after 1 day pueden ser ignorados ya que el robot revisitará la página de acuerdo con la periodicidad de cambio), por eso básicamente reconocemos tres componentes en ella:

1. cache: Le dice al robot si dicha página debe aparecer o no en los resultados de cache.

2. index: Le informa si la página debe ser indexada o no, por ejemplo "noindex" se usará para que no sea leída del todo..

3. follow: Le informa al robot si los links de la página deben ser seguidos o no, aplicando un "nofollow" entonces todos los links no serán seguidos (no se pasará ningún valor a los links) aunque si leídos (no es una buena idea usarla de acuerdo a las normal actuales de posicionamiento, además, si dicha página gana links externos, todo su "jugo" o valor NO será pasado tampoco al resto del sitio web)

[editar] Restricciones dependiendo del agente y de la Ip

Es posible crear en el servidor algunas reglas para que si el visitante tiene cierto nombre (y ahí se anota el nombre de los robots que se quieren limitar ) o cierta ip (y se anota la ip de los robots que se quieren limitar) entonces se bloquee el acceso. No hablaré mucho de ésta técnica pues generalmente es usada como una estrategia para generar doorways y penalizada. Pero por supuesto que si tiene el uso aquí descrito, no debe ser penalizada.

El estándar para indicarle a un robot que se detenga es: <meta name="robots" content="noindex,nofollow"> o crear un archivo en Word pad (simple texto) robots.txt que debe estar localizado en la raíz del sitio web; donde se indique lo que no hay que vistar, el estándar es dado aquí: http://www.robotstxt.org/wc/exclusion.html

Herramientas personales