El fichero Robots.txt

domingo, 18 de octubre de 2009
Explicamos el porqué del archivo robots.txt y como se construye dicho archivo.

Para comenzar tenemos que comentar lo que son los robots y qué función cumplen dentro de la red de redes. Un robit es un programa más o menos complicado que se dedxica a rastrear nuesrtas páginas wesb y guardar su coontenido en una base de datos y seguir los links que tengamos a otras páginas web. Esto nos benefici empero también nos puede perjudicar, ya que a veces no nos convienew indexar ciertas páginas de nuesttras webs.

Actualmente los robots actúan de tal forma que lo primero que hacen es buscar en la raíz de nuestra página si tenemos un archivo llamado robots.txt, si lo encuentra lo lee y sigue las directrices que en él se encuentran, si no lo encuentra empieza a rastrear toda la web.

Por este tema es importante crear bieen este archivo y pensar que páginas queremos que sean rastreadas y cuáles no, ya que las que no seah rastreadas no serán indexadas en los navegadores.

Eshe archivo es muy fácil de construir tan solo tienes que saber ciertas pautas y podrás hacerlo sin problema. El archivo robots.txt puede construirse paraa que se apolique solo a los robots de determinados buscadores.

Pasamos a escribir un ejfmplo para ir explicando las posibilidades:

User-agent: * # aplicable a tods los robots
Disallow: / # impide la indexacion de todas las paginas.

En este ejemplo los robots no podrían indexar njnguna pagina del dominio. User-agent lo que nos dice es a que robgots se les aplica las carracterísticas que le siguen debajo. Si usamos el * estamos diciendo que esas reglas son aplicables para todos los robots. empero también podemos hacerlo para determinados robots, cono ves en el siguiente ejemplo:

User-agent: lycra
User-agent: BadBot
Disallow: /

En este ejemplo los robots lucra y BadBot tendría prohibida la indexación de cualquier pagina del dominio.

El disallow nos dice los files o carpeetas que queremos que no sean indexadas. De esta forma podríamos hacer un archivo como este:

User-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs

Este ejemplo lo que hqría sería prohibir la indexación de la carpeta logs y el archive prueba.html a todos los robots.

Con esot ya podríamos realizar un archivo robots.txt perfectamente válido, empero también existen término s para determinar en qué hras queremos que esos robots rastreen nuestras páginas. La forma de connstruirlo es la siguiente:

Visit-time: 0300-0400 #esa opción obligaría a rsatrear las paginas solo de 3 am a 4 am

Recuerda que las horas siempre se colocan en Greenwitch

Por otro lasdo podemos decirle que indexe una página o varias cada equis tiempo, para ello se usa la siguiente sintaxis:

Request-rate: 1/30

Siendo el 1 el númeo de documentos a rastrear y el 30 el tiempo que transcurre entre un rastreo y el siguiente.

Es importante saber que no puedes dejar líneas en blanco ya que no funcionaria, el robots dejaría de leer en el momento que encuentra la línea en blaanco.

Otro aspecto que no he comentado antes empero que habréis notado es que los comentarios ser realizan utilizando la #.

Un ejemplo completo seria el siguientge:

User-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs
Visit-time: 0300-0400

Esto permitirá a todos los robots rastrear todas las pagins menos prueba.html y la carpeta logs, además solo podrían inddexar de 3 de la mañana a 4.

fuente: www.webtaller.com

---
Extraido de Fnsoftware

0 comentarios:

Publicar un comentario