Sugerencias para el “robots.txt” de tu sitio

Tener un buen robots.txt es fundamental para que tu sitio se crezca. De este archivo depende el posicionamiento de tus páginas en los buscadores. Aquí te vamos a dar dos ejemplos o ideas de como puede ser tu robots.txt.

Para los que no sepáis donde se encuentra o debes colocar el roots.txt deciros que este archivo debería estar en la raiz de tu dominio.

Comenzamos por el robots que nosotros tenemos actualmente en TodoWordPress:

User-Agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /wp-
Disallow: /?s=
Sitemap: http://www.todowp.org/sitemap.xml
Allow: /

Como puedes ver es un código simple y limpio que bloquea el acceso por parte de los buscadores al wp-admin, wp-content, wp-includes, cualquier archivo que empiece por wp- y las búsquedas; informamos de la URL de nuestro sitemap y el resto lo dejamos que se indexe.

Por otro lado, vía Ayuda WordPress, nos encontramos un robots.txt mucho más complejo realizado por SigT:

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10

En este robots.txt se bloquea el wp-admin, wp-content/plugins, wp-content/themes, wp-includes, archivos que comiencen con wp-, las búsquedas, los feeds y trackbacks; informa sobre la localización del sitemap, bloquea algunos buscadores que según el autor del archivo “abusan del sitio” y para finalizar controla a algunos bots para que no “se les valla la pinza”.

En este sitemap tan complejo y viendo que separa el wp-content para que las uploads si se indexe, con el permiso de SigT, añadiría esto:

Disallow: /wp-content/upgrade/

Con esta línea evitamos que se indexe la carpeta que se usa para actualizar los plugins de manera automática.

¿Te animas a compartir el robots.txt que tienes en tu sitio?

Comentarios
  1. Lo publique yo.. de nada!

    Escrito el04/01/2009
    • Francisco Marín

      Poyello, te contesto por mail. Es una pequeña confusión que te la he aclarado en el mail.

      Saludos.

      Escrito el04/01/2009
  2. creo que el robots.txt mas completo que tengo es este:

    User-agent: *
    Allow: /wp-content/uploads/
    Allow: /cat/
    Allow: /tag/
    Disallow: /page/
    Disallow: /page/$/
    Disallow: /2008/
    Disallow: /2008/$
    Disallow: /2009/
    Disallow: /2009/%
    Disallow: /wp-content/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-
    Disallow: /cgi-bin/
    Disallow: /feed
    Disallow: /comments/feed
    Disallow: /*/feed/$
    Disallow: /*/feed/rss/$
    Disallow: /*/trackback/$
    Disallow: /*/*/feed/$
    Disallow: /*/*/feed/rss/$
    Disallow: /*/*/trackback/$
    Disallow: /*/*/*/feed/$
    Disallow: /*/*/*/feed/rss/$
    Disallow: /*/*/*/trackback/$
    Disallow: /trackback/
    Disallow: /author/
    Disallow: /?s=
    Disallow: /search
    Disallow: /*/#more-*
    User-agent: MSIECrawler
    Disallow: /
    User-agent: WebCopier
    Disallow: /
    User-agent: HTTrack
    Disallow: /
    User-agent: Microsoft.URL.Control
    Disallow: /
    User-agent: libwww
    Disallow: /
    User-agent: noxtrumbot
    Crawl-delay: 50
    User-agent: msnbot
    Crawl-delay: 30
    User-agent: Slurp
    Crawl-delay: 10
    # Sitemap
    Sitemap: http://url.com/sitemap.xml

    Escrito el04/01/2009
    • Francisco Marín

      @Neri: Gracias por tu aporte, pero a simple vista, mirándolo muy por encima, veo que habria que modificar esto:
      Allow: /cat/
      Allow: /tag/

      Según la configuración de cada sitio. El primero indica las categorías y el segundo las etiquetas.

      Escrito el04/01/2009
  3. Ya aclarado el malentendido, mera coincidencia, espero seguir ayudando a la comunidad!

    Escrito el04/01/2009
  4. yeah! gracias mil por los tips! los usare casi todos, o sea los k entiendo XD felicidades por este proyecto lo añadire a favoritos!

    Escrito el05/01/2009
  5. Vaya! No tenia en cuenta esto, creo que tendré que ponerme las pilas en cuanto a los robots y verificar que todo funcione correcto.

    Un saludo equipo…

    Escrito el06/01/2009
  6. Neri

    Claro que hay que modificarlo a gusto, ya que en el robots.txt estoy llamando cat a las categorias, por modificacion del htaccess, e invitando a que las indexe (aunque no es necesario) pero prefiero indicarlo, ya saben, solo preferencias :D

    Escrito el06/01/2009
  7. Andrew Baltimore

    Hola, muy interesante. No entiendo nada de esto: #
    # A partir de aquí es opcional pero recomendado.
    #
    # Lista de bots que suelen respetar el robots.txt pero rara
    # vez hacen un buen uso del sitio y abusan bastante…
    # Añadir al gusto del consumidor…
    User-agent: MSIECrawler
    Disallow: /
    User-agent: WebCopier
    Disallow: /
    User-agent: HTTrack
    Disallow: /
    User-agent: Microsoft.URL.Control
    Disallow: /
    User-agent: libwww
    Disallow: /
    #
    # Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
    # idas de pinza, toca decirles que reduzcan la marcha.
    # El valor es en segundos y podéis dejarlo bajo e ir
    # subiendo hasta el punto óptimo.
    #
    User-agent: noxtrumbot
    Crawl-delay: 50
    User-agent: msnbot
    Crawl-delay: 30
    User-agent: Slurp
    Crawl-delay: 10

    ¿Lo podrías explicar un poco mejor? Gracias!

    Escrito el20/03/2009
  8. holas subi el archivo robots.txt pero la duda que tengo es, si debo escribir algun codigo que relacione el archivo en la web osea en el index de mi pagina web o solamente se sube al directorio raiz y listo…gracias

    Escrito el17/04/2009
  9. oskitar, basta con meterlo en el index y poner una metaetiqueta en el head. Cualquier duda que tengas al respecto plantéala en el foro y enseguida encontrarás respuestas ;) http://www.forowp.org

    Escrito el17/04/2009
  10. Pablo Federico

    Está de pelos…

    Escrito el01/05/2009
  11. Una duda. Tengo en mi web una carpeta a la que he prohibido el acceso al robot mediante robots.txt ya que me generaba muchas páginas duplicadas y no era bien visto por google. Y he dado acceso al robot mediante el sitemap puesto en el robots.txt.
    ¿Puede acceder el robot a través del sitemap si le he prohibido con Disallow?
    Es decir tengo este archivo robots.txt
    User-agent:*
    Sitemap: http://www.misitio.com/sitemapanuncios.xml
    Disallow: /anuncios/
    Por un lado le digo que no entre en la carpeta anuncios pero por otro le digo que entre en las páginas que están dentro del sitemap.
    ¿Puede acceder el robot a las páginas del sitemap?
    Y otra pregunta:
    ¿como puedo hacer para que si entre el robot de bing en la carpeta? Ya que este parece que no penaliza.

    Escrito el16/09/2009
    • @Martin: Si en el robots.txt tienes que no accedan a esa carpeta, por mucho que esté en el sitemap.xml no van a entrada.

      Sobre tu segunda pregunta… No entiendo lo que quieres decir. ¿Quien no penaliza? ¿El que no penaliza? ¿Cual es esa carpeta?

      Saludos.

      Escrito el19/09/2009
  12. Ronald Salvatierra

    Hola amigo francisco, pues copie tu robots tal como esta y google me lo acepto al inicio pero luego me lo ha rechazado, utilice una herramienta de checkeo y me dijo que que en el user-agent solo la U podria ir en mayusculas para evitar problemas, ademas salio que el comando allow no era reconocido o algo asi ya que no domino muy bien el ingles jeje, pero veo que ustedes lo usan bastante, entonces no se cual habra sido mi error, espero me ayudes, me despido y que tengan buen dia.

    Escrito el18/09/2009
    • @Ronald Salvatierra: ¿Cual es la herramienda de checkeo que usastes? Me parece a mí que esa herramienta no sirve para mucho. Los robots.txt que hay aquí son totalmente válidos.

      Escrito el19/09/2009
  13. Perdona Francisco pero mi pegunta se ha quedado a medias. Cuando digo que penaliza o no me refiero a google. Al parecer si dejo que el robot entre en todas las páginas que me genera un modulo de anuncios clasificados, se producen muchas páginas duplicadas y eso google lo penaliza de cara a un buen posicionamiento y digo que al parecer el otro buscador bing, no te penaliza por ello.
    Ya me he dado cuenta que el robot no pasa aunque tenga las url en un sitemap en el robots.txt. Lo que he hecho es prohibir la entrada a carpetas donde se producen las duplicidades como view? o rss
    Pregunto
    Poniendo Disallow: /anuncios/view?
    o Disallow: /anuncios/rss
    ¿ya prohibe el acceso a todas las páginas que empiezan por esos términos o tengo que añadir * o $?

    Escrito el19/09/2009
    • @Martin: Eso depende de lo que quieres que se posicione y lo que no. De todos modos no se considera contenido duplicado el RSS así que por el feed no te preocupes.

      Escrito el20/09/2009
  14. Ronald Salvatierra

    Hola amigo Francisco, realmente no se que paso, google le habia puesto la x roja a mi robots.txt pero luego al dia siguiente lo acepto de nuevo, no se si deberia pedirte disculpas jeje, google no me las va dar tampoco, pero lo de la herramienta que dije pues solo daba sugerencias en que no todos los bot iban a poder leerlo de esa manera y bueno luego de leer eso pues yo adjudique eso como la razon de la x roja, aprovecho para hacerte otra consulta, el plugin all in one seo genera un metatag de robots de dos comandos, y la pregunta era si eso traeria algun conflicto con el robots.txt que se sube o no habria ningun problema?, bueno espero me ayudes, gracias de antemano y que tengas buen dia.

    Escrito el19/09/2009
  15. que bien…aqui esta bien explicado y leyendo los comentarios termine de entender todo :)
    ahroa si lo voy a aplicar a mi sitio

    Escrito el07/08/2010

DEJA TU COMENTARIO