Robots.TXT ¿Para que sirven en un blog de WordPress?
Hablar de la optimización de nuestro sitio web basado en WordPress no quiere decir, que el mismo únicamente deba estar preparado para aceptar la navegación desde los dispositivos móviles como lo habíamos mencionado anteriormente sino también, que este perfectamente bien estructurado desde sus mismas entrañas.
Muy difícilmente alguien podría llegar a modificar la estructura con la que cuenta este Gestor de Contenido CMS, pues ello ya viene de forma predeterminada y lista para ser utilizada por cualquier usuario. Lo único que podríamos llegar a modificar (si tuviésemos la oportunidad de hacerlo) esta en la Plantilla de WordPress, existiendo una gran cantidad de trucos que nos ayudará a personalizarla y así, mantener una armonía con la temática tratada.
Por supuesto que no es lo único que se puede llegar a mirar dentro de la estructura de un blog de WordPress, pues si tuviésemos la posibilidad de empezar a navegar por cada uno de sus rincones lograríamos notar la presencia de una gran cantidad de carpetas y directorios que bajo ningún pretexto, tienen que ser movidos o cambiados de nombre. Te recomendamos darle un pequeño vistazo a esta estructura cuando hagas uso de tu cliente preferido ftp pues con el mismo, tendrás la oportunidad de ver a todos estos elementos que forman parte de su estructura. Ahora bien, sin tener que introducirnos por cada uno de estos rincones, quizá debamos prestar especial atención a la misma «raíz» de todo nuestro blog de WordPress utilizando a este cliente ftp que hemos recomendado.
En ese mismo instante te encontrarás con un interesante archivo que tiene el nombre de «robots.txt». El mismo ha llegado a pasar desapercibido a la vista de una gran cantidad de personas debido a que desconocen, la verdadera importancia con la que cuenta. Previamente y antes de empezar nuestro análisis e investigación sobre lo que hemos averiguado de este pequeño archivo, debemos sugerirte que el mismo esta dedicado a tratar de ayudarte a conseguir posicionamiento y mejor tráfico de calidad hacia tu sitio web.
¿Que mismo es el archivo robots.txt?
Tal y como lo hemos sugerido en los párrafos anteriores, este viene a ser un pequeño archivo que tiene ese nombre, el cual esta ubicado en la misma raíz de tu sitio web. La importancia con la que cuenta es grande, pues todos los rastreadores de Internet así como también las denominadas «arañas», son quienes se encargarán de tratar de ubicar a este archivo para posteriormente empezar a evaluar la información de la temática de un blog de WordPress. Esta situación se ejecuta en todo instante, aún cuando un sitio web sea privado.
Ahora bien, si nunca llegaste a revisar a este archivo de los «robots.txt», posiblemente que estés dando autorización a los rastreadores web y a las arañas a que puedan investigar absolutamente todo de tu blog de WordPress. Una configuración acertada, es tratar de modificar a este pequeño archivo para que los rastreadores web exploren únicamente lo que nosotros deseemos mostrar. Previamente debemos comentar, que este archivo bajo ningún pretexto esta encargado de proteger al sitio web sino más bien, de ordenar o redirigir a los rastreadores web sobre los lugares hacia donde tendrás acceso. La edición de este archivo es algo muy fácil de realizar pues el mismo no viene a ser uno del tipo HTML sino más bien uno TXT tal y como lo sugiere su formato en el extensión. Dicho de otra manera, si tenemos información privada en alguna carpeta interna dentro de nuestro sitio web, una buena configuración del archivo robots.txt impedirá el acceso de los rastreadores hacia tal información.
¿Donde específicamente se encuentra el archivo robots.txt?
Si has ingresado por diferentes ocasiones a tu sitio web utilizando a algún cliente ftp (de los tantos que mencionamos en un artículo anterior), entonces podrás observar que el archivo robots.txt esta ubicado en la raíz de tu dominio, lo cual podría llegar a definirse de una forma muy similar a lo siguiente:
http://youdomain.com/robots.txt
Tal y como podrás notar, la ubicación de este archivo robots.txt es muy fácil de ser encontrada, algo que debes tomar en cuenta para el momento en el que alguna de las herramientas de Google (o cualquier otro similar) te solicite sobre tal localización. Sobre este último aspecto debemos mencionar, que si por alguna razón llegaste a eliminar a este archivo robots.txt (o lo moviste hacia otro lugar diferente), los rastreadores web asumirán que tu blog de WordPress no lo tiene y por tanto, empezarán a realizar una búsqueda por cada uno de los rincones de tu sitio web, lo cual quiere decir, que la indexación se realizará inclusive para aquellos archivos que no guarden importancia mi relación con la temática planteada en el blog.
¿Cual es la estructura básica de un archivo robots.txt?
Alguien podría llegar imaginar, que este archivo robots.txt tiene una estructura compleja debido a todo lo que hemos mencionado anteriormente. Nada más errado que dicha situación, pues en realidad el archivo robots.txt cuenta con una estructura bastante simple y sencilla que puede llegar a asombrar a todos:
User-agent:<
Disallow:
El primer término hace referencia al permiso que daremos a los distintos motores de búsqueda para que puedan actuar sobre nuestro sitio web, ello mientras que el segundo término (parámetro) estará permitiendo o no, el acceso de los rastreadores web hacia determinadas carpetas o directorios.
Tal y como te podrás dar cuenta, este archivo de los robots.txt tiene únicamente a dos elementos (parámetros) presentes, los cuales deben contar obligatoriamente con unos cuantos valores (a manera de interruptores) para que los rastreadores web, sepan que hacer en el interior de tu blog de WordPress. Te mencionaremos a continuación seguir unos cuantos ejemplos de ello para que puedas configurar a este archivo robots.txt de acuerdo a tu conveniencia y necesidades.
User-agent:*
Disallow: /test/
En el ejemplo que hemos mostrado con los parámetros anteriores se puede notar la presencia de un «*» en el primer término; ello quiere decir, que estos rastreadores web actuarán de acuerdo a todos los motores de búsqueda como criterio generalizado. En cuanto al segundo término, allí hemos incluido a «/test/», la cual en realidad vendría a representar una carpeta o directorios. Con dicha configuración, los rastreadores web no tendrán permiso para acceder hacia dicho lugar.
User-agent:*
Disallow: /test.html
El ejemplo anterior es muy similar al que mencionamos un poco más arriba aunque, tenemos el segundo parámetro con una pequeña variación. Aquí se indica a los rastreadores web que «no toquen» al archivo test.html.
User-agent:*
Disallow: /
El segundo parámetro en el ejemplo anterior simplemente esta indicando (por medio del archivo robots.txt) que todo el sitio web está excluido de un análisis por parte de los rastreadores web.
User-agent:*
Disallow:
o
User-agent:*
Allow: /test/
Cualquiera de las dos opciones que hemos colocado en la parte superior simplemente están indicando a los rastreadores web, que tienen autorización para poder incluir a todo sitio web en sus análisis y búsquedas para indexar.
User-agent: googlebot
Disallow: /test/
El ejemplo anterior es muy similar a lo que mencionamos al inicio con el primero; la diferencia se encuentra en el parámetro que hemos colocado en «User-agent», pues allí se esta ordenando únicamente a los rastreadores web, que no se utilice a los motores de Google.
User-agent: *
Disallow: /test/
Sitemap: http://www.yourdomain.com/sitemap.xml
En el ejemplo colocado anteriormente hemos aumentado una tercera línea, en la cual simplemente se esta indicando por medio del archivo robots.txt, la inclusión de un sitio web adicional para el análisis por parte de los rastreadores web.
Con todo lo que hemos mencionado anteriormente y a base de dichos ejemplos, ya tendremos la posibilidad de empezar a configurar o modificar el archivo robots.txt de acuerdo a nuestra necesidad. En la parte superior hemos colocado a una imagen, en la cual ya se puede notar el efecto de los rastreadores web sobre el archivo robots.txt, lo cual prácticamente simplificaría todo lo explicado en párrafos y líneas anteriores.
¿Como se puede crear un archivo robots.txt?
Básicamente existen dos maneras para poder crear a este archivo robots.txt, siendo la primera de ellas, aquella en la que tendremos que crear a este documento con tal formato y siguiendo las sugerencias o ejemplos que hemos mencionado en la primera parte de este artículo (los párrafos anteriores). Posteriormente, a este archivo lo podremos llegar a subir hacia la raíz de nuestro sitio web utilizando a cualquier cliente ftp. Ahora bien, si tienes algo de temor en realizar esta tarea pensando que ello va a hacer que tu sitio web deje de funcionar, entonces te recomendamos hacer uso de cualquiera de las siguientes herramientas online.
SeoBook : (http://goo.gl/HiC8Qx)
Mcanerin: (http://goo.gl/opd46S)
De nuestra parte te recomendamos comunicarte con los administradores de Factoría Digital para que sean ellos, quienes te asesoren de forma más especializada, sobre la manera de crear este archivo para que posteriormente lo subas a la raíz de tu sitio web.
¿Como puedo probar si funciona el archivo robots.txt?
Luego de que hayas cumplido con la tarea anterior (haber subido al archivo robots.txt a la raíz del sitio web) entonces es momento de saber, si el mismo estará perfectamente bien estructurado y ubicado en el lugar que le corresponde. Para ello te recomendamos hacer uso de una de las herramientas de Google (webmaster Tools), la cual te ayudará muy fácilmente a conocer esta información.
En la parte superior hemos colocado a una captura sobre esta herramienta de Google; allí solamente tienes que elegir a tu sitio web con la primera opción (un botón con opciones desplegables), teniendo que seleccionar a alguno de los sitios web que sean de tu autoría o que administras. Si los mismos no están presentes allí tendrás que hacer uso del botón ubicado un poco más abajo, el cual te ayudará a agregar uno adicional a tu cuenta.
La nueva captura que te hemos colocado en la parte superior es una pequeña prueba que hemos hecho con nuestros sitios. Allí mismo puedes apreciar al área en donde se encuentran los parámetros que mencionamos un poco más arriba. En la parte inferior está un botón que generalmente está de color rojo cuando aún no se ha hecho la prueba. Luego de que lo presiones deberá cambiar haberse para mencionarte que todo esta OK (de color verde). En el caso de que exista algún tipo de error, al mismo lo podrás apreciar hacia la barra lateral izquierda, lugar hacia donde tendrías que ir para tratar de darle solución con el asistente que generalmente ofrece Google para este tipo de casos.
Limitaciones del archivo robots.txt
A pesar de las grandes conveniencias que puede llegar a tener este archivo robots.txt, ello no quiere decir que no pueda hacer todo. Existen unas cuantas limitaciones que lastimosamente no serán solventadas por un usuario cualquiera. A las mismas las trataremos de identificar a continuación para que sepas lo que debes y lo que no puedes llegar a hacer con este importante archivo.
1. El archivo robots.txt sólo puede dirigir y no forzar
Nada más cierto de lo que hemos mencionado con el titular anterior; el archivo robots.txt solamente «sugiere» a los rastreadores web que no hagan el indexado y que tampoco exploren la ruta que nosotros hayamos definido mediante los respectivos parámetros. De todas maneras, pueden existir otro tipo de métodos que lastimosamente llegarán a introducirse hacia los lugares que nosotros hayamos considerado como «privados» para los rastreadores web y las arañas, siendo esa la razón por la cual deberíamos optar por un mejor sistema de seguridad para estas carpetas o directorios. La inclusión de una contraseña en las propiedades de ellas puede ser la solución pues así, ningún tipo de elemento tendrá la capacidad para ingresar a verlas.
2. Definición exacta de la carpeta para no indexar
Hay una situación algo interesante con la que se llegan a encontrar una gran cantidad de blogueros y administradores de sitios web. Si en el archivo robots.txt hemos definido a una carpeta o archivo que no debe ser indexada por estos rastreadores web (o cualquier otro elemento similar), dentro de los parámetros en las opciones que mencionamos anteriormente, este nombre tiene que estar exactamente bien definido de acuerdo a lo que admiremos vía ftp, en la estructura de nuestro sitio web. Por ejemplo, si tenemos una carpeta que deseamos bloquear a estos rastreadores web que tiene el nombre de «factoria», dicho nombre tiene que ser escrito tal y como lo puedes apreciar y más no como «Factoria». Ello se debe, a que la primera letra (en minúsculas o en mayúsculas) tiene un diferente código ASCII, el cual no será interpretado como tal por estos rastreadores web y por tanto no será respetado según lo quiera ordenar el archivo robots.txt.
3. Direcciones URL de otro sitio web en el archivo robots.txt
Para muchos expertos, esta viene a ser una de las principales inconveniencias que se pueden llegar a admirar en el archivo robots.txt. Uno de los ejemplos que dimos anteriormente incluía a la posibilidad de agregar un nombre de dominio dentro de la configuración de este archivo. Si esa URL pertenece a nuestro mismo sitio web no existirá ningún tipo de problema, aunque si en cambio esa URL pertenece a una web afiliada (con otro nombre de dominio), los rastreadores web simplemente no harán caso de ello y lo estimarán como si no estuviese presente dicho parámetro.
Personalizar al archivo robots.txt en blogger
Hasta el momento hemos tratado de forma general todo lo referente a este archivo robots.txt, trucos y consejos que pueden ser útiles sin ningún problema en WordPress. Debido a que en un momento determinado llegamos a realizar una gran cantidad de artículos que hablan sobre blogger, quizá te estés preguntando sobre el mecanismo a seguir para poder editar o generar a este archivo robots.txt en dicha plataforma de Google para ello, te sugerimos seguir los siguientes pasos:
- Ingresar a tu cuenta de blogger.
- Ahora dirígete hacia su Dashboard.
- Luego dirígete hacia la
Configuración -> Preferencias de Búsqueda -> Rastreadores de Indexación -> Personalizar robots.txt -> Editar -> SI
Si ya llegaste a generar anteriormente a este archivo robots.txt solamente tendrás que pegar el código en la plantilla que te aparecerá según los pasos sugeridos anteriormente. Luego solamente tienes que guardar los cambios y posteriormente, realizar el análisis mediante las herramientas de Google que recomendamos un poco más arriba.
Personalizar al archivo robots.txt en WordPress
Bajo ningún pretexto deberíamos obviar de nuestra parte a esta situación, es decir, que si hemos tratado ligeramente a blogger con más sentido, vamos a recomendar lo que debes hacer para personalizar y mejorar la eficacia del archivo robots.txt. Para ello te vamos a recomendar copiar y pegar todo el código que mostraremos a continuación, algo que puede ayudarte inmensamente para que los rastreadores web indexen únicamente lo necesario y primordial.
sitemap: http://www.yourdomain.com/sitemap.xml
User-agent: *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /archives/
disallow: /*?*
Disallow: *?replytocom
Disallow: /wp-*
Disallow: /comments/feed/
User-agent: Mediapartners-Google*
Allow: /
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Igual que en el caso anterior (blogger), luego de que hagas uso de este código te recomendamos hacer el respectivo análisis con las herramientas de Google para que sepas, si todo esta funcionando perfectamente bien. Esperamos que este artículo haya sido de tu interés y que hayamos tenido la capacidad de despejar, las diferentes dudas que pudimos haber tenido sobre este archivo robots.txt.
Antes de realizar dicha modificación con el código facilitado, si ya tenías unas cuantas instrucciones personalizadas en este archivo robots.txt dentro de la raíz de tu dominio, te recomendamos que realices una sencilla y pequeña copia de seguridad de esa información en un archivo completamente distinto y en tu ordenador personal. Con ello tratamos de decir, que si pudiese llegar a existir alguna falla (que no debería llegar a presentarse), entonces solamente bastará con restaurar al código original eliminando al que sugerimos. También debemos mencionar en este instante, que los resultados bajo ningún pretexto los vas a ver inmediatamente sino que deberás esperar algo de tiempo para que todo se «enrumbre» nuevamente, es decir, para que los efectos lleguen a mostrarse cuando el nuevo indexado de tu sitio web y cada uno de tus posts en el blog de WordPress, hayan llegado a los motores de búsqueda.
Todo este tutorial que hemos explicado es muy fácil y sencillo de manejar especialmente para quienes estén trabajando con el Gestor de Contenido CMS de WordPress, situación podría llegar a diferir un poco en el manejo de blogger. No estamos haciendo referencia a la forma de poder editar a este archivo de robots.txt te pues ello, se lo llegó a mostrar un poco más arriba y el procedimiento es realmente fácil y sencilla de seguir. Estamos haciendo referencia primordialmente al análisis que hace Google y su herramienta (webmaster Tools), pues si algo llegase a funcionar mal en esta tarea, podrías recibir algún mensaje de advertencia para que corrijas dentro de tu blog. Ello mismo en la mayoría de los casos representa tener que realizar variaciones en las etiquetas más utilizadas e inclusive, en la estructura con la que cuenta tu plantilla de blogger. Te recomendamos seguir alguno de los tutoriales que mencionamos anteriormente sobre esta plataforma de Google, en donde encontrarás información importante sobre el buen manejo de cada una de sus funciones.
He trabajado con Wordpress durante largos años, conociendo cada uno de sus trucos en las varias versiones desarrolladas. Dar a conocer éstos trucos mediante videos y posts, es un orgullo para que muchos, puedan aplicarlos a sus respectivos blogs.