Robots.txt en WordPress para mejorar el SEO
¿Qué son los robots txt?
Un archivo robots. txt indica a los rastreadores de los buscadores a qué URLs de tu sitio pueden acceder. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google.
¿Para qué sirve un archivo robots. txt?
Los archivos robots.txt sirven principalmente para gestionar el tráfico de los rastreadores a tu sitio, aunque también suelen usarse para que Google no rastree determinados archivos.
Antes de crear o editar un archivo robots.txt, deberías conocer las limitaciones de este método de bloqueo de URLs. En función de tus objetivos y de tu situación, quizás te interese usar otros mecanismos para que tus URLs no se puedan encontrar en la Web.
Si quieres que una página web no aparezca en Google, bloquea la indexación con noindex
- Algunos buscadores pueden no seguir determinadas directivas del archivo robots.txt.
Los archivos robots.txt no pueden obligar a los rastreadores a seguir sus instrucciones cuando rastrean tu sitio; son los propios rastreadores los que deciden si seguirlas o no. El robot de Google y otros rastreadores web fiables sí cumplen las instrucciones de los archivos robots.txt, pero puede que otros rastreadores no lo hagan. Por tanto, si quieres ocultar información a los rastreadores web, es mejor que utilices otros métodos de bloqueo, como el de proteger con una contraseña los archivos privados que haya en tu servidor. - Cada rastreador interpreta la sintaxis de una forma.
Aunque los rastreadores web de confianza siguen las directivas de los archivos robots.txt, cada rastreador puede interpretar las directivas de forma distinta. Por tanto, debes dirigirte a los diferentes rastreadores web con la sintaxis adecuada, ya que es posible que algunos no entiendan determinadas instrucciones.
- Es posible que las páginas bloqueadas mediante un archivo robots.txt se indexen si otros sitios incluyen enlaces a ellas.
Si bien Google no rastrea ni indexa el contenido que está bloqueado con un archivo robots.txt, puede que encontremos e indexemos URLs bloqueadas si hay enlaces a ellas en otros sitios de la Web. En consecuencia, esas URLs y otra información pública, como el texto de los enlaces que llevan a las páginas en cuestión, pueden seguir apareciendo en los resultados de la Búsqueda de Google. Para evitarlo, protege los archivos con contraseña en tu servidor, usa la etiqueta meta o el encabezado de respuestanoindexo simplemente quita la página por completo.