Un fichier robots.txt optimisé pour WordPress

Le fichier robots.txt correspond à ceci  « Le protocole d’exclusion des robots est une ressource de format texte qui peut être placée à la racine d’un site web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d’indexation des moteurs de recherche. Par convention, les robots consultent robots.txt avant d’indexer un site Web. Sur le serveur Web, cette ressource est fréquemment enregistrée dans un fichier texte appelé robots.txt.

 

Pour WordPress, il est essentielle d’empêcher le moteur de recherches d’accéder aux dossiers sensibles, comme wp-admin ou wp-include, qui ne devraient pas être indexés par mesure de sécurité. Pour cela voici un fichier robots.txt optimisé pour la plupart des sites tournant sous WordPress a inséré à la racine de votre site (dan sle dossier www pour ceux qui en ont un) :

[pastacode lang= »markup » message= » » highlight= » » provider= »manual »]

User-agent: *
# On empêche l'indexation des dossiers sensibles
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/uploads
Disallow: /wp-content/themes
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?
# On empêche l'indexation des fichiers sensibles
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.pdf$
Disallow: /*.doc$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Allow: /*.js$
Allow: /*.css$
# On indique au récuperer le lien vers notre sitemap
Sitemap: https://www.creazo.fr/sitemap.xml

[/pastacode]