Contenu interne dupliqué – SEO – Désindexez vos fichiers PDF
- à novembre 21, 2022
- Par Max
- dans Contenu web, Référencement, Wordpress
0
Table des matières
PDF. 3 lettres évocatrices d’un format de contenu bien connu et qui pourtant, à partir d’un souhait d’amélioration de l’expérience utilisateur, peuvent avoir des répercussions insidieuses sur votre référencement naturel.
Non contrôlés, utilisés par mégarde avec une extension WordPress mal paramétrée, les contenus PDF vont entraîner une prolifération de signaux liés au contenu intra-site dupliqué.
Selon la volumétrie de votre site, même involontaire et incontrôlé, ce contenu dupliqué en interne peut faire des ravages.
Contenu dupliqué – Différence plagiat et contenu intra-site en doublon
Deux sources d’informations ou deux formats comparés qui affichent le même contenu sont des manifestations de contenu dupliqué (duplicate content).
- Plagiat (délibéré de source externe) :
- Lorsque le contenu est doublonné de façon intentionnelle à partir d’un site extérieur.
- Idem sur un site e-commerce, lorsque, par fainéantise ou facilité, il y a reprise de fiches produits fournisseurs.
Une pratique potentiellement pénalisante (déclassement SERP ou retrait des résultats affichés) et malheureusement encore fréquente.
- Contenu intra-site dupliqué (création en double involontaire) :
Pas intentionnel mais tout aussi néfaste.
Lié à la reprise d’un contenu sous un format différent (html vers pdf), la version imprimable.
En effet, avec une fonctionnalité PDF souvent présente pour améliorer l’Ux, on se trouve parfois confronté à un paramétrage technique aux effets sournois.
Des conséquences qui se manifestent par des complications dans l’exploration et l’indexation de votre site.
Installer un plugin WP PDF – Améliorer l’Ux sans pénaliser le SEO avec du contenu intra-site dupliqué
Installer un plugin pour transformer son contenu web en contenu PDF permet à l’internaute de :
- Télécharger la page et de consulter ultérieurement le PDF ou la version imprimée.
- Conserver des contenus jugés intéressants dans une version consultable hors ligne.
- Ne pas le freiner sur l’instant dans sa collecte d’informations et/ou sa recherche.
L’effet pernicieux, si l’on n’y prend garde, provient de la pollution digitale générée par le module d’extension ainsi activé.
En activant l’extension, il y a de fait risque d’accumulation de contenus identiques (duplicate content) présents en interne sous deux formats différents (html et pdf).
Un mauvais signal envoyé aux moteurs de recherche.
Un phénomène nuisible à votre référencement organique.
Plugin installé PDF & Print by BestWebSoft
Cette extension dans sa version gratuite déjà conséquente, peut être considérée comme un générateur de pdf.
Ce module configure automatiquement un pdf, donc une version imprimable de votre contenu à partir de votre page html.

Mise en garde – Avant activation de l’extension PDF & Print by BestWebSoft génératrice de PDF
Au-delà de l’amélioration proposée à l’utilisateur dans sa collecte ou préservation d’informations, il faut aussi avoir en tête les possibles conséquences SEO : l’apparition d’un contenu interne dupliqué.
Avec cette extension, il faut en effet passer à la version payante Pro pour retirer de l’index des moteurs de recherche les documents PDF, par le jeu des réglages internes au plugin lui-même.
Il faut donc se préoccuper de la non-indexation des contenus « pdf » et « print » dès l’installation de ce plugin WP.
Pour que les urls concernées qui proposent, à juste titre, le même contenu, ne soient pas indexées par les moteurs de recherche et considérées comme du « duplicate content ».

Mise en garde – Lecture attentive du Guide de l’extension PDF & Print by BestWebSoft
La confirmation de ce réglage par défaut se trouve au point « 2.6. Search Engine Visibility » du Guide de l’utilisateur [1] qui précise qu’il faut activer / cocher la case « Search Engine Visibility » pour désactiver l’option d’indexation par défaut des contenus pdf et print.
2 options s’offrent alors à vous :
- Version payante pour + de facilité à moins de 50 euros / an.
- Version gratuite + quelques lignes de code.
Trop de précipitation peut être lourde de conséquences.
L’installation de l’extension est facile, le résultat probant.
Mais comme pour les contrats susceptibles de vous engager et pour lesquels il faut (faudrait ?) lire les clauses en petits caractères, ici aussi, il faut agir avec une prudente retenue.
Contenu dupliqué de façon involontaire – Erreurs de paramétrage WP
Contenu dupliqué – Importance du phénomène
Le contenu dupliqué représente 65,88% des erreurs rencontrées dans une stratégie de contenu selon une étude Semrush datée de 2017 [2].
Ce contenu dupliqué en interne n’est pas volontaire, contrairement à la reprise de fiche produit fournisseur pour l’obtention d’un contenu sans effort.
Mais son effet est tout aussi désastreux.
Ce qui est pris en compte comme signal SEO par les moteurs n’est pas l’intention mais le résultat constaté.
Ce qui peut amener à un déclassement dans les SERP voire à des pénalités.
Duplication de contenu en interne : 2 sources majeures
Sur WordPress, on peut attirer l’attention sur deux sources essentielles à l’origine de contenus dupliqués : les PDF et les étiquettes (tags).
- Avant activation d’un module générateur de PDF, il est fortement recommandé d’anticiper la non-indexation des PDF.
Sinon, de chercher à réduire le nombre de pages doublons de fait (puisque résultant d’une transformation de contenu html/php en pdf).
Solution préconisée : quelques lignes d’interdiction (disallow) en fichier .htaccess - Il en va de même pour les étiquettes ou tags automatiquement créées pour les articles de blog.
Cela peut conduire à une inflation éditoriale injustifiée, elle aussi préjudiciable à votre SEO.
Solution préconisée : si vous utilisez l’extension SEO de Yoast, vérifiez les réglages « Yoast > Titres & Métas ».
Cliquez sur l’onglet « Taxinomies » puis dans la partie « Étiquettes », faites glisser le bouton « Méta robots » sur noindex.
Bienfaits de la désindexation
- Réduction du budget crawl [temps consacré par les agents web (bot/spiders) à l’exploration de votre site] pour réorienter celui-ci principalement vers les pages intéressantes.
- Valorisation du référencement de vos contenus qualitatifs puisque par contre coup, les moteurs de recherche ne s’épuisent pas à explorer un ensemble trop important d’urls au contenu identique.
- Rectification positive de l’offre de contenu proposée : un seul format uniforme à indexer (html) en privilégiant le recours à la balise canonique.
- Amélioration de l’UX et renforcement de la valeur ajoutée perçue pour le contenu de chaque page puisque chacune d’entre-elles est devenue unique et prioritaire.
- Préservation d’un trafic généré par la page web en ligne (visite et consultation de page plutôt que simple téléchargement PDF).
- Progression du signal de confiance envoyé aux moteurs de recherche (le pilier n°3 du EAT).
L’absence de contenu dupliqué est un des indicateurs de qualité et de fiabilité du contenu d’un site – « Expertise, Authoritativeness, Trustworthiness » – « Expertise, Autorité, Confiance ».
- Un objectif stratégique (pages obsolètes, rapidement périmées (événementiels), résultats de recherche interne, pages à faible contenu…)
- Un objectif vertueux de respect des règles Webmaster liées au duplicate content de Google.
- Une proposition de contenu unique sur un format donné que l’on sait optimiser (html vs pdf de contenu identique).
Désindexation – Traquer les fichiers PDF sources de contenu dupliqué interne et involontaire
Une commande simple saisie dans la barre d’adresse vous permettra de repérer les PDF déjà indexés et de travailler à leur retrait de l’index Google.
Pour découvrir l’ensemble des documents PDF liés à votre site et indexés par Google :
« site:monurl.fr filetype:pdf » dans Google.

Vous pourrez dès lors décider de leur devenir SEO.
Au besoin, des redirections 301 avec une extension comme « redirection » de John Godley permettront de rediriger de façon permanente votre url erronée et déjà indexée vers l’url canonique.
Désindexer les PDF – Mises en œuvre
Bloquer le crawl des fichiers PDF – Robots.txt
Ce fichier interdit le crawl mais il se peut, selon le serveur, qu’il n’interdise pas l’indexation.
Les modifications doivent être effectuées avec circonspection et testées par un outil de test en ligne.
Google ou un autre outil en ligne comme celui de technicalseo.

Balise html meta robots « no index »
Une directive « Noindex » impliquerait la non-indexation des pages, en préservant l’identification des liens qu’elles contiennent.
Souvent utilisée par des webmasters avertis, son usage restait limité car certains moteurs de recherche ne la prenaient pas en considération (Bing notamment). [3]
Dans le cas de PDF responsables d’un phénomène de doublon en interne, ce n’est pas une solution efficace.
- Cela n’empêcherait pas un crawl inutile.
- C’est inadapté. Cette directive n’est pas valide pour les PDF et formats autres que html.
Pour des documents PDF, c’est la Directive X-Robots-Tag du protocole HTTP en fichier .htaccess qu’il faut utiliser.
Balise meta robots « Disalow » – Fichier Robots.txt
Une alternative recommandée
En cas de schéma structurel clairement identifié pour les urls comme par exemple /*.pdf$ ou /*?print$
Quelques lignes d’interdiction (pdf et impression pdf) inscrites sur le fichier robots.txt.
Une résolution propre et rapide du problème.
Avantage de cette solution
Cette directive implique qu’il n’y a pas crawl, pas d’indexation, pas de suivi des liens et donc une meilleure gestion du budget d’exploration alloué à votre site.
A noter cependant, que si la page PDF était crawlée avant l’utilisation de cette syntaxe, elle pourrait continuer à apparaître dans les résultats de recherche.
Il faudrait alors s’attacher à désindexer les PDF visés avant de modifier le fichier robots.txt.
En fonction du volume de documents concernés, les résultats liés à cette intervention nécessiteront un délai plus ou moins long.
Note : depuis 2016, il faut libeller ces directives avec un « / » avant l’astérisque pour que Google les prenne en compte. [4] [5]

Résultat sur la GSC

Désindexer les fichiers sans code source – Directive X-Robots-Tag du protocole HTTP – Fichier .htaccess
Cette balise correspond par son effet à la balise meta robots « noindex », mais l’information « noindex » est alors présente non pas dans le code source mais dans l’en-tête de la page envoyée par le serveur.
Précisée dans le fichier .htaccess [6], cette directive est utile sur les serveurs Apache pour ne pas prendre en compte les PDF ou les formats différents du format html (Word, Excel, Powerpoint, XML, fichiers vidéos ou images…) dépourvus de balise meta « robots ». [7]

Balise « canonical » – Préciser aux moteurs la version de page à indexer
Complément indispensable de votre travail de désindexation
Orienter les moteurs vers la version de page à référencer
Contrairement au fichier robots.txt et à la balise « no index » qui contiennent des directives, la balise canonique correspond à une indication, pas une directive absolue.
L’idée est de favoriser pour le robot d’exploration la détection de pages web que l’on considère valides pour une indexation : des pages en réponse http 200 (autorisées au crawl), visitées, sans « no index » et canoniques.
Elle n’est pas applicable à un format autre que html.
Vérifier cependant que cette balise est bien présente sur la version html de votre contenu pour aiguiller Google efficacement vers la version de page à référencer.
Résultat sur la GSC
Consulter Pages > Indexation des pages > Pourquoi des pages ne sont pas indexées
Ensemble de pages en double sans url canonique et basées sur une structure récurrente identifiée / ?print=print ou / ?print=pdf

Google Search Console – Vérifier la pertinence des ajustements
La GSC permet de vérifier cette pertinence d’ajustement pour le budget crawl en rapprochant le nombre de pages potentiellement à indexer du nombre de pages valides.
On observe cela en :
- Search Console > Couverture > Valides
- Search Console > Couverture > Exclues > Exclue par la balise « NoIndex »
- Search Console > Pages > Indexation des pages > Pourquoi des pages ne sont pas indexées
Selon l’option de travail que vous avez retenue, vous pourrez être confronté à des résultats entre votre couverture et votre statut d’indexation qui ne combleront pas vos espérances.
Ce n’est pas catastrophique.
Il faudra cependant analyser et reprendre certains points, voire modifier votre approche, pour éliminer correctement ces PDF de l’index Google.
Sitemap temporaire pour désindexer les urls PDF ou ?print
Une alternative pour agir dans un délai court et désindexer des urls de contenu dupliqué formées par votre extension PDF.
Les lister dans un fichier sitemap et soumettre ce fichier à Google de façon temporaire.
C’est un détournement de la fonction sitemap mais qui peut s’avérer utile.
Surtout si les urls concernées sont nombreuses et sans structure récurrente pour les soumettre facilement à désindexation par le biais du formulaire GSC.
Duplication de contenu interne et fichiers PDF – Sources de problèmes SEO
Les fichiers PDF considérés dans cet article sont ceux générés automatiquement pour offrir une possibilité de lecture hors ligne, une version imprimable ou une possibilité de collecte documentaire (par téléchargement) sur un sujet précis.
Lorsqu’ils sont mal gérés, ils peuvent se révéler une source de complications pour votre référencement naturel ( contenus intra-site en double, dilution de statistiques, moindre efficience du crawl d’exploration…)
Un versant du contenu dupliqué qui peut affecter votre site et son positionnement SEO.
Pour les autres formes de contenus dupliqués (hors plagiat délibéré) qui ne sont pas issus d’un paramétrage technique involontaire, la réécriture de contenu par un rédacteur professionnel est une bonne alternative.
Elle permettra de reformuler sans plagiat, d’optimiser et d’actualiser un contenu pénalisant pour votre SEO.
Bref, d’en faire un contributeur positif de positionnement dans les SERP.

Sources
[1] Guide d’utilisation extension WP Pdf & print by BestWebSoft
[2] Semrush – Infographie : 40 erreurs de seo technique – Etude Semrush 2017
[3] Abondance – Robots.txt et Directive Noindex: les alternatives – 2019-07-08
[4] Abondance – Google a modifié son mode de lecture des fichiers robots.txt – 2016-02-25
[5] robots-txt.com – Robots.txt : utiliser les wildcards – Non daté
[6] www.definitions-seo.com – Définition de X-Robots-Tag – 2018-04-13
[7] developers.google.com – Spécifications des balises Meta, de data-nosnippet et de X-Robots-Tag – 2022-09-09