Contenu interne dupliqué – SEO – Désindexez vos fichiers PDF

à novembre 21, 2022
Par Max
dans Contenu web, Référencement, Wordpress
0

Table des matières

Webmastering WordPress – Contenu interne dupliqué - Désindexer PDF - Améliorer SEO, crawl budget et contrôler contenu intra-site dupliqué - Max INNOCENZI – Webmaster WP - Rédacteur Web SEO – Bretagne - Rennes

PDF. 3 lettres évocatrices d’un format de contenu bien connu et qui pourtant, à partir d’un souhait d’amélioration de l’expérience utilisateur, peuvent avoir des répercussions insidieuses sur votre référencement naturel.

Non contrôlés, utilisés par mégarde avec une extension WordPress mal paramétrée, les contenus PDF vont entraîner une prolifération de signaux liés au contenu intra-site dupliqué.
Selon la volumétrie de votre site, même involontaire et incontrôlé, ce contenu dupliqué en interne peut faire des ravages.

Contenu dupliqué – Différence plagiat et contenu intra-site en doublon

Deux sources d’informations ou deux formats comparés qui affichent le même contenu sont des manifestations de contenu dupliqué (duplicate content).

Plagiat (délibéré de source externe) :
- Lorsque le contenu est doublonné de façon intentionnelle à partir d’un site extérieur.
- Idem sur un site e-commerce, lorsque, par fainéantise ou facilité, il y a reprise de fiches produits fournisseurs.
  Une pratique potentiellement pénalisante (déclassement SERP ou retrait des résultats affichés) et malheureusement encore fréquente.
Contenu intra-site dupliqué (création en double involontaire) :
Pas intentionnel mais tout aussi néfaste.
Lié à la reprise d’un contenu sous un format différent (html vers pdf), la version imprimable.
En effet, avec une fonctionnalité PDF souvent présente pour améliorer l’Ux, on se trouve parfois confronté à un paramétrage technique aux effets sournois.
Des conséquences qui se manifestent par des complications dans l’exploration et l’indexation de votre site.

Installer un plugin WP PDF – Améliorer l’Ux sans pénaliser le SEO avec du contenu intra-site dupliqué

Installer un plugin pour transformer son contenu web en contenu PDF permet à l’internaute de :

Télécharger la page et de consulter ultérieurement le PDF ou la version imprimée.
Conserver des contenus jugés intéressants dans une version consultable hors ligne.
Ne pas le freiner sur l’instant dans sa collecte d’informations et/ou sa recherche.

L’effet pernicieux, si l’on n’y prend garde, provient de la pollution digitale générée par le module d’extension ainsi activé.

En activant l’extension, il y a de fait risque d’accumulation de contenus identiques (duplicate content) présents en interne sous deux formats différents (html et pdf).
Un mauvais signal envoyé aux moteurs de recherche.
Un phénomène nuisible à votre référencement organique.

Plugin installé PDF & Print by BestWebSoft

Cette extension dans sa version gratuite déjà conséquente, peut être considérée comme un générateur de pdf.
Ce module configure automatiquement un pdf, donc une version imprimable de votre contenu à partir de votre page html.

WordPress – Contenu intra-site dupliqué – Prévenir la non-indexation des PDF dès l’activation de l’extension

Mise en garde – Avant activation de l’extension PDF & Print by BestWebSoft génératrice de PDF

Au-delà de l’amélioration proposée à l’utilisateur dans sa collecte ou préservation d’informations, il faut aussi avoir en tête les possibles conséquences SEO : l’apparition d’un contenu interne dupliqué.

Avec cette extension, il faut en effet passer à la version payante Pro pour retirer de l’index des moteurs de recherche les documents PDF, par le jeu des réglages internes au plugin lui-même.
Il faut donc se préoccuper de la non-indexation des contenus « pdf » et « print » dès l’installation de ce plugin WP.
Pour que les urls concernées qui proposent, à juste titre, le même contenu, ne soient pas indexées par les moteurs de recherche et considérées comme du « duplicate content ».

Webmastering WordPress - Contenu intra-site dupliqué - Extension PDF & Print by BestWebSoft - Seule la version payante permet de désindexer les pdf à partir des réglages internes - Max INNOCENZI – Webmaster WP - Bretagne - Rennes

WordPress – Contenu intra-site dupliqué – Seule la version payante permet de désindexer les pdf à partir des réglages internes

Mise en garde – Lecture attentive du Guide de l’extension PDF & Print by BestWebSoft

La confirmation de ce réglage par défaut se trouve au point « 2.6. Search Engine Visibility » du Guide de l’utilisateur [1] qui précise qu’il faut activer / cocher la case « Search Engine Visibility » pour désactiver l’option d’indexation par défaut des contenus pdf et print.
2 options s’offrent alors à vous :

Version payante pour + de facilité à moins de 50 euros / an.
Version gratuite + quelques lignes de code.

Trop de précipitation peut être lourde de conséquences.
L’installation de l’extension est facile, le résultat probant.
Mais comme pour les contrats susceptibles de vous engager et pour lesquels il faut (faudrait ?) lire les clauses en petits caractères, ici aussi, il faut agir avec une prudente retenue.

Contenu dupliqué de façon involontaire – Erreurs de paramétrage WP

Contenu dupliqué – Importance du phénomène

Le contenu dupliqué représente 65,88% des erreurs rencontrées dans une stratégie de contenu selon une étude Semrush datée de 2017 [2].

Ce contenu dupliqué en interne n’est pas volontaire, contrairement à la reprise de fiche produit fournisseur pour l’obtention d’un contenu sans effort.
Mais son effet est tout aussi désastreux.
Ce qui est pris en compte comme signal SEO par les moteurs n’est pas l’intention mais le résultat constaté.
Ce qui peut amener à un déclassement dans les SERP voire à des pénalités.

Duplication de contenu en interne : 2 sources majeures

Sur WordPress, on peut attirer l’attention sur deux sources essentielles à l’origine de contenus dupliqués : les PDF et les étiquettes (tags).

Avant activation d’un module générateur de PDF, il est fortement recommandé d’anticiper la non-indexation des PDF.
Sinon, de chercher à réduire le nombre de pages doublons de fait (puisque résultant d’une transformation de contenu html/php en pdf).
Solution préconisée : quelques lignes d’interdiction (disallow) en fichier .htaccess
Il en va de même pour les étiquettes ou tags automatiquement créées pour les articles de blog.
Cela peut conduire à une inflation éditoriale injustifiée, elle aussi préjudiciable à votre SEO.
Solution préconisée : si vous utilisez l’extension SEO de Yoast, vérifiez les réglages « Yoast > Titres & Métas ».
Cliquez sur l’onglet « Taxinomies » puis dans la partie « Étiquettes », faites glisser le bouton « Méta robots » sur noindex.

Bienfaits de la désindexation

Réduction du budget crawl [temps consacré par les agents web (bot/spiders) à l’exploration de votre site] pour réorienter celui-ci principalement vers les pages intéressantes.
Valorisation du référencement de vos contenus qualitatifs puisque par contre coup, les moteurs de recherche ne s’épuisent pas à explorer un ensemble trop important d’urls au contenu identique.
Rectification positive de l’offre de contenu proposée : un seul format uniforme à indexer (html) en privilégiant le recours à la balise canonique.
Amélioration de l’UX et renforcement de la valeur ajoutée perçue pour le contenu de chaque page puisque chacune d’entre-elles est devenue unique et prioritaire.
Préservation d’un trafic généré par la page web en ligne (visite et consultation de page plutôt que simple téléchargement PDF).
Progression du signal de confiance envoyé aux moteurs de recherche (le pilier n°3 du EAT).
L’absence de contenu dupliqué est un des indicateurs de qualité et de fiabilité du contenu d’un site – « Expertise, Authoritativeness, Trustworthiness » – « Expertise, Autorité, Confiance ».

En règle générale, la désindexation est recommandée pour répondre à :

Un objectif stratégique (pages obsolètes, rapidement périmées (événementiels), résultats de recherche interne, pages à faible contenu…)
Un objectif vertueux de respect des règles Webmaster liées au duplicate content de Google.
Une proposition de contenu unique sur un format donné que l’on sait optimiser (html vs pdf de contenu identique).

Désindexation – Traquer les fichiers PDF sources de contenu dupliqué interne et involontaire

Une commande simple saisie dans la barre d’adresse vous permettra de repérer les PDF déjà indexés et de travailler à leur retrait de l’index Google.

Pour découvrir l’ensemble des documents PDF liés à votre site et indexés par Google :
« site:monurl.fr filetype:pdf » dans Google.

WordPress – Contenu intra-site dupliqué – Syntaxe de recherche et commande d’identification des PDF indexés pour votre site

Vous pourrez dès lors décider de leur devenir SEO.
Au besoin, des redirections 301 avec une extension comme « redirection » de John Godley permettront de rediriger de façon permanente votre url erronée et déjà indexée vers l’url canonique.

Désindexer les PDF – Mises en œuvre

Bloquer le crawl des fichiers PDF – Robots.txt

Ce fichier interdit le crawl mais il se peut, selon le serveur, qu’il n’interdise pas l’indexation.
Les modifications doivent être effectuées avec circonspection et testées par un outil de test en ligne.
Google ou un autre outil en ligne comme celui de technicalseo.

Webmastering WordPress - Contenu interne dupliqué - Blocage crawl des PDF par le fichier Robots.txt – Circonspection et test de validation avec un outil en ligne - Max INNOCENZI – Webmaster WP - Bretagne - Rennes

WP – Contenu interne dupliqué – Blocage crawl des PDF par le fichier Robots.txt – Circonspection et test de validation avec un outil en ligne

Balise html meta robots « no index »

Une directive « Noindex » impliquerait la non-indexation des pages, en préservant l’identification des liens qu’elles contiennent.
Souvent utilisée par des webmasters avertis, son usage restait limité car certains moteurs de recherche ne la prenaient pas en considération (Bing notamment). [3]

Dans le cas de PDF responsables d’un phénomène de doublon en interne, ce n’est pas une solution efficace.

Cela n’empêcherait pas un crawl inutile.
C’est inadapté. Cette directive n’est pas valide pour les PDF et formats autres que html.

Pour des documents PDF, c’est la Directive X-Robots-Tag du protocole HTTP en fichier .htaccess qu’il faut utiliser.

Balise meta robots « Disalow » – Fichier Robots.txt

Une alternative recommandée

En cas de schéma structurel clairement identifié pour les urls comme par exemple /*.pdf$ ou /*?print$

Quelques lignes d’interdiction (pdf et impression pdf) inscrites sur le fichier robots.txt.
Une résolution propre et rapide du problème.

Avantage de cette solution

Cette directive implique qu’il n’y a pas crawl, pas d’indexation, pas de suivi des liens et donc une meilleure gestion du budget d’exploration alloué à votre site.

A noter cependant, que si la page PDF était crawlée avant l’utilisation de cette syntaxe, elle pourrait continuer à apparaître dans les résultats de recherche.

Il faudrait alors s’attacher à désindexer les PDF visés avant de modifier le fichier robots.txt.
En fonction du volume de documents concernés, les résultats liés à cette intervention nécessiteront un délai plus ou moins long.

Note : depuis 2016, il faut libeller ces directives avec un « / » avant l’astérisque pour que Google les prenne en compte. [4] [5]

Webmastering WordPress - Contenu interne dupliqué - Blocage crawl des PDF avec commande disallow - Meilleure gestion du budget d’exploration alloué à votre site - Max INNOCENZI – Webmaster WP - Bretagne - Rennes

WP – Contenu interne dupliqué – Blocage crawl des PDF – Commande disallow – Meilleure gestion du budget d’exploration alloué à votre site

Résultat sur la GSC

Webmastering WordPress - Contenu interne dupliqué - Blocage crawl des PDF avec commande disallow - Google Search Console - Vérification efficacité et pertinence des blocages réalisés - Max INNOCENZI – Webmaster WP - Bretagne - Rennes

WP – Contenu interne dupliqué – Blocage crawl des PDF – Commande disallow – Vérification GSC efficacité et pertinence des blocages réalisés

Désindexer les fichiers sans code source – Directive X-Robots-Tag du protocole HTTP – Fichier .htaccess

Cette balise correspond par son effet à la balise meta robots « noindex », mais l’information « noindex » est alors présente non pas dans le code source mais dans l’en-tête de la page envoyée par le serveur.

Précisée dans le fichier .htaccess [6], cette directive est utile sur les serveurs Apache pour ne pas prendre en compte les PDF ou les formats différents du format html (Word, Excel, Powerpoint, XML, fichiers vidéos ou images…) dépourvus de balise meta « robots ». [7]

Webmastering WordPress - Contenu interne dupliqué - Non-indexation des PDF - Directive de blocage X-Robots-Tag du protocole HTTP – Fichier .htaccess - Max INNOCENZI – Webmaster WP - Bretagne - Rennes

WP – Contenu interne dupliqué – Non-indexation des PDF – Directive de blocage X-Robots-Tag du protocole HTTP – Fichier .htaccess – Source : https://developers.google.com/search/docs/advanced/robots/robots_meta_tag?hl=fr

Balise « canonical » – Préciser aux moteurs la version de page à indexer

Complément indispensable de votre travail de désindexation

Orienter les moteurs vers la version de page à référencer
Contrairement au fichier robots.txt et à la balise « no index » qui contiennent des directives, la balise canonique correspond à une indication, pas une directive absolue.

L’idée est de favoriser pour le robot d’exploration la détection de pages web que l’on considère valides pour une indexation : des pages en réponse http 200 (autorisées au crawl), visitées, sans « no index » et canoniques.

Elle n’est pas applicable à un format autre que html.
Vérifier cependant que cette balise est bien présente sur la version html de votre contenu pour aiguiller Google efficacement vers la version de page à référencer.

Résultat sur la GSC

Consulter Pages > Indexation des pages > Pourquoi des pages ne sont pas indexées
Ensemble de pages en double sans url canonique et basées sur une structure récurrente identifiée / ?print=print ou / ?print=pdf

Webmastering WordPress - Contenu interne dupliqué - Balise canonique - Contrôle GSC - Favoriser la détection de pages web canoniques que l’on considère valides - Max INNOCENZI – Webmaster WP - Bretagne - Rennes

WP – Contenu interne dupliqué – Balise canonique – Contrôle GSC – Favoriser la détection de pages web canoniques que l’on considère valides

Google Search Console – Vérifier la pertinence des ajustements

La GSC permet de vérifier cette pertinence d’ajustement pour le budget crawl en rapprochant le nombre de pages potentiellement à indexer du nombre de pages valides.

On observe cela en :

Search Console > Couverture > Valides
Search Console > Couverture > Exclues > Exclue par la balise « NoIndex »
Search Console > Pages > Indexation des pages > Pourquoi des pages ne sont pas indexées

Selon l’option de travail que vous avez retenue, vous pourrez être confronté à des résultats entre votre couverture et votre statut d’indexation qui ne combleront pas vos espérances.
Ce n’est pas catastrophique.
Il faudra cependant analyser et reprendre certains points, voire modifier votre approche, pour éliminer correctement ces PDF de l’index Google.

Sitemap temporaire pour désindexer les urls PDF ou ?print

Une alternative pour agir dans un délai court et désindexer des urls de contenu dupliqué formées par votre extension PDF.

Les lister dans un fichier sitemap et soumettre ce fichier à Google de façon temporaire.
C’est un détournement de la fonction sitemap mais qui peut s’avérer utile.
Surtout si les urls concernées sont nombreuses et sans structure récurrente pour les soumettre facilement à désindexation par le biais du formulaire GSC.

Duplication de contenu interne et fichiers PDF – Sources de problèmes SEO

Les fichiers PDF considérés dans cet article sont ceux générés automatiquement pour offrir une possibilité de lecture hors ligne, une version imprimable ou une possibilité de collecte documentaire (par téléchargement) sur un sujet précis.

Lorsqu’ils sont mal gérés, ils peuvent se révéler une source de complications pour votre référencement naturel ( contenus intra-site en double, dilution de statistiques, moindre efficience du crawl d’exploration…)

Un versant du contenu dupliqué qui peut affecter votre site et son positionnement SEO.

Pour les autres formes de contenus dupliqués (hors plagiat délibéré) qui ne sont pas issus d’un paramétrage technique involontaire, la réécriture de contenu par un rédacteur professionnel est une bonne alternative.
Elle permettra de reformuler sans plagiat, d’optimiser et d’actualiser un contenu pénalisant pour votre SEO.
Bref, d’en faire un contributeur positif de positionnement dans les SERP.

CTA - Prestation Rédaction SEO - Contenu allié de votre visibilité - Max INNOCENZI - Webmaster - Rédacteur Web SEO - Rennes

Rédaction Web SEO : amorçons ensemble une fructueuse collaboration.

Sources

[1] Guide d’utilisation extension WP Pdf & print by BestWebSoft
[2] Semrush – Infographie : 40 erreurs de seo technique – Etude Semrush 2017
[3] Abondance – Robots.txt et Directive Noindex: les alternatives – 2019-07-08
[4] Abondance – Google a modifié son mode de lecture des fichiers robots.txt – 2016-02-25
[5] robots-txt.com – Robots.txt : utiliser les wildcards – Non daté
[6] www.definitions-seo.com – Définition de X-Robots-Tag – 2018-04-13
[7] developers.google.com – Spécifications des balises Meta, de data-nosnippet et de X-Robots-Tag – 2022-09-09

Haut de page

Contenu interne dupliqué – SEO – Désindexez vos fichiers PDF

Contenu dupliqué – Différence plagiat et contenu intra-site en doublon

Installer un plugin WP PDF – Améliorer l’Ux sans pénaliser le SEO avec du contenu intra-site dupliqué

Plugin installé PDF & Print by BestWebSoft

Mise en garde – Avant activation de l’extension PDF & Print by BestWebSoft génératrice de PDF

Mise en garde – Lecture attentive du Guide de l’extension PDF & Print by BestWebSoft

Contenu dupliqué de façon involontaire – Erreurs de paramétrage WP

Contenu dupliqué – Importance du phénomène

Duplication de contenu en interne : 2 sources majeures

Bienfaits de la désindexation

Désindexation – Traquer les fichiers PDF sources de contenu dupliqué interne et involontaire

Désindexer les PDF – Mises en œuvre

Bloquer le crawl des fichiers PDF – Robots.txt

Balise html meta robots « no index »

Balise meta robots « Disalow » – Fichier Robots.txt

Une alternative recommandée

Avantage de cette solution

Résultat sur la GSC

Désindexer les fichiers sans code source – Directive X-Robots-Tag du protocole HTTP – Fichier .htaccess

Balise « canonical » – Préciser aux moteurs la version de page à indexer

Complément indispensable de votre travail de désindexation

Résultat sur la GSC

Google Search Console – Vérifier la pertinence des ajustements

Sitemap temporaire pour désindexer les urls PDF ou ?print

Duplication de contenu interne et fichiers PDF – Sources de problèmes SEO

Sources

Max – Rédacteur Web SEO

Copyright © Max INNOCENZI