Définition : le duplicate content, ou contenu dupliqué en français, désigne le fait qu’un contenu se trouvant sur un site internet soit reproduit à l’identique ou presque sur une autre page du même site ou sur d’autres sites web. En d’autres mots, c’est le fait de produire un contenu identique ou quasi identique sous deux URL différentes. Même si il est très souvent involontaire, ce contenu représenterait 29% du contenu web selon une étude de Raven en 2015.
Pourquoi ne pas en faire ?
Le but de la plupart des contenus sur le web est d’avoir une grande visibilité et de toucher un maximum de personnes. Pour ce faire, rien de mieux que d’apparaitre sur la première page de Google. On pourrait donc parfois être tenté de se dire qu’on va faire plusieurs contenus sur notre sujet pour avoir plus de chance d’être référencé par le moteur de recherche. C’est ici qu’il va falloir faire attention à ne pas tomber dans le duplicate content car ceci se verra sanctionné par les robots de Google. Si tel est le cas, nous risquons que notre contenu passe à la trappe et perde en visibilité.
Deux types de duplicate content existants
- Les pages dupliquées à l’intérieur même d’un site sous des URL différentes. Ceci peut par moment être dû à la volonté de créer une version mobile et une version desktop mais c’est bien souvent involontaire et résulte d’erreurs techniques.
- Les pages dupliquées sur des sites bien distincts.
3 cas possibles où on rencontre des contenus dupliqués
Tout d’abord, il y a le cas d’une page 100% identique à une autre : dans ce cas ce sera la page ayant le meilleur « PageRank » qui sera indexée par Google.
Ensuite, il y a le cas d’une page similaire à une autre mais dont les balises HTML « titre » et « description » sont différentes : dans ce cas-ci, l’ensemble des pages sera indexé mais celles qui ne seront pas identifiées comme étant l’originale n’apparaitront dans les résultats que si on choisi l’option d’inclure les pages ignorées.
Enfin, il se peut également que des pages soient différentes mais qu’elles possèdent les mêmes balises HTML « titre » et « description » : dans un tel cas, Google pourrait ne pas indexer les pages qu’elle considère comme étant du contenu dupliqué.
Les conséquences du duplicate content
Si un seul contenu est dupliqué sur différentes pages, les différents moteurs de recherche devront alors choisir lequel ils vont référencer de manière optimale et les autres ne bénéficieront pas de cette visibilité. Ces mêmes moteurs de recherche vont avoir plus de mal à « crawler » nos contenus et y passeront plus de temps. Ce « crawling » plus long pourrait avoir comme conséquence que d’autres bons contenus présents sur notre site ne soient pas référencés à leur juste valeur.
Une conséquence importante concerne aussi le « netlinking ». En effet, vu qu’il existera plusieurs versions d’un même contenu, lorsqu’un autre site web renverra vers notre contenu, ce lien entrant aura une valeur plus faible car les liens ne se feront pas tous vers un seul et même contenu mais vers des contenus dupliqués.
Il faut néanmoins préciser que notre contenu, sauf cas exceptionnel, sera tout de même indexé par Google. Par contre, notre contenu ne sera pas surclassé par Google et il perdra même des positions au sein du Search Engine Result Page. Ce qu’il peut également se passer c’est que la page dupliquée fasse passer la page originelle au second plan dans le ranking du référencement et ce n’est pas ce que nous voulons.
Que faire si on a du contenu dupliqué ?
Si cela nous arrive, on va tenter d’indiquer aux moteurs de recherche quelle est la version originale que nous souhaitons voir être référencée. Pour ce faire, il y a deux moyens principaux :
- La balise HTML « rel=canonical » : si nous rajoutons celle-ci, cela va indiquer aux différents moteurs de recherche que la page dans laquelle va figurer cette balise n’est pas la version originale et on va spécifier grâce à cette balise quelle est la page où se trouve le contenu d’origine. La page qui contiendra cette balise sera considérée comme une copie de l’URL originale. Ceci permettra que le contenu original soit référencé à sa juste valeur.
- La « redirection 301 » : cette méthode permet de rediriger la page dupliquée vers la page originale. De cette manière, les pages dupliquées ne seront plus en concurrence concernant le référencement et cela créera un signal de pertinence et de popularité de la page d’origine qui sera citée par d’autres pages.
5 outils permettant d’éviter le duplicate content
- Google Search Console : permet grâce à la fonctionnalité « d’améliorations HTML » de détecter si vous avez des contenus dupliqués.
- Screaming frog : permet de détecter les URL, les titres, les en-têtes et les descriptions qui sont dupliquées.
- Kill Duplicate : permet d’analyser notre contenu et de détecter du duplicate content. En plus de cela, il permet également de détecter si d’autres sites web dupliquent notre contenu.
- Siteliner : permet une analyse de notre site en interne afin de voir si notre site possède des contenus dupliqués.
- Copyleaks : permet de détecter les contenus qui sont paraphrasés ou qui sont plagiés et de ce fait de détecter du potentiel duplicate content.
Envie d’en savoir encore plus sur le SEO et le SEA ? Fais un tour ici pour découvrir le reste de notre contenu sur le sujet !
0 commentaires