Compléments de Matt Cutts sur le Duplicate Content
Lors de la dernière PubCon (une grande conférence pour les spécialistes du SEO) Matt Cutts le célèbre chef de la cellule anti spammeur de Google a donné une interview à Stephan Spencer (un virtuose du marketing d’après SON blog).
Il me semble que certains éléments de cette interview sont très intéressants et je vais me permettre de traduire le début sur le Duplicate Content :
Stephan Spencer : Salut, j’ai quelque questions que j’aimerais bien te poser Matt. Commençons par la première : quand un article ou une information de quelqu’un est syndiquée (= publiée ailleurs), est–il préférable d’avoir la copie reliée sur l’article original sur le site de l’auteur ou est-ce que c’est pareil que quand le lien est fait sur l’accueil du site de l’auteur ?
Matt Cutts : Je recommande plutôt le lien vers l’article original sur le site de l’auteur. La raison est : imagine que tu as écrit un bon article et qu’il est si bien que tu as décidé de le publier ailleurs. Bien, il y a une faible chance que l’article syndiqué puisse obtenir quelques liens lui aussi, il peut ainsi obtenir un peu de Page Rank. Et alors, quand le robot de Google ou le système de Google qui navigue et indexe les pages voit 2 copies de cet article, dans la plupart des cas, cela aide de savoir quel est l’article orignal (which came first); celui qui a le plus fort PAge Rank.
C’est pourquoi, si l’article publié ailleurs (syndicated) a un lien vers la source, alors il est à peu près garanti que la version originale de cet article aura un plus fort Page Rank en comparaison de toutes les copies syndiquées. Et cela rend beaucoup plus facile pour nous la détection du contenu dupliqué (Duplicate Content) pour dire : « Vous savez quoi, ceci est l’original ; c’est le bon alors allons-y avec celui là ».
Mon commentaire :
Ce qui me surprend le plus dans cet extrait de cet échange est que les résultats soient classés par Page Rank. Je ne pensais pas que ça pouvait jouer autant.
Cela confirme en tout cas ce que je disais dans mon article sur le Duplicate Content WordPress : il faut mettre sa balise more en haut des articles, surtout ceux que l’on publie sur des flux RSS.
Tags : duplicate content, Google, référencement SEO

Merci pour le passage interessant de l’interview
J’ai encore du mal à appréhender le duplicate content.
Connais tu paperblog ? Ce site reprendre, avec l’accord de l’auteur, des articles dans leur totalité. Existe t-il alors dans ce cas un duplicat content ? Est ce nuisible pour le site / blog de l’auteur de l’article au niveau du référencement ?
a mon avis pas de danger avec Paperblog :
1) ils ne publient pas les articles complet si tu ne diffuses pas tes articles complet dans ton flux RSS. Facile à paramétrer avec WordPress.
2) Il y a toujours un lien vers la source originale. C’est ce que Cutts préconise pour distinguer la copie de l’original.
Donc très peu de chances pour que PaperBlog passe devant un site « légitime ».
Attention que l’article original dit :
« And so, whenever Google bot or Google’s crawl and indexing system see two copies of that article, a lot of the times it helps to know which one came first; which one has higher PageRank. »
ce que je traduirais par : « … [le lien vers l'article originel] aide à savoir quelle est la première [copie]; quelle est celle avec le plus haut PageRank ».
et non pas (ambigu dans ta traduction)
« .aide à savoir quelle est la première copie : celle qui a le plus haut Pagerank »
Just my 2 cents
OK, j’ai aussi eu du mal à comprendre cette phrase. Dans les 2 cas c’est incompréhensible. « un lien qui aide à savoir quelle est la page au plus fort Page Rank » : à croire qu’il ne faut pas traduire Page Rank en Page Rank ?
Es-tu d’accord pour que je laisse ma traduction en l’état ? Ceux qui s’intéressent à ce passage tomberont sur ton commentaire et se ferons leur avis.
Merci beaucoup en tout cas
Bonjour,
Existe-il des outils pour détecter le duplicate content sur le web ?
Cordialement,