Le contenu en double fait généralement référence à des blocs de contenu substantiels dans ou entre les domaines qui correspondent complètement à d’autres contenus ou qui sont sensiblement similaires. La plupart du temps, ce n’est pas d’origine trompeuse. Des exemples de contenu en double non malveillant peuvent inclure:
- Forums de discussion pouvant générer à la fois des pages régulières et des pages réduites destinées aux appareils mobiles
- Éléments d’une boutique en ligne affichés ou liés par plusieurs URL distinctes
- Versions imprimables des pages Web
Si votre site contient plusieurs pages au contenu largement identique, vous pouvez indiquer votre URL préférée à Google de plusieurs manières. (C’est ce qu’on appelle la « canonisation ».) Plus d’informations sur la canonisation.
Cependant, dans certains cas, le contenu est délibérément dupliqué entre les domaines dans le but de manipuler les classements des moteurs de recherche ou de gagner plus de trafic. Des pratiques trompeuses comme celle-ci peuvent entraîner une mauvaise expérience utilisateur lorsqu’un visiteur voit sensiblement le même contenu répété dans un ensemble de résultats de recherche.
Google s’efforce d’indexer et d’afficher des pages contenant des informations distinctes. Ce filtrage signifie, par exemple, que si votre site a une version « régulière » et « imprimable » de chaque article, et qu’aucun de ceux-ci n’est bloqué avec une balise noindex
, nous choisirons l’un d’entre eux à lister. Dans les rares cas où Google perçoit que du contenu en double peut être affiché avec l’intention de manipuler nos classements et de tromper nos utilisateurs, nous procéderons également aux ajustements appropriés dans l’indexation et le classement des sites concernés. En conséquence, le classement du site peut en souffrir, ou le site peut être entièrement supprimé de l’index Google, auquel cas il n’apparaîtra plus dans les résultats de recherche.
Vous pouvez prendre certaines mesures pour résoudre de manière proactive les problèmes de contenu en double et vous assurer que les visiteurs voient le contenu que vous souhaitez.
- Utiliser 301s: Si vous avez restructuré votre site, utilisez les redirections 301 (« RedirectPermanent ») dans votre.fichier htaccess pour rediriger intelligemment les utilisateurs, Googlebot et autres araignées. (Dans Apache, vous pouvez le faire avec un.fichier htaccess; dans IIS, vous pouvez le faire via la console d’administration.)
- Soyez cohérent: Essayez de garder votre liaison interne cohérente. Par exemple, ne vous liez pas à
http://www.example.com/page/
ethttp://www.example.com/page
ethttp://www.example.com/page/index.htm
. - Utiliser des domaines de premier niveau : Pour nous aider à proposer la version la plus appropriée d’un document, utilisez des domaines de premier niveau dans la mesure du possible pour gérer du contenu spécifique à un pays. Nous sommes plus susceptibles de savoir que
http://www.example.de
contient du contenu axé sur l’Allemagne, par exemple, quehttp://www.example.com/de
ouhttp://de.example.com
. - Syndicez soigneusement: Si vous syndiquez votre contenu sur d’autres sites, Google affichera toujours la version que nous pensons la plus appropriée pour les utilisateurs dans chaque recherche donnée, qui peut être ou non la version que vous préférez. Cependant, il est utile de s’assurer que chaque site sur lequel votre contenu est syndiqué inclut un lien vers votre article original. Vous pouvez également demander à ceux qui utilisent votre contenu syndiqué d’utiliser la balise
noindex
pour empêcher les moteurs de recherche d’indexer leur version du contenu. - Minimisez la répétition standard: Par exemple, au lieu d’inclure un long texte de copyright au bas de chaque page, incluez un résumé très bref, puis un lien vers une page avec plus de détails. De plus, vous pouvez utiliser l’outil de gestion des paramètres pour spécifier comment vous souhaitez que Google traite les paramètres d’URL.
- Évitez de publier des talons: Les utilisateurs n’aiment pas voir des pages « vides », évitez donc les espaces réservés si possible. Par exemple, ne publiez pas de pages pour lesquelles vous n’avez pas encore de contenu réel. Si vous créez des pages d’espace réservé, utilisez la balise
noindex
pour empêcher l’indexation de ces pages. - Comprendre votre système de gestion de contenu: Assurez-vous de connaître la façon dont le contenu est affiché sur votre site Web. Les blogs, forums et systèmes associés affichent souvent le même contenu dans plusieurs formats. Par exemple, une entrée de blog peut apparaître sur la page d’accueil d’un blog, dans une page d’archive et dans une page d’autres entrées portant le même libellé.
- Minimiser le contenu similaire: Si vous avez plusieurs pages similaires, envisagez d’étendre chaque page ou de consolider les pages en une seule. Par exemple, si vous avez un site de voyage avec des pages distinctes pour deux villes, mais les mêmes informations sur les deux pages, vous pouvez soit fusionner les pages en une seule page sur les deux villes, soit développer chaque page pour contenir un contenu unique sur chaque ville.
Google ne recommande pas de bloquer l’accès aux robots pour dupliquer le contenu de votre site Web, que ce soit avec un robot.fichier txt ou d’autres méthodes. Si les moteurs de recherche ne peuvent pas analyser des pages avec du contenu en double, ils ne peuvent pas détecter automatiquement que ces URL pointent vers le même contenu et devront donc effectivement les traiter comme des pages distinctes et uniques. Une meilleure solution consiste à autoriser les moteurs de recherche à explorer ces URL, mais à les marquer comme des doublons en utilisant l’élément de lien rel="canonical"
, l’outil de gestion des paramètres d’URL ou les redirections 301. Dans les cas où le contenu en double nous conduit à explorer trop de votre site Web, vous pouvez également ajuster le paramètre de taux d’exploration dans la console de recherche.
Le contenu dupliqué sur un site n’est pas un motif d’action sur ce site, à moins qu’il ne semble que l’intention du contenu dupliqué est d’être trompeur et de manipuler les résultats des moteurs de recherche. Si votre site souffre de problèmes de contenu en double et que vous ne suivez pas les conseils énumérés ci-dessus, nous faisons un bon travail en choisissant une version du contenu à afficher dans nos résultats de recherche.
Cependant, si notre examen indique que vous vous êtes livré à des pratiques trompeuses et que votre site a été supprimé de nos résultats de recherche, examinez attentivement votre site. Si votre site a été supprimé de nos résultats de recherche, consultez nos directives pour les webmasters pour plus d’informations. Une fois que vous avez apporté vos modifications et que vous êtes convaincu que votre site ne viole plus nos directives, soumettez votre site pour réexamen.
Dans de rares situations, notre algorithme peut sélectionner une URL à partir d’un site externe hébergeant votre contenu sans votre autorisation. Si vous pensez qu’un autre site duplique votre contenu en violation de la loi sur les droits d’auteur, vous pouvez contacter l’hébergeur du site pour demander la suppression. En outre, vous pouvez demander à Google de supprimer la page contrefaite de nos résultats de recherche en déposant une demande en vertu de la Digital Millennium Copyright Act.