Les sites ayant un volume important de pages ont souvent recours à des systèmes de pagination. Pourtant, une pagination mal maîtrisée peut entraîner de nombreux problèmes de référencement.
Qu’est ce qu’un système de pagination ?
La pagination est la mise à disposition de contenus via une liste de page numérotée. On la retrouve sur des sites de e-commerce pour afficher une liste de produits, sur les blogs pour afficher une liste d’articles, sur les moteurs de recherche pour afficher une liste de résultats …
Quel est l’objectif de la pagination ?
Il est double :
- D’un point de vu ergonomique, permettre à l’utilisateur d’accéder à l’ensemble du contenu.
- D’un point de vu référencement, permettre aux moteurs de recherche de découvrir et crawler toutes les pages.
Quels problèmes de SEO peuvent causer les paginations ?
Ils sont malheureusement nombreux :
- La profondeur : si l’on possède plusieurs dizaines de pages de pagination, les contenus les plus profonds ne vont se voir transmettre que très peu de jus. Pire encore, GoogleBot peut s’épuiser et s’arrêter avant d’avoir découvert tout le contenu.
- Le duplicate content : les pages de pagination ont souvent un contenu très similaire aux pages principales. Google risque de déclasser la page principale pour mettre en avant la page « paginée ». Sur le site discounteo par exemple, ces sept pages ont un contenu quasi-similaire et sont toutes indexés par Google.
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable/
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable?limit=5
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable?limit=10
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable?limit=15
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable?limit=20
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable?limit=25
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable?limit=all
- Duplication des titres : les pages de pagination ont souvent un titre identique, on se retrouve donc avec plusieurs dizaines de pages avec le même titre. L’exemple de discounteo est également pertinent, toutes les pages ci-dessus ont exactement le même titre.
- Les paginations infinies : une pagination mal maîtrisé peut générer un nombre infini de pages, que ce soit à cause d’erreurs on-site… ou de malveillances externes. Sur discounteo encore une fois, un internaute mal intentionné pourrait générer (et référencer) des millions de pages… toutes dupliquées.
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable?limit=4376343
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable?limit=coucou
- h**p://www.discounteo.com/informatique/ordinateur/pc-portable?limit=duplicate
Que faut t-il faire ?
- Revoyez votre structure, tous les contenus doivent idéalement être accessibles sans pagination grâce à votre maillage interne. Structurez, catégorisez un maximum votre contenu. La plupart des gros sites ne proposent une pagination que pour des questions ergonomiques1.
- Trouvez le bon équilibre entre le nombre d’occurrences par pages et le nombre de pagination : si votre site a du poids en terme de SEO, vous pouvez vous permettre d’augmenter le nombre d’occurrences par pages et ainsi réduire sensiblement le nombre de paginations. Il vaut mieux avoir 10 pages présentant 15 résultats que 30 pages en présentant 5.
- Indexez uniquement la première page : pour éviter les risques de duplicate content, il vaut mieux n’indexer que la première page de la pagination. Les autres doivent alors être en noindex, follow pour autoriser les bots à continuer leur visite. Indexer toutes les pages doit répondre à une stratégie précise, c’est de la haute voltige.
- Variez les titres : à minima, numérotez les titres afin qu’ils ne soient pas strictement identiques.
- Créez un plan de site : une solution alternative à l’utilisation massive de paginations est de créer des plans de site intelligemment. Vous pouvez par exemple faire un lien en footer vers une page « Plan de site » qui lui même liera des « Sous plan de site » reprenant la catégorisation de votre contenu. Plus votre volume de page est conséquent, plus il y aura de « Sous plan de site ». Les pages de listing seront généralement plus pertinentes pour l’utilisateur et le moteur de recherche et vous gagnerez quelques niveaux de profondeur.
- Etudiez les gros sites : des sites tel que nomao.com (3,2 millions de pages indexées), wikio.fr (2,5 millions de pages indexées), commentcamarche.net (5,8 millions de pages indexées) peuvent servir de source d’inspiration. En les analysant, on remarque que catégorisations, plans de site, paginations sont optimisés au maximum. L’immense majorité du contenu n’est accessible qu’en trois ou quatre clics depuis la home, rien n’est laissé au hasard.
Ces quelques éléments vous feront sans doute prendre conscience de quelques faiblesses de WordPress en terme d’optimisation pour le SEO, nous y reviendrons dans un prochain article.
- les paginations sont alors en javascript pour ne pas être visibles par les robots [↩]
Pour éviter le contenu dupliqué, l’utilisation de la balise canonical est vraiment à recommander ! Mais faut l’utiliser avec attention car on peut vite supprimer l’indexation de pages désirables …
Bon article ou sinon :-)
Excellente remarque qui corrige un oubli de ma part ;-)
Petite question… Je ne suis pas expérimenté en SEO, donc pardonne moi si c’est vraiment évident…
Mettons que j’aie un site dont le seul contenu soit généré par les utilisateurs. J’ai une page qui liste tout ce qui a été créé et, bien sûr, cette page propose des liens de pagination.
Il faut donc dans un premier temps que je mette mes liens de pagination en « noindex, follow ».
Toutefois, les liens vers chaque page individuelle listée ici doit bien être en « index, follow » ?
Qui plus est, comment avoir un plan de site pour ce genre de site où le contenu est très dynamique et peu voire pas catégorisé ?
En gros, y a-t-il autre chose à faire dans ce cas que d’indexer la page 1, éviter l’indexation des pages suivantes et indexer les pages individuelles ?
Merci :)
Je reformule pour être sûr de t’avoir compris :
– Tu fais des liens normaux sur les numérotations.
– Par contre pour les pages > 1, dans le header, tu remplis le meta robots avec un noindex, follow.
Pour le plan de site, difficile de te conseiller sans connaître le site dont tu parles. Peut-être peux-tu imaginer une architecture et catégoriser dynamiquement les pages, comme le fait très bien wikio.
hmm si je mets le « noindex, follow » dans une meta des pages > 2, ça veut dire qu’aucun des liens de la page ne sera indexé, non ?
Or, en admettant que du contenu soit ajouté très fréquemment, Google Bot n’aura pas forcément l’occasion de voir chaque page individuelle passer sur la première page.
Ne faudrait-il donc pas mettre un rel= »noindex, follow » sur les liens de pagination ?
Non, le « follow » indique justement à GoogleBot qu’il doit suivre les liens de la page.
Le rel= »noindex » n’existe pas.
Je t’ai envoyé un petit mail ;-)
Hmm oui au temps pour moi, j’ai tout mélangé ! :$
Je sais pas pourquoi, j’avais en tête tout à l’heure qu’en mettant « noindex » sur un lien ça dirait au Bot de ne pas indexer la page indiquée par le lien…
Merci de m’avoir remis dans le droit chemin :P
Je vais aller répondre à ton email :)
Très intéressant.
Je m’empresse d’aller faire les modifs sur mon site :D
Petite question tout de même : est-ce qu’il est nécessaire de rajouter la balise canonical à ses pages paginées si on les a déjà passé en noindex ?
Merci pour cet article très instructif.
Non, ce n’est pas nécessaire. La balise canonical sert si tu risques d’avoir des pages dupliquées. En utilisant le noindex, ce risque n’existe plus.
Merci pour ta réponse et ta réactivité :)
Très instructif, c’est un vrai casse tête que ces paginations. Tes conseils sont utiles, mais pas toujours applicables.
Exemple : Un site e-commerce qui référence des milliers de produits.
Supposons que la catégorie « vêtement hommes » renvoie à 1000 produits avec 50 produits par page, soit 20 paginations.
A part des liens numérotés (1-2-3…) Il me semble difficile (inutile aussi) d’établir un maillage internet visant à rendre accessibles les pages de résultats (2 – 3 – 4… – N)
La Numéro de page dans le title ne pas avoir des Title 100% identiques est une bonne solution, je ne vois pas ce que l’on pourrai faire d’autre.
J’en profite pour poser une question sur les paginations :
Sur un site e-commerce par exemple, dans une catégorie ou rubrique le nombre de pagination varie en fonction du nombre de produits référencés dans cette rubrique, ce nombre de produit varie, ce qui fait que le nombres de pages de résultats varie également, parfois il baisse parfois il augmente (tjs en fonction de la quantité de produit, mais alors ….
Comment gérer la page numéro 20 par exemple ? Hier elle existait, aujourd’hui elle n’esxiste plus mais pourrait très bien refaire apparition demain, dois je faire une redirection 302 vers la première page de résultats en attendant qu’elle refasse apparition ?
Merci pour ce billet
Oui, il est envisageable d’utiliser une 302.
L’utilisation de la pagination pour référencer des catalogues importants est de toute façon en train de mourir.
On constate que Google prend de plus en plus des critères d’utilisation pour crawler et indexer les pages.
Les paginations (dans leurs profondeurs en tout cas) n’étant pas utilisées par les internautes, Google les crawle de moins en mois, ce qui perd tout leur intérêt en terme de SEO.
Merci pour ta réponse.
Les paginations de moins en moins crawlées, ok… mais dis moi, peux tu être plus explicite pour :
» On constate que Google prend de plus en plus des critères d’utilisation pour crawler et indexer les pages »
Quels sont les critères d’utilisation dont tu parles et qui seraient pris par Google ?
Merci
Tout simplement : Est-ce que les internautes utilisent les pages ?
A quoi sert la Google Toolbar et Google Chrome ? ;-)
Ok, au moins tu me donnes clairement ton avis là dessus. La fréquence de Crawle également liée au nombre d’accès à la page. C’est pas du tout anodin comme perspective SEO
J’ai lu sur un autre site parlant de l’optimisation du SEO pour les pagination qu’il fallait faire un rel »canonical » vers la première page sur les autres pages de le pagination. Est-ce une bonne méthode ou est-ce inutile ? ( Il paraitrait que c’est pour optimiser le PR de la première page ).
Faut-il également mettre une meta desc ou tout simplement ne pas en mettre vu que de toute façon on met les page en no-index ?
Et dernière question, le fait de mettre les page en no follow ou no index, n’est ce pas dommage pour le référencement. Comment google parcourt le site et toutes les pages de produits si la page est défini ainsi ?
@Vaince effectivement la meta description ne sert à rien sur une page en noindex, mais je crois qu’elle ne risque pas de nuire non plus (dans le cas où elle serait générée automatiquement.
Pour répondre à ta dernière question l’auteur de l’article dit bien de mettre les pages > 1 en « noindex, follow » et non pas en « noindex, nofolow » comme tu le dis.
Il s’agit ici de la meta robots où noindex permet de dire aux moteurs de ne pas indexer la page tandis que follow leur demande de suivre les liens qui s’y trouvent… notamment les liens vers les pages produits, qui elles doivent être indexées.
Evidemment la profondeur des paginations pose malgré tout des problèmes de crawle, notamment pour la visites des pages produits accessibles uniquement depuis des paginations profondes, d’où l’importance d’un sitemap bien réfléchi (Sujet sur lequel je recherche constamment des infos si vous en avez à me communiquer).
@Admin & @hubert
C’est encore moi. Je viens de penser à une chose qui je crois remettrai en question l’utilisation du rel canoncial (pour les paginations). Je pense que pour les paginations ce n’est pas la meilleure solution. Je ne cherche pas à semer la discorde mais au contraire à essayer de pousser la réflexion sur un sujet qui est vraiment intéressant; :)
Le Rel canoncial sert à indiquer aux moteurs quel est la page à prendre en compte dans le cas de plusieurs url au même contenu… et permet de s’affranchir des problèmes de duplicate content. Rel cannonical est par exemple très utile lorsque l’on offre aux visiteurs des versions web et des versions imprimables du même contenu.
Cette méthode permet donc en résumé de dire à nos amis bots, cette page n’est pas la page source pour ce contenu, en revanche c’est celle-là qu’il faut que vous preniez en compte.
Les Bots comprennent parfaitement le message et ont tendance à bouder (ignorer est peut être un terme trop fort) les pages non canoniques.
Or avec nos paginations il ne s’agit pas tout à fait de duplicate content. Certes il y a une grande proximité sémantique entre les pages et des problèmes à résoudre tels que la gestion de la balise Title, toutefois les paginations d’un site marchand par exemple sont différentes les des autres. En général elle propose des images différentes, des liens différents et (pour ceux qui les utilisent dans les pages de catégories) des courts descriptifs produits variés.
Ce serait dommage de dire au bots que toutes ces pages sont les mêmes et cela risquerait de nuire d’avantage au crawle des pages produits qui déjà n’est pas favorisé par le concept même de paginations.
En résumé, si on a vraiment peur du DC, je privilégie le conseille que tu donnes dans l’article en utilisant la balise méta robots et les attributs noindex et nofollow, mais j’éviterai le rel canonical pour les paginations.
Ce n’est que mon avis, mais j’aimerai bien savoir ce que vous en pensez.
De toute façon Google n’indexe que faiblement les pages paginées.
Avec la balise rel= »next » et rel= »prev », il y aura sans doute moins à craindre du quelque dupplicated que ce soit.
Un autre élément à prendre en compte lors de la mise en place d’un système de pagination à mon humble avis : elle peut « casser » l’effet souhaité par le linking interne mis en place s’il est complexe et précis, même en nofollow d’après mon expérience…