Comment Vérifier le Contenu en double

Comment Trouver le Contenu en double

Le contenu en double doit être minimisé sur un site Web, car il peut être difficile pour les moteurs de recherche de décider de la version à classer pour une requête.

Bien qu’une « pénalité de contenu en double » soit un mythe dans le référencement, un contenu très similaire peut entraîner des inefficacités d’exploration, diluer le PageRank et être un signe de contenu qui pourrait être consolidé, supprimé ou amélioré.

Il convient de rappeler que les contenus dupliqués et similaires font naturellement partie du web, ce qui n’est souvent pas un problème pour les moteurs de recherche qui, de par leur conception, canonisent les URL et les filtrent le cas échéant. Cependant, à grande échelle, cela peut être plus problématique.

La prévention du contenu en double vous permet de contrôler ce qui est indexé et classé – plutôt que de le laisser aux moteurs de recherche. Vous pouvez limiter le gaspillage de budget d’exploration et consolider les signaux d’indexation et de liaison pour aider au classement.

Ce tutoriel vous explique comment utiliser l’araignée SEO Screaming Frog pour trouver à la fois un contenu en double exact et un contenu presque en double où du texte correspond entre les pages d’un site Web.

Le contenu dupliqué identifié par n’importe quel outil, y compris l’araignée SEO, doit être revu en contexte. Regardez notre vidéo ou continuez à lire notre guide ci-dessous.

Pour commencer, téléchargez l’araignée SEO qui est gratuite pour explorer jusqu’à 500 URL. Les 2 premières étapes ne sont disponibles qu’avec une licence. Si vous êtes un utilisateur gratuit, passez au numéro 3 du guide.

1) Activez « Près des doublons » Via « Config > Contenu > Doublons »

Par défaut, l’araignée SEO identifiera automatiquement les pages en double exactes. Cependant, pour identifier les « Doublons proches », la configuration doit être activée, ce qui lui permet de stocker le contenu de chaque page.

L’araignée SEO identifiera les doublons proches avec une correspondance de similitude de 90%, qui peut être ajustée pour trouver du contenu avec un seuil de similitude inférieur.

 Doublons proches

L’araignée SEO vérifiera également uniquement les pages « indexables » pour les doublons (pour les doublons exacts et proches).

Cela signifie que si vous avez deux URL identiques, mais que l’une est canonisée à l’autre (et donc « non indexable »), cela ne sera pas signalé – sauf si cette option est désactivée.

Si vous souhaitez trouver des problèmes de budget d’analyse, décochez l’option « Vérifier uniquement les pages indexables Pour les doublons », car cela peut vous aider à trouver des zones de déchets d’analyse potentiels.

2) Ajustez la ‘Zone de contenu’ Pour l’analyse Via ‘Config > Content > Area’

Vous pouvez configurer le contenu utilisé pour l’analyse en quasi-double. Pour une nouvelle analyse, nous vous recommandons d’utiliser la configuration par défaut et de l’affiner ultérieurement lorsque le contenu utilisé dans l’analyse peut être vu et pris en compte.

L’araignée SEO exclut automatiquement les éléments de navigation et de pied de page pour se concentrer sur le contenu du corps principal. Cependant, tous les sites Web ne sont pas construits à l’aide de ces éléments HTML5, vous pouvez donc affiner la zone de contenu utilisée pour l’analyse si nécessaire. Vous pouvez choisir d' » inclure  » ou d' » exclure  » les balises HTML, les classes et les ID dans l’analyse.

Par exemple, le site Web Screaming Frog dispose d’un menu mobile en dehors de l’élément nav, qui est inclus dans l’analyse de contenu par défaut. Bien que ce ne soit pas un problème, dans ce cas, pour aider à se concentrer sur le texte du corps principal de la page, son nom de classe « menu mobile __ dropdown » peut être saisi dans la zone « Exclure les classes ».

 Près de la zone de contenu en double

Cela empêchera le menu d’être inclus dans l’algorithme d’analyse de contenu en double. Plus à ce sujet plus tard.

3) Explorer le site Web

Ouvrez l’araignée SEO, tapez ou copiez dans le site Web que vous souhaitez explorer dans la case « Entrer l’URL de l’araignée » et cliquez sur « Démarrer ».

 Explorez le Site À la recherche de Contenu en double

Attendez que l’analyse se termine et atteigne 100%, mais vous pouvez également afficher certains détails en temps réel.

4) Afficher les doublons Dans L’onglet « Contenu »

L’onglet Contenu comporte 2 filtres liés au contenu en double, « doublons exacts » et « doublons proches ».

 Onglet de contenu Filtres de contenu en double

Seuls les  » doublons exacts  » sont disponibles pour être visualisés en temps réel lors d’une analyse. Les « Doublons proches » nécessitent un calcul à la fin de l’analyse via une analyse post-analyse pour qu’elle soit remplie de données.

Le volet  » vue d’ensemble  » de droite affiche un message  » (Analyse d’analyse requise)  » contre les filtres qui nécessitent une analyse post-analyse pour être remplis de données.

 Analyse d'analyse des Doublons Proches

5) Cliquez sur ‘Analyse d’analyse > Démarrer’ Pour Remplir le filtre ‘Près des Doublons’

Pour remplir le filtre ‘Près des Doublons’, la ‘Correspondance de Similarité la plus proche’ et ‘Non. Près des colonnes des doublons, il vous suffit de cliquer sur un bouton à la fin de l’analyse.

 Analyse d'analyse pour les Doublons proches

Cependant, si vous avez déjà configuré ‘Analyse d’analyse’, vous pouvez vérifier, sous ‘Analyse d’analyse > Configurer’, que ‘Près des doublons’ est coché.

Vous pouvez également décocher d’autres éléments qui nécessitent également une analyse post-analyse pour accélérer cette étape.

 Configuration de l'analyse d'analyse Pour les Dups proches

Lorsque l’analyse d’analyse est terminée, la barre de progression de l’analyse sera à 100% et les filtres n’auront plus le message « (Analyse d’analyse requise) ».

 Analyse d'analyse terminée Pour les doublons proches

Vous pouvez maintenant afficher le filtre et les colonnes proches des doublons remplis.

6) Afficher l’onglet « Contenu » & « Exact » & Filtres de Doublons « Proches »

Après avoir effectué une analyse post-analyse, le filtre « Près des doublons », la « Correspondance de similarité la plus proche » et « Non. Les colonnes Près des doublons seront remplies. Seules les URL dont le contenu dépasse le seuil de similarité sélectionné contiendront des données, les autres resteront vides. Dans ce cas, le site Screaming Frog n’en a que deux.

 Pages en double

Une analyse d’un site Web plus vaste, tel que la BBC, en révélera beaucoup plus.

 Près de doublons sur la BBC

Vous pouvez filtrer par ce qui suit –

  • Doublons exacts – Ce filtre affichera les pages identiques les unes aux autres à l’aide de l’algorithme MD5 qui calcule une valeur de « hachage » pour chaque page et peut être vu dans la colonne « hachage ». Cette vérification est effectuée par rapport au code HTML complet de la page. Il affichera toutes les pages avec des valeurs de hachage correspondantes qui sont exactement les mêmes. Des pages en double exactes peuvent entraîner la division des signaux de PageRank et l’imprévisibilité du classement. Il ne devrait y avoir qu’une seule version canonique d’une URL qui existe et qui est liée en interne. Les autres versions ne doivent pas être liées et elles doivent être redirigées vers la version canonique 301.
  • Près des doublons – Ce filtre affichera les pages similaires en fonction du seuil de similarité configuré à l’aide de l’algorithme minhash. Le seuil peut être ajusté sous ‘Config> Spider > Content’ et est défini à 90% par défaut. La colonne « Correspondance de similarité la plus proche » affiche le pourcentage de similitude le plus élevé avec une autre page. Le Non. La colonne Près des doublons affiche le nombre de pages similaires à la page en fonction du seuil de similarité. L’algorithme est exécuté sur le texte de la page, plutôt que sur le code HTML complet comme les doublons exacts. Le contenu utilisé pour cette analyse peut être configuré sous ‘Config> Content> Area’. Les pages peuvent avoir une similitude à 100%, mais ne sont qu’un « doublon proche » plutôt qu’un doublon exact. En effet, les doublons exacts sont exclus en tant que doublons proches, pour éviter qu’ils ne soient signalés deux fois. Les scores de similarité sont également arrondis, de sorte que 99,5% ou plus seront affichés comme 100%.

Les pages proches des doublons doivent être examinées manuellement car il existe de nombreuses raisons légitimes pour lesquelles certaines pages présentent un contenu très similaire, telles que des variations de produits dont le volume de recherche s’articule autour de leur attribut spécifique.

Cependant, les URL marquées comme des quasi-doublons doivent être examinées pour déterminer si elles doivent exister en tant que pages distinctes en raison de leur valeur unique pour l’utilisateur, ou si elles doivent être supprimées, consolidées ou améliorées pour rendre le contenu plus approfondi et unique.

7) Affichez les URL en double Via l’onglet « Détails en double »

Pour les « doublons exacts », il est plus facile de les afficher simplement dans la fenêtre supérieure en utilisant le filtre – car ils sont regroupés et partagent la même valeur de « hachage ».

 Pages en double exactes

Dans la capture d’écran ci-dessus, chaque URL a un duplicata exact correspondant en raison d’une version de barre oblique finale et de barre oblique non finale.

Pour  » doublons proches », cliquez sur l’onglet « Détails des doublons » en bas qui remplit le volet de la fenêtre inférieure avec « adresse proche des doublons » et la similitude de chaque URL proche des doublons découverte.

 Onglet Détails des doublons

Par exemple, s’il y a 4 quasi-doublons découverts pour une URL dans la fenêtre supérieure, ils peuvent tous être visualisés.

 Onglet Détails en double

Le côté droit de l’onglet  » Détails en double » affiche le contenu à proximité des doublons découvert sur les pages et met en évidence les différences entre les pages lorsque vous cliquez sur chaque  » adresse à proximité des doublons « .

 Différences de contenu en double

S’il y a un contenu en double dans l’onglet Détails en double que vous ne souhaitez pas faire partie de l’analyse de contenu en double, excluez ou incluez des éléments HTML, des classes ou des ID (comme indiqué au point 2), & relancez l’analyse d’analyse.

8) Doublons d’exportation en vrac

Les doublons exacts et quasi-doublons peuvent être exportés en vrac via les exportations ‘Bulk Export > Content > Doublons Exacts’ et ‘Near Duplicates’.

 Exportation en vrac de Pages en double

Conseil final! Affiner le seuil de similarité & Zone de contenu, & Réexécutez l’analyse de l’analyse

Après l’analyse, vous pouvez ajuster à la fois le seuil de similarité en quasi-doublon et la zone de contenu utilisée pour l’analyse en quasi-doublon.

Vous pouvez ensuite réexécuter l’analyse d’analyse pour trouver un contenu plus ou moins similaire – sans réexécuter le site Web.

 Affiner Près du seuil de contenu en double

Comme indiqué précédemment, le site Web de Screaming Frog dispose d’un menu mobile en dehors de l’élément de navigation, qui est inclus dans l’analyse de contenu par défaut. Le menu mobile peut être vu dans l’aperçu du contenu de l’onglet « Détails en double ».

 Près du contenu en double Raffinement des paramètres de pré-contenu

En excluant la liste déroulante « menu mobile__ » dans la zone « Exclure les classes  » sous la zone « Config > Contenu > « , le menu mobile est supprimé de l’aperçu du contenu et de l’analyse quasi en double.

 Paramètres de contenu en quasi-doublon affinés

Cela peut vraiment aider à affiner l’identification du contenu en quasi-doublon aux zones de contenu principales, sans avoir à réexaminer.

Résumé

Le guide ci-dessus doit illustrer comment utiliser l’araignée SEO comme vérificateur de contenu en double pour votre site Web. Pour obtenir des résultats plus précis, affinez la zone de contenu à analyser et ajustez le seuil pour différents groupes de pages.

Veuillez également lire notre FAQ sur Screaming Frog SEO Spider et notre guide d’utilisation complet pour plus d’informations sur l’outil.

Si vous avez d’autres questions, commentaires ou suggestions pour améliorer l’outil de contenu en double dans l’araignée SEO, contactez-nous via le support.

Leave a Reply

Votre adresse e-mail ne sera pas publiée.