Cómo Verificar Contenido Duplicado

Cómo Encontrar Contenido Duplicado

El contenido duplicado debe minimizarse en un sitio web, ya que puede dificultar que los motores de búsqueda decidan qué versión clasificar para una consulta.

Si bien la «penalización por contenido duplicado» es un mito en SEO, un contenido muy similar puede causar ineficiencias de rastreo, diluir el PageRank y ser un signo de contenido que podría consolidarse, eliminarse o mejorarse.

Vale la pena recordar que el contenido duplicado y similar es una parte natural de la web, lo que a menudo no es un problema para los motores de búsqueda que, por diseño, canonizan las URL y las filtran cuando corresponda. Sin embargo, a escala puede ser más problemático.

Prevenir el contenido duplicado te pone en control sobre lo que está indexado y clasificado – en lugar de dejarlo en manos de los motores de búsqueda. Puedes limitar el desperdicio de presupuesto de rastreo y consolidar las señales de indexación y enlace para ayudar en la clasificación.

Este tutorial lo guía a través de cómo puede usar la araña SEO Screaming Frog para encontrar contenido duplicado exacto y contenido casi duplicado donde algunos textos coinciden entre las páginas de un sitio web.

El contenido duplicado identificado por cualquier herramienta, incluida la Araña SEO, debe revisarse en contexto. Vea nuestro video o continúe leyendo nuestra guía a continuación.

Para comenzar, descarga la araña SEO, que es gratuita para rastrear hasta 500 URL. Los primeros 2 pasos solo están disponibles con una licencia. Si eres un usuario gratuito, salta al número 3 de la guía.

1) Habilite ‘Casi duplicados’ A través de ‘Config > Contenido > Duplicados’

De forma predeterminada, la Araña SEO identificará automáticamente las páginas duplicadas exactas. Sin embargo, para identificar ‘Casi Duplicados’ la configuración debe estar habilitada, lo que le permite almacenar el contenido de cada página.

La Araña SEO identificará casi duplicados con una coincidencia de similitud del 90%, que se puede ajustar para encontrar contenido con un umbral de similitud más bajo.

 Casi duplicados

La Araña SEO también solo comprobará las páginas ‘Indexables’ en busca de duplicados (tanto para los duplicados exactos como para los casi duplicados).

Esto significa que si tiene dos URL que son las mismas, pero una está canonizada a la otra (y por lo tanto ‘no indexable’), esto no se informará, a menos que esta opción esté deshabilitada.

Si estás interesado en encontrar problemas de presupuesto de rastreo, desmarca la opción «Solo Verificar Páginas indexables para Duplicados», ya que esto puede ayudar a encontrar áreas de desperdicio de rastreo potencial.

2) Ajuste ‘Área de contenido’ Para el Análisis A través de ‘Config > Contenido > Área’

Puede configurar el contenido utilizado para el análisis casi duplicado. Para un nuevo rastreo, recomendamos usar la configuración predeterminada y refinarla más tarde cuando se pueda ver y considerar el contenido utilizado en el análisis.

La Araña SEO excluirá automáticamente los elementos de navegación y pie de página para centrarse en el contenido principal del cuerpo. Sin embargo, no todos los sitios web se crean utilizando estos elementos HTML5, por lo que puede refinar el área de contenido utilizada para el análisis si es necesario. Puede elegir «incluir» o «excluir» etiquetas HTML, clases e ID en el análisis.

Por ejemplo, el sitio web de Screaming Frog tiene un menú móvil fuera del elemento nav, que se incluye dentro del análisis de contenido de forma predeterminada. Si bien esto no es un gran problema, en este caso, para ayudar a centrarse en el texto principal de la página, su nombre de clase ‘menú móvil__desplegable’ se puede ingresar en el cuadro ‘Excluir clases’.

 Área de contenido casi duplicado

Esto excluirá que el menú se incluya en el algoritmo de análisis de contenido duplicado. Más sobre esto más adelante.

3) Rastree el sitio web

Abra la Araña SEO, escriba o copie en el sitio web que desea rastrear en el cuadro «Ingresar URL a la araña» y presione «Inicio».

Rastree el Sitio En busca de Contenido duplicado

Espere hasta que el rastreo termine y alcance el 100%, pero también puede ver algunos detalles en tiempo real.

4) Ver Duplicados En La Pestaña «Contenido»

La ficha Contenido tiene 2 filtros relacionados con el contenido duplicado, ‘duplicados exactos» y «cerca de duplicados».

Pestaña de contenido Filtros de contenido duplicado

Solo ‘duplicados exactos’ está disponible para ver en tiempo real durante un rastreo. Los’ Casi duplicados ‘ requieren un cálculo al final del rastreo a través del ‘Análisis de rastreo’ posterior para que se rellene con datos.

El panel de ‘visión general’ de la mano derecha muestra un mensaje ‘(Análisis de rastreo requerido)’ contra los filtros que requieren un análisis de rastreo posterior que se rellene con datos.

 Análisis de Rastreo de Casi Duplicados

5) Haga clic en ‘Análisis de rastreo > Inicio’ Para Rellenar el Filtro de ‘Casi Duplicados’

Para rellenar el filtro de ‘Casi Duplicados’, la’ Coincidencia de Similitud Más Cercana ‘y el’ No. Cerca de las columnas de duplicados, solo tienes que hacer clic en un botón al final del rastreo.

 Análisis de rastreo para Casi Duplicados

Sin embargo, si ha configurado ‘Análisis de rastreo’ previamente, puede que desee volver a comprobar, en ‘Análisis de rastreo > Configurar’, que’ Casi duplicados ‘ está marcado.

También puede desmarcar otros elementos que también requieren análisis de rastreo posterior para que este paso sea más rápido.

 Configuración de Análisis de rastreo Para Dups Cercanos

Cuando el análisis de rastreo se haya completado, la barra de progreso de «análisis» estará al 100% y los filtros ya no tendrán el mensaje » (Análisis de rastreo Requerido)».

 Análisis de rastreo Completado Para Casi duplicados

Ahora puede ver el filtro y las columnas casi duplicados poblados.

6) Ver la pestaña ‘Contenido’ & ‘Exacto’ & Filtros de ‘Casi’ Duplicados

Después de realizar el análisis de rastreo posterior, el filtro de’ Casi Duplicados’, la’ Coincidencia de Similitud más Cercana ‘y el’ No. Se rellenarán las columnas cercanas a los duplicados. Solo las URL con contenido por encima del umbral de similitud seleccionado contendrán datos, las demás permanecerán en blanco. En este caso, el sitio web de Screaming Frog tiene solo dos.

Páginas duplicadas

Un rastreo de un sitio web más grande, como la BBC, revelará muchos más.

 Casi duplicados en la BBC

Puede filtrar por lo siguiente–

  • Duplicados exactos – Este filtro mostrará páginas que son idénticas entre sí utilizando el algoritmo MD5 que calcula un valor ‘hash’ para cada página y se puede ver en la columna ‘hash’. Esta comprobación se realiza contra el HTML completo de la página. Mostrará todas las páginas con valores de hash coincidentes que son exactamente iguales. Las páginas duplicadas exactas pueden llevar a la división de las señales de PageRank y a la imprevisibilidad en el ranking. Solo debe haber una única versión canónica de una URL que exista y esté vinculada internamente. Otras versiones no deben estar vinculadas, y deben ser 301 redirigidas a la versión canónica.
  • Casi duplicados: Este filtro mostrará páginas similares basadas en el umbral de similitud configurado utilizando el algoritmo minhash. El umbral se puede ajustar en ‘Config > Spider > Content’ y se establece en el 90% de forma predeterminada. La columna ‘Coincidencia de similitud más cercana’ muestra el porcentaje más alto de similitud con otra página. El ‘No. La columna de casi duplicados muestra el número de páginas que son similares a la página en función del umbral de similitud. El algoritmo se ejecuta contra el texto de la página, en lugar del HTML completo como duplicados exactos. El contenido utilizado para este análisis se puede configurar en ‘ Config > Área de contenido >’. Las páginas pueden tener una similitud del 100%, pero solo ser un ‘casi duplicado’ en lugar de un duplicado exacto. Esto se debe a que los duplicados exactos se excluyen como casi duplicados, para evitar que se marquen dos veces. Las puntuaciones de similitud también se redondean, por lo que el 99,5% o más se mostrará como 100%.

Las páginas casi duplicadas deben revisarse manualmente, ya que hay muchas razones legítimas para que algunas páginas sean muy similares en contenido, como variaciones de productos que tienen un volumen de búsqueda alrededor de su atributo específico.

Sin embargo, las URL marcadas como casi duplicadas deben revisarse para considerar si deben existir como páginas separadas debido a su valor único para el usuario, o si deben eliminarse, consolidarse o mejorarse para que el contenido sea más profundo y único.

7) Ver URL duplicadas A través de la pestaña’ Detalles Duplicados ‘

Para ‘duplicados exactos’, es más fácil verlos en la ventana superior mediante el filtro, ya que están agrupados y comparten el mismo valor’ hash’.

Páginas duplicadas exactas

En la captura de pantalla anterior, cada URL tiene un duplicado exacto correspondiente debido a una versión de barra diagonal final y una versión de barra diagonal no final.

Para ‘casi duplicados’, haga clic en la pestaña’ Detalles duplicados ‘en la parte inferior que rellena el panel de la ventana inferior con la’ dirección casi duplicada ‘ y la similitud de cada URL casi duplicada descubierta.

Pestaña de detalles duplicados

Por ejemplo, si se descubren 4 casi duplicados para una URL en la ventana superior, se pueden ver todos.

 Pestaña de Detalles duplicados

El lado derecho de la pestaña de’ Detalles duplicados ‘mostrará el contenido casi duplicado descubierto en las páginas y resaltará las diferencias entre las páginas cuando haga clic en cada’Dirección casi duplicada’.

Diferencias de contenido duplicado

Si hay contenido duplicado en la pestaña detalles duplicados que no desea formar parte del análisis de contenido duplicado, excluya o incluya elementos HTML, clases o identificadores (como se resalta en el punto 2), & vuelva a ejecutar el análisis de rastreo.

8) Duplicados de exportación a granel

Tanto los duplicados exactos como los casi duplicados se pueden exportar a granel a través de las exportaciones de «Exportación a granel > Contenido > Duplicados exactos» y «Casi duplicados».

 Exportación masiva de Páginas Duplicadas

¡Consejo final! Refinar el Umbral de similitud & Área de contenido, & Volver a ejecutar el Análisis de rastreo

Después del rastreo puede ajustar tanto el umbral de similitud casi duplicado como el área de contenido utilizada para el análisis casi duplicado.

Puede volver a ejecutar el análisis de rastreo para encontrar contenido más o menos similar, sin volver a rastrear el sitio web.

 Refinar Umbral de contenido casi duplicado

Como se indicó anteriormente, el sitio web de Screaming Frog tiene un menú móvil fuera del elemento nav, que se incluye dentro del análisis de contenido de forma predeterminada. El menú móvil se puede ver en la vista previa de contenido de la pestaña «detalles duplicados».

Refinamiento de Configuración de Pre Contenido de Contenido Casi duplicado

Al excluir el menú móvil__desplegable en el cuadro Excluir clases en el Área Config > Content >, el menú móvil se elimina de la vista previa de contenido y del análisis casi duplicado.

Ajustes de contenido casi duplicado Refinados

Esto realmente puede ayudar a ajustar la identificación del contenido casi duplicado a las áreas de contenido principal, sin la necesidad de volver a rastrear.

Resumen

La guía anterior debe ilustrar cómo usar la araña SEO como comprobador de contenido duplicado para su sitio web. Para obtener los resultados más precisos, refine el área de contenido para el análisis y ajuste el umbral para diferentes grupos de páginas.

Lea también nuestras preguntas frecuentes sobre SEO Spider de Screaming Frog y la guía completa del usuario para obtener más información sobre la herramienta.

Si tiene más consultas, comentarios o sugerencias para mejorar la herramienta de contenido duplicado en la araña SEO, simplemente póngase en contacto a través del soporte.

Leave a Reply

Tu dirección de correo electrónico no será publicada.