jak zkontrolovat duplicitní obsah

jak najít duplicitní obsah

duplicitní obsah by měl být minimalizován napříč webovými stránkami, protože to může vyhledávačům ztížit rozhodování o tom, kterou verzi pro dotaz zařadit.

zatímco „duplicitní trest za obsah“ je mýtus v SEO, velmi podobný obsah může způsobit neefektivitu procházení, zředit PageRank a být známkou obsahu, který by mohl být konsolidován, odstraněn nebo vylepšen.

je třeba si uvědomit, že duplicitní a podobný obsah je přirozenou součástí webu, což často není problém pro vyhledávače, kteří podle návrhu kanonizují adresy URL a případně je filtrují. V měřítku to však může být problematičtější.

zabránění duplicitnímu obsahu vám dává kontrolu nad tím, co je indexováno a hodnoceno-spíše než nechat to na vyhledávačích. Můžete omezit procházení rozpočtu odpadu a konsolidovat indexování a odkaz signály pomoci při hodnocení.

tento tutoriál vás provede tím, jak můžete použít Screaming Frog SEO Spider k nalezení přesného duplicitního obsahu a téměř duplicitního obsahu, kde se nějaký text shoduje mezi stránkami na webu.

duplicitní obsah identifikovaný jakýmkoli nástrojem, včetně SEO pavouka, musí být přezkoumán v kontextu. Podívejte se na naše video, nebo si přečtěte našeho průvodce níže.

Chcete-li začít, stáhněte si SEO Spider, který je zdarma pro procházení až 500 adres URL. První 2 kroky jsou k dispozici pouze s licencí. Pokud jste bezplatný uživatel, přeskočte v průvodci na číslo 3.

1) Povolit „téměř duplikáty“ přes „Config > obsah > duplikáty“

ve výchozím nastavení SEO pavouk automaticky identifikuje přesné duplicitní stránky. K identifikaci „téměř duplikátů“ však musí být povolena konfigurace, která jí umožňuje ukládat obsah každé stránky.

SEO pavouk identifikuje téměř duplikáty s 90% shodou podobnosti, kterou lze upravit tak, aby našel obsah s nižším prahem podobnosti.

téměř duplikáty

SEO pavouk také zkontroluje pouze „indexovatelné“ stránky pro duplikáty(pro přesné i téměř duplikáty).

to znamená, že pokud máte dvě adresy URL, které jsou stejné, ale jedna je kanonizována na druhou (a proto „neindexovatelná“), nebude to hlášeno-pokud tato možnost není zakázána.

pokud máte zájem najít problémy s rozpočtem procházení, zrušte zaškrtnutí možnosti „pouze zkontrolovat indexovatelné stránky pro duplikáty“, protože to může pomoci najít oblasti potenciálního odpadu procházení.

2) Upravte „oblast obsahu“ pro analýzu pomocí „Config > obsah > oblast“

můžete nakonfigurovat obsah používaný pro téměř duplicitní analýzu. Pro nové procházení doporučujeme použít výchozí nastavení a vylepšit jej později, až bude možné vidět a zvážit obsah použitý v analýze.

SEO pavouk automaticky vyloučí prvky nav i zápatí, aby se zaměřil na obsah hlavního těla. Ne každý web je však vytvořen pomocí těchto prvků HTML5, takže v případě potřeby můžete upřesnit oblast obsahu použitou pro analýzu. Můžete si vybrat „zahrnout“ nebo „vyloučit“ HTML tagy, třídy a ID v analýze.

například web Screaming Frog má mobilní nabídku mimo prvek nav, který je ve výchozím nastavení zahrnut do analýzy obsahu. I když to není moc problém, v tomto případě pomoci zaměřit se na hlavní text stránky jeho název třídy ‚mobile-menu_ _ rozevírací ‚lze zadat do pole‘ vyloučit třídy‘.

 Near Duplicate Content Area

tím se vyloučí zařazení nabídky do algoritmu pro analýzu duplicitního obsahu. Více o tom později.

3) procházejte web

otevřete SEO Spider, zadejte nebo zkopírujte web, který chcete procházet, do pole „Zadejte URL do pavouka“ a stiskněte „Start“.

procházení webu pro duplicitní obsah

počkejte, až procházení skončí a dosáhne 100%, ale můžete také zobrazit některé podrobnosti v reálném čase.

4) Zobrazení duplikátů na kartě „Obsah“

karta Obsah obsahuje 2 filtry týkající se duplicitního obsahu, „přesných duplikátů“ a „téměř duplikátů“.

obsah Tab duplicitní filtry obsahu

pouze „přesné duplikáty“ je k dispozici pro zobrazení v reálném čase během procházení. „Téměř duplikáty“ vyžadují výpočet na konci procházení pomocí post „analýzy procházení“, aby byly naplněny daty.

v pravém podokně „přehled“ se zobrazí zpráva „(vyžaduje se analýza procházení) “ proti filtrům, které vyžadují, aby analýza po procházení byla naplněna daty.

 Near Duplicates Crawl Analysis

5) Klikněte na ‚ Crawl Analysis > Start ‚pro vyplnění‘ Near Duplicates ‚Filter

pro vyplnění‘ Near Duplicates ‚filter,‘ nejbližší podobnost Match ‚ A ‚ no. V blízkosti sloupců duplikátů stačí kliknout na tlačítko na konci procházení.

analýza procházení pro téměř duplikáty

pokud jste však dříve nakonfigurovali „analýzu procházení“, můžete v části „Analýza procházení > nakonfigurovat“ zaškrtnutí políčka „téměř duplikáty“.

můžete také zrušit další položky, které také vyžadují analýzu procházení po procházení, aby byl tento krok rychlejší.

 konfigurace analýzy procházení pro téměř Dups

po dokončení analýzy procházení bude ukazatel průběhu „analýzy“ na 100% a filtry již nebudou mít zprávu “ (vyžaduje se analýza procházení)“.

analýza procházení dokončena pro téměř duplikáty

nyní můžete zobrazit osídlený téměř duplicitní filtr a sloupce.

6) zobrazit kartu ‚Content‘ & ‚Exact‘ &‘ Near ‚Duplicates Filters

po provedení analýzy po procházení filtr‘ Near Duplicates‘, ‚nejbližší podobnost Match‘ A ‚ no. Sloupce poblíž duplikátů budou vyplněny. Pouze adresy URL s obsahem nad zvoleným prahem podobnosti budou obsahovat data, ostatní zůstanou prázdné. V tomto případě má web Screaming Frog pouze dva.

duplicitní stránky

procházení většího webu, jako je BBC, odhalí mnohem více.

v blízkosti duplikátů na BBC

můžete filtrovat podle následujícího–

  • přesné duplikáty – tento filtr zobrazí stránky, které jsou navzájem identické pomocí algoritmu MD5, který vypočítá hodnotu „hash“ pro každou stránku a lze ji vidět ve sloupci „hash“. Tato kontrola se provádí proti úplnému HTML stránky. Zobrazí všechny stránky s odpovídajícími hodnotami hash, které jsou přesně stejné. Přesné duplicitní stránky mohou vést k rozdělení signálů PageRank a nepředvídatelnosti v hodnocení. Měla by existovat pouze jedna kanonická verze adresy URL, která existuje a je s ní interně propojena. Jiné verze by neměly být propojeny a měly by být 301 přesměrovány na kanonickou verzi.
  • v blízkosti duplikátů-tento filtr zobrazí podobné stránky na základě nakonfigurovaného prahu podobnosti pomocí algoritmu minhash. Prahovou hodnotu lze nastavit v části „Config > Spider > Content“ a ve výchozím nastavení je nastavena na 90%. Sloupec „nejbližší shoda podobnosti“ zobrazuje nejvyšší procento podobnosti s jinou stránkou. „Ne. Sloupec Near Duplicates zobrazuje počet stránek, které jsou podobné stránce na základě prahu podobnosti. Algoritmus je spuštěn proti textu na stránce, spíše než plné HTML jako přesné duplikáty. Obsah použitý pro tuto analýzu lze konfigurovat v části „Config > Content > Area“. Stránky mohou mít 100% podobnost, ale pouze „téměř duplikát“, spíše než přesný duplikát. Je to proto, že přesné duplikáty jsou vyloučeny jako téměř duplikáty, aby se zabránilo jejich označení dvakrát. Podobnost skóre jsou také zaokrouhleny, takže 99,5% nebo vyšší se zobrazí jako 100%.

duplicitní stránky by měly být zkontrolovány ručně, protože existuje mnoho legitimních důvodů, proč jsou některé stránky velmi podobné v obsahu, jako jsou variace produktů, které mají objem vyhledávání kolem svého specifického atributu.

adresy URL označené jako téměř duplikáty by však měly být přezkoumány, aby se zvážilo, zda by měly existovat jako samostatné stránky kvůli jejich jedinečné hodnotě pro uživatele, nebo zda by měly být odstraněny, konsolidovány nebo vylepšeny, aby byl obsah hlubší a jedinečný.

7) Zobrazení duplicitních adres URL pomocí karty „duplicitní podrobnosti“

pro „přesné duplikáty“ je snazší je zobrazit v horním okně pomocí filtru – protože jsou seskupeny a sdílejí stejnou hodnotu „hash“.

 přesné duplicitní stránky

ve výše uvedeném snímku obrazovky má každá adresa URL odpovídající přesný duplikát kvůli koncové lomítkové a ne-koncové lomítkové verzi.

pro „téměř duplikáty“ klikněte na záložku „duplicitní podrobnosti“ v dolní části, která vyplňuje dolní podokno okna s „téměř duplicitní adresou“ a podobností každé objevené téměř duplicitní adresy URL.

 duplicitní podrobnosti Tab

pokud jsou například v horním okně nalezeny 4 téměř duplikáty pro adresu URL,lze je všechny Zobrazit.

 Záložka duplicitní údaje

na pravé straně karty „duplicitní údaje“ se zobrazí téměř duplicitní obsah objevený ze stránek a zvýrazní rozdíly mezi stránkami, když kliknete na každou „téměř duplicitní adresu“.

duplicitní rozdíly v obsahu

pokud je na kartě duplicitní podrobnosti jakýkoli duplicitní obsah, který si nepřejete být součástí analýzy duplicitního obsahu, vyloučit nebo zahrnout jakékoli prvky HTML, třídy nebo ID (jak je zvýrazněno v bodě 2), & znovu spusťte analýzu procházení.

8) hromadné vývozní duplikáty

přesné i blízké duplikáty lze exportovat hromadně prostřednictvím exportů „hromadný Export > obsah > přesné duplikáty“ a „téměř duplikáty“.

Hromadné Export Duplicitní Stránky

Konečný Tip! Zpřesnit práh podobnosti & Obsahová oblast, & znovu spustit analýzu procházení

po procházení můžete upravit jak práh téměř duplicitní podobnosti, tak oblast obsahu použitou pro téměř duplicitní analýzu.

poté můžete znovu spustit analýzu procházení a najít více či méně podobný obsah-bez opětovného procházení webu.

zpřesnit téměř duplicitní práh obsahu

jak bylo uvedeno výše, Web Screaming Frog má mobilní nabídku mimo prvek nav, který je ve výchozím nastavení zahrnut do analýzy obsahu. Mobilní nabídku můžete vidět v náhledu obsahu na kartě „duplicitní podrobnosti“.

 poblíž duplicitního obsahu upřesnění nastavení obsahu

vyloučením rozbalovací nabídky „mobile-menu_ _“ v poli „vyloučit třídy“ v části „Config > obsah > oblast“ se mobilní nabídka odstraní z náhledu obsahu a téměř duplicitní analýzy.

Nastavení téměř duplicitního obsahu vylepšeno

to může opravdu pomoci při doladění identifikace téměř duplicitního obsahu do hlavních oblastí obsahu, aniž by bylo nutné znovu procházet.

shrnutí

výše uvedená příručka by měla ilustrovat, jak používat SEO Spider jako kontrolu duplicitního obsahu pro váš web. Pro co nejpřesnější výsledky upřesněte oblast obsahu pro analýzu a upravte prahovou hodnotu pro různé skupiny stránek.

přečtěte si také naše nejčastější dotazy týkající se SEO Spider Screaming Frog a úplnou uživatelskou příručku pro více informací o nástroji.

pokud máte nějaké další dotazy, zpětnou vazbu nebo návrhy na zlepšení nástroje duplicitního obsahu v pavouku SEO, stačí se spojit prostřednictvím podpory.

Leave a Reply

Vaše e-mailová adresa nebude zveřejněna.