Vítejte u prvního dílu měsíční blogové série SEO in Focus, kde s uznávanými odborníky probíráme SEO ze všech možných stran a úhlů pohledu.

V prvním díle série SEO in Focus rozebíráme crawlovací pasti s Dawn Andersonovou!

Dawn Anderson
Dawn Anderson

Crawlovací pasti mohou vážně poškodit webovou stránku, avšak záleží na typu pasti, do které se crawler chytí.

Pokud Dawn Andersonovou znáte, víte, že ráda píše a mluví o technickém SEO.

A pro ty, kteří ji ještě neznají: Dawn je zakladatelkou Move It Marketing, digitální marketingové agentury z Manchesteru.

Než začneme, pojďme si nejprve říci, co to crawlovací pasti vlastně jsou.

„Crawlovací pasti” v oboru SEO představují problémy ve struktuře webu, které způsobují, že crawleři nachází prakticky nekonečná množství irrelevantních URL adres. A to je špatně, protože plýtvají crawlovacím budgetem, a mohou tak způsobit problémy s duplicitním obsahem.

Ilustrace crawlovacích pastí

Jak se na crawlovací pasti díváte Vy?

Crawlovací pasti mohou vážně poškodit webovou stránku, avšak záleží na typu pasti, do které se crawler chytí. Nekonečné prostory jako kalendáře, které nemusí mít žádný konec, a dynamicky generované parametry například na webech e-shopů mohou představovat velmi problematické typy pastí, nicméně nejhorším typem, který jsem kdy viděla, jsou stránky, které načítají logické, ale nesprávné parametry.

Můžete vysvětlit, co myslíte těmi „stránkami, které načítají logické, ale nesprávné parametry”?

Myslím tím stránky, jejichž obsah vypadá na první pohled v pořádku a mění se na základě zadaných parametrů.

Například řekněme, že máte e-shop s obuví rozdělený do podkategorií podpatky, tenisky, žabky, vysoké boty, gumáky a sandále. Nekonečná smyčka pak může načítat podpatky a tenisky dohromady, protože jedna z proměnných podkategorií, která načítá obsah dynamicky a mění URL, je špatně naprogramovaná v šabloně.

Výsledný obsah vytvořený těmito dynamickými proměnnými tak buď může dávat smysl, anebo naopak vůbec nemusí. Jsou ale tematicky související a sémanticky silné, (boty, podpatky, tenisky, vysoké boty, žabky).

Příklady imaginárních URL adres:
https://www.example.com/boty/podpatky/vysoke-boty/[zbytek-cesty]
https://www.example.com/boty/vysoke-boty/tenisky/[zbytek-cesty]
https://www.example.com/boty/zabky/gumaky/[zbytek-cesty]

To zní vážně. Je tomu skutečně tak?

Ano, tyto typy crawlovacích pastí mohou web časem skutečně potopit. Je to opravdu tak vážné.

Jak to?

Důvodem je, že Google většinou rozpozná běžnou crawlovací past poměrně rychle na základě patternů těch známějších pastí a omezí počet opětovných návštěv chybných adres. V případě logických, ale nesprávných parametrů se mu to však zdaleka tak rychle nedaří.

Někdy dokonce začne procházet tyto logické, ale nesprávné parametry více než obsah, který chcete, aby procházel, a může je hromadně indexovat.

Jak to funguje v praxi?

Při detekci crawlovacích pastí můžeme rozlišit dvě fáze:

Fáze 1:

Obecně známé typy parametrů jsou chvíli crawlovány, a poté jejich crawlování prudce klesne, jakmile daný parametr a generované URL adresy začnou vyvíjet patterny, které Googlebot (či další součásti crawlovacího systému) podle všeho rozpoznává.

Fáze 2:

Poté se daný parametr objeví v Google Search Console v menu Procházení > Parametry adres URL, takže můžeme Googlu sdělit, zda se jedná o reprezentativní parametry (pro účely trackingu), nebo o aktivní parametry (mění obsah či pořadí obsahu). Reprezentativní parametry ve svých řetězcích zpravidla obsahují patterny jako ?utm_ apod. Aktivní parametry mohou zahrnovat identifikátory jako například podkategorie, velikosti, barvy apod. Všechny tyto parametry mění obsah či jeho pořadí. Vezměte si například řazení podle ceny, nejlepších hodnocení, vzestupně či sestupně atd.

Google nám zobrazením těchto URL parametrů Google v podstatě říká: „Zdravím, několikrát jsme narazili na tuto cestu. Jste si jistí, že je to ta cesta, po které chcete, abychom se vydali?” Můžeme tak Google navést jiným směrem, obzvláště na webových stránkách s mnoha permutacemi jedné položky.

Nicméně s logickými, ale nesprávnými parametry tomu tak není. Zpravidla se totiž v Google Search Console neukáží, protože nejsou rozpoznány jako crawlovací past.

Proč Google tuto crawlovací past nerozpoznává?

Googlebot jakožto nesoudící crawler bude zacykleně procházet dané URL adresy a indexer tyto stránky založené na „logických, ale nesprávných parametrech” bude dál indexovat, protože obsah těchto stránek je také často vytvářen za chodu a závisí na stejných proměnných, jako jsou proměnné v daných URL adresách.

Nadpisy, podnadpisy, výzvy k akci apod. totiž dostávají variabilní výstup a vytváří stránky po částech.

Jak může Googlebot vědět, že je vysoce nepravděpodobné, že by lidé dali dohromady vysoké boty a žabky?

Je tedy pravděpodobné, že nakonec dojde k indexaci stránek pro vysoké boty a žabky ve všech možných variantách (velikost/barva apod.). Pokud jste si mysleli, že normální parametry jsou pro weby e-shopů špatné z hlediska nadbytečné indexace (index bloat), v tomto případě to vynásobte ještě 10 000krát.

S postupem času (může to být velmi dlouho) si Google uvědomí, že dané stránky tvořené nelogickými parametry mají velmi nízkou hodnotu a crawl rate těchto URL adres začne klesat.

Kdo by taky hledal vysoké boty s žabkami, že?

Některé ze stránek vygenerovaných na základě těchto parametrů však smysl dávají. Žabky a sandále spolu například očekávat můžete, ale stále to nejsou ty, které jste měli v úmyslu nechat indexovat. Příčinou jsou programovací chyby v šabloně.

A mimochodem, tyto pasti se v URL parametrech v Google Search Console pravděpodobně vůbec neobjeví. Poznáte je podle zvláštních návštěv v analytics, serverových log souborů a Google Search Console.

Zpočátku si jich nějakou dobu možná ani nevšimnete, a dokonce vám přinesou i nějakou dodatečnou návštěvnost, protože budete mít více indexovaných stránek pro long tail dotazy.

Crawl rate bude však s postupem času čím dál více klesat, až vznikne pattern, který bude říkat, že tyto stránky nemají vůbec žádnou hodnotu.

Doslova tak rozložíte svůj web (nebo jeho části) a velmi těžko se to řeší. Zcela jste rozmělnili sílu do všech možných stran a potřebujete opět postavit pevný základ. V tom vám přeji hodně štěstí, protože to může nějakou chvíli trvat.

Hromadné nahrávání XML sitemap na nesprávně vytáhnuté (ale logické) parametry celý problém ještě více zhorší.

Jak crawlovací pasti tohoto typu vznikají?

Většinou vzniknou jako programově generovaný problém dynamickým výběrem chybných proměnných v šabloně. A je to ještě horší, když na tyto stránky vede hromada dalších interních odkazů v navigaci webu či XML sitemapách. Pokud k tomu dojde, crawleři se zacyklí ve smyčce a přidají veškeré možné varianty cest (a výstupů stránky). V zásadě to znamená, že najdou nekonečno URL adres s obsahem, který se jeví jako logický.

Máte tedy nějakou radu, jak to napravit?

Vždy kontrolujte URL parametry a vždy, opravdu vždy kontrolujte, které stránky jsou načítány vašimi programovými proměnnými v šablonách.

A jaké ponaučení si z toho můžeme odnést?

Vždy věnujte pozornost anomáliím a důkladně kontrolujte vše, co je programově implementované, obzvláště pokud to má vliv na dynamické prvky.

Steven van Vessum
Steven van Vessum

Steven je CCO společnosti ContentKing. To znamená, že se stará o všechno spojené se zákazníky a inbound marketingem. Takže je přesně tam, kde chce být. Baví ho zlepšovat pozice webů ve vyhledávačích a rád mluví o inbound marketingu.

Získejte zkušební verzi na 14 dní zdarma

Začněte během 20 vteřin

Vložte platnou doménu, prosím (www.priklad.cz).
  • Platební karta není potřeba
  • Není třeba žádná instalace
  • Bez závazků