Jak zlepšit crawling a indexaci u velkých webů

23. duben 2020
John Morabito

Mnoho webů využívajících fasetové vyhledávání spoléhá pouze na kanonický odkaz vedoucí zpět na hlavní stránku kategorie. Tyto stránky se však často často vůbec vzájemně nepodobají, a využití kanonického odkazu zde tak již není vhodné. V takovýchto případech je nutné použít meta tag robots noindex.

Ahoj, Johne! Můžeš nám na začátek říci pár slov o sobě?

Jmenuji se John Morabito a mám na starosti SEO v agentuře Stella Rising. Jsme marketingová a mediální agentura poskytující komplexní služby od výzkumu až po exekutivu pro firmy napříč obory jako krása a zdraví, rychloobrátkové zboží, maloobchod a B2B.

Mé myšlenky v psané podobě můžete najít na blogu Stella Rising či na webech jako Search Engine Watch a SEMRush.

Rád se neustále učím a sdílím své znalosti. Pokud má vaše firma problémy se SEO, ozvěte se nám – nabízíme bezplatnou analýzu SEO příležitostí.

Co je největším problémem při zajišťování správného crawlování a indexace velkých webů? A jak tyto problémy řešíš?

Ve zkratce jsou to velká množství stránek nízké kvality, které web z nějakého důvodu generuje. V mnoha případech, se kterými jsem se setkal, bylo na vině fasetové vyhledávání, nicméně problémy mohou způsobovat i další věci jako uživatelské profily či stránky s tagy na mediálních webech.

V rámci našeho auditu crawlování a indexace se zaměřujeme na počet indexovatelných stránek webu, které lze crawlovat, a tento počet následně porovnáme se stránkami v Google Search Console, stránkami zobrazenými ve vyhledávači s použitím operátoru site: a s XML sitemapami. Tímto postupem získáme čtyři různé zdroje dat, které nám umožní lépe porozumět jakýmkoli nesrovnalostem mezi tím, jak má daný web podle našich představ vypadat, a tím, co Google ve skutečnosti indexuje.

Po procrawlování je stránka posunuta dále k případné indexaci.
Po procrawlování je stránka posunuta dále k případné indexaci.

U webů jsme často svědky kompletní ignorace kanonických odkazů či problémů způsobených způsobem implementace kanonických odkazů na stránkách ve stránkovacích sekvencích.

Kompletní ignorování kanonických odkazů může způsobit, že Google bude stránky webu crawlovat méně často, protože bude mít takřka nekonečně mnoho URL adres ke crawlování.

Mnoho webů využívajících fasetové vyhledávání zase spoléhá pouze na kanonický odkaz vedoucí zpět na hlavní stránku kategorie. Tyto stránky se však často vůbec vzájemně nepodobají, a využití kanonického odkazu zde tak již není vhodné. V takovýchto případech je nutné použít meta tag robots noindex. Zároveň je však potřeba hlídat zpětné odkazy na tyto stránky. Pokud na ně totiž někdo odkazuje, přijdou časem o svou “link equity” bez ohledu na to, zda mají atribut “follow”. Z toho důvodu doporučujeme pravidelně kontrolovat odkazový profil dynamických URL adres, a pokud na některé z nich odkazuje dostatečný počet lidí, udělat z nich statické stránky.

Pro demonstraci můžu uvést nedávný případ, kdy jsme na jednom realitním webu objevili dva velké problémy související se stránkováním.

Prvním problémem bylo, že odkazy na stránky v sekvenci stránkování byly v JavaScriptovém dropdownu, který crawleři nemohli najít, i když byli schopni renderovat DOM.

Kromě toho měla každá stránka v sekvenci kanonický odkaz vedoucí na stránku číslo 1. Kanonické odkazy na stránkách, které jsou součástí sekvence, by měly vždy odkazovat samy na sebe. Když jsme tento problém napravili a k tomu jsme odkazy na jednotlivé stránky sekvence zpřístupnili crawlerům, zaznamenali jsme obrovský nárůst počtu zaindexovaných stránek, což bylo naším cílem.

Další výzvou, které při práci s velkými weby čelíme, je komunikace hierarchických vztahů mezi stránkami.

Zde se zaměřujeme zpravidla na minimální počet kliknutí (“click depth”), která jsou potřeba k tomu, abychom se dostali na stránku detailu nemovitosti (stále mluvím o zmíněném realitním webu). V oboru nemovitostí a realit pochází návštěvnost především z “landing pages” pro konkrétní region, nicméně lidé prodávající nemovitost ať už jako agentura či jako jednotlivec vždy chtějí vidět svůj inzerát na prvních místech výsledků vyhledávání.

Problém je, že těchto jednotlivých inzerátů se na webu zpravidla nachází tisíce. Na zmíněných landing pages pro jednotlivé oblasti jsou inzeráty řazeny podle ceny nebo data přidání, a určit, kde by se jednotlivé inzeráty měly nacházet v rámci architektury webu, tak může být oříšek. To platí také pro produkty na velkých e-shopech či články na velkých mediálních webech.

Tyto situace řešíme tak, že vytvoříme další “opačné” landing pages, které vyhledávače mohou rovněž crawlovat a kde inzeráty třídíme opačným způsobem (například dle ceny od nejlevnějších po nejdražší).

K tomu přidáme také více interních odkazů na stránkování než jen “další stránka”. Na stránku, kde se bot aktuálně nachází, zpravidla doporučujeme přidat odkazy na alespoň čtyři až pět stránek v sekvenci oběma směry. Tímto způsobem zploštíme architekturu webu a poskytneme mnohem více cest, kterými mohou crawleři objevit jednotlivé inzeráty.

Užitečné zdroje

Jak vás a vaše doporučení klientům ovlivnilo, když Google v roce 2019 oznámil, že přestal využívat stránkovací atributy?

Ano, v některých ohledech nás to ovlivnilo, ale nijak zásadně. Změnili jsme například způsob, jakým prioritizujeme provádění změn souvisejících s těmito atributy, avšak zpravidla pouze v případech, kdy jsou implementované chybně či vůbec.

Vzhledem k tomu, že ostatní vyhledávače tyto tagy stále využívají, většině klientům je stále doporučujeme využívat. Weby, se kterými pracujeme, mají tyto atributy často již implementované, je následně využijeme pro zlepšení stavu crawlování a indexace webu.

Je však nutné dodat, že stránkování není pouze o atributech odkazů. Zaměřením se například na snížení click-depth prostřednictvím zplošťování stránkovacích tunelů využijete svůj čas mnohem produktivněji, než když budete přehnaně posedlí stránkovacími atributy.

Jsi příznivcem využívání souboru robots.txt k zamezování přístupu vyhledávačům do určitých částí webu? Pokud ano, proč?

Existuje mnoho scénářů, ve kterých je využití direktivy Disallow v souboru robots.txt skvělou volbou, a i já toto řešení často volím. Někdy je však nutné jít přímo ke kořeni problému a zaměřit se také na to, jak se roboti do těch temných koutů webu vůbec dostávají.

V jakých situacích využíváš u interních odkazů atribut nofollow?

Odpověď na tuto otázku je čím dál komplikovanější. Google v podstatě uvádí, že odkazy s tímto atributem crawlovat může, nebo také nemusí. I přesto se však může jednat o užitečný nástroj. Atribut nofollow může dle mého názoru být užitečný u faset či pro předcházení vzniku crawlovacích pastí. Nejlepším řešením u obou těchto scénářů je nevytvářet stránky s nízkou hodnotou. Ne vždy to ale jde, že?

V Shopify zase nemůžete žádným způsobem zasahovat do souboru robots.txt, a atribut nofollow tak představuje nástroj, který lze využít pro zamezení crawlingu stránek s filtrovanými výsledky.

Kromě atributu nofollow u odkazu na stránku je pak dobré na danou stránku přidat také meta tag robots noindex, follow. Ačkoli časem dojde ke ztrátě “link equity”, ponechat tam follow se stále vyplatí. Jak jsem již zmínil, měli byste si pravidelně kontrolovat zpětné odkazy na blokované stránky svého webu a následně je buď odblokovat, nebo znovu vytvořit jakožto statické stránky. K tomu však dochází poměrně vzácně, takže u stránek vytvořených dynamicky pomocí filtrů se obecně na link equity moc nezaměřuji.

Jak spravuješ vyřazené produkty či kategorie ve velkém měřítku?

To záleží případ od případu, ale mám dvě obecné odpovědi:

  1. Obecně platí, že pokud daná URL adresa nemá návštěvnost, zpětné odkazy, nebo dobře umístěná klíčová slova, je dobrým řešením chyba 404, či ještě lépe 410. Chyba 410 říká “tato stránka je fakt nadobro pryč”.
  2. Pokud daná stránka má nějakou hodnotu, dle typu webu postupujeme následovně:

Maloobchodní prodejce elektroniky

Ve světě elektroniky se například produktové řady každý rok vrací s novými produktovými kódy a čísly modelů. Tyto produktové stránky jsou skvělými kandidáty přesměrování jedna ku jedné, kdy je starý produkt přesměrován na nový. Doporučil bych také zobrazit uživatelům zprávu o tom, že kliknuli na starou URL adresu a byli přesměrováni na novou variantu daného produktu, ale většina webů se obejde i bez této zprávy.

Prodejce oblečení

U prodejců s oblečením, kteří nabízí sezónní kolekce a mnoho produktů, které se průběžně vyprodávají, se snažíme najít podobný produkt, na který bychom stránku přesměrovali, nicméně často nám nezbyde nic jiného než přesměrovat na stránku kategorie nebo ponechat danou produktovou stránku funkční s notifikací pro uživatele. Náš přístup závisí na klientovi a naší schopnosti najít řešení. V některých případech například můžeme doporučit také umožnit zákazníkům posílat e-maily přímo z produktových stránek.

Reality a nemovitosti

Zde obecně doporučujeme ponechat všechny inzeráty vždy funkční, přestože konkrétní dům třeba v danou chvíli není na prodej. Po určitou dobu na takové stránky odkazujeme ze sekce “Prodáno” a následně je ponecháme zcela bez příchozích odkazů, aby neplýtvaly crawl budgetem. Stále však zůstávají indexovatelné. Díky tomu je lze v budoucnu, když zase začnou být na prodej, mnohem snáze oživit. Kromě toho pak tyto stránky přináší také drobnou návštěvnost z vyhledávání přesných adres.

Jak vidíš vývoj crawlingu a indexace do budoucna?

Pro některé weby je budoucnost již tady. Google v současnosti již nabízí Indexing API, kterou lze využít pro indexaci stránek s pracovními nabídkami nebo živě vysílaná videa pomocí markupu BroadcastEvent.

Očekávám, že možnosti využití této API se budou časem rozšiřovat, nicméně nejsem si jistý, zda má Google v plánu podporovat všechny vertikální trhy. Pokud ano, Indexing API je poměrně snadno použitelná a dokážu si představit, že ji více SEO expertů začne využívat namísto souborů XML. Nutno však podotknout, že využívání API vyžaduje špetku programování.

Poslední otázka: Pokud bys nám měl dát jednu radu, jak zlepšit crawling a indexaci u velkých webů, jaká by to byla?

Do hloubky se zaměřte na architekturu webu a click depth u každé sekce webu.

Obecně lze dosáhnout skvělých pokroků prostřednictvím vytváření stránek kategorií, landing pages apod., tedy stránek odkazujících na další stránky webu jako detaily produktů, článků či inzerátů.

Problémy s indexací či rankingem často vznikají u obsahu, který je pohřben stovky kliknutí hluboko uvnitř webu. Přemýšlejte o tom, jak zploštit architekturu webu, aniž byste ji zploštili příliš.

Jak už to bývá s většinou věcí v životě, i zde je to o rovnováze!

Přečtěte si další hloubkové rozhovory se SEO specialisty

Přečtěte si další hloubkové rozhovory se SEO specialisty
Steven van Vessum
Steven van Vessum

Steven je CCO společnosti ContentKing. To znamená, že se stará o všechno spojené se zákazníky a inbound marketingem. Takže je přesně tam, kde chce být. Baví ho zlepšovat pozice webů ve vyhledávačích a rád mluví o inbound marketingu.

Získejte zkušební verzi na 14 dní zdarma

Začněte během 20 vteřin

Vložte platnou doménu, prosím (www.priklad.cz).
  • Platební karta není potřeba
  • Není třeba žádná instalace
  • Bez závazků