Robots.txt ve zkratce

Soubor robots.txt obsahuje direktivy pro vyhledávače, pomocí kterých jim můžete zabránit v prohledávání určitých částí svého webu, a dát jim tak užitečné tipy pro co nejefektivnější crawlování daného webu. Z hlediska SEO je soubor robots.txt proto velmi důležitý.

Pár rad pro implementaci souboru robots.txt:

  • Buďte opatrní při provádění změn v souboru robots.txt, abyste omylem neznepřístupnili velkou část webu.
  • Soubor by se měl nacházet v kořeni webu (např. https://www.priklad.cz/robots.txt).
  • Soubor je platný pouze pro kompletní doménu včetně protokolu (http nebo https).
  • Různé vyhledávače mohou s direktivami nakládat různě. V případě Googlu a Bingu má přednost nejkonkrétnější direktiva, u ostatních vyhledávačů rozhoduje pořadí - první direktiva má největší váhu.
  • Snažte se moc nepoužívat direktivu crawl-delay.

Co je soubor robots.txt?

Soubor robots.txt informuje vyhledávače o pravidlech crawlování a indexování vašeho webu. Úspěch v SEO do značné míry závisí na posílání správných signálů vyhledávačům, a soubor robots.txt představuje jeden ze způsobů, jakým vyhledávačům můžete sdělit své preference pro crawlování webu.

Rok 2019 nám přinesl hned několik zásadních novinek v oblasti protokolu robots.txt: Google navrhnul rozšíření Robots Exclusion Protocolu a zveřejnil svůj parser pro robots.txt.

TL;DR

  • Google soubory robots.txt interpretuje flexibilně a překvapivě benevolentně.
  • V případě sekcí webu, pro které jsou v souboru robots.txt definovány nejasné direktivy, to Google hraje na jistotu a dané sekce považuje vždy za zakázané.
Soubor robots.txt říká vyhledáváačům, ke kterým URL mají přístup.
Soubor robots.txt říká vyhledáváačům, ke kterým URL mají přístup.

Vyhledávače u webů pravidelně kontrolují soubory robots.txt, aby získaly instrukce pro procházení. Tyto instrukce označujeme jako direktivy.

Pokud soubor robots.txt chybí nebo neobsahuje žádné použitelné direktivy, vyhledávače prohledají celý web.

Většina hlavních vyhledávačů soubor robots.txt respektuje, nemusí se jím ale řídit do všech detailů. Ačkoliv direktivy v souboru robots.txt představují pro vyhledávače silné signály, je dobré mít na paměti, že tento soubor pro ně představuje spíše návod než nařízení.

Na robots.txt se často zapomíná a přitom je to důležitý nástroj kterým spravujete pohyb crawlerů na vašem webu. Nezapomínejte na odkaz na sitemap a také na robots 2.0, který podporuje český Seznam.

Teminologie okolo souboru robots.txt

Soubor robots.txt implementace robots exclusion standard, zvaného také robots exclusion protocol nebo robots.txt protokol.

Proč byste se měli o soubor robots.txt zajímat?

Soubor robots.txt hraje v SEO zásadní roli. Říká totiž vyhledávačům, jak nejlépe prohledat váš web.

Pomocí tohoto souboru můžete zabránit vyhledávačům v přístupu k určitým částem svého webu, předcházet duplicitnímu obsahu a také poradit vyhledávačům, jak prohledat web co nejefektivněji.

Buďte opatrní při dělání změn v souboru robots.txt - tento malý soubor může vyhledávačům lehce znepřístupnit rozsáhlé části vaše webu.

Většina problémů s robots.txt, se kterými se setkávám, spadá do následujících tří kategorií:

  1. Chybné využití zástupných znaků. Běžně dochází k zablokování přístupu do částí webu, které by měly být přístupné. Když si nedáváte pozor, jednotlivé direktivy mohou být také ve vzájemném konfliktu.
  2. Někdo, například vývojář, provedl zničehonic změnu (často při nasazování nového kódu), a neúmyslně tak změnil soubor robots.txt bez vašeho vědomí.
  3. Přítomnost direktiv, které do souboru robots.txt nepatří. Robots.txt je protokol, který má svá omezení. Často vidím, jak si vývojáři vymýšlí direktivy, které v robots.txt jednoduše nefungují (alespoň pro většinu robotů). Občas jsou takové direktivy neškodné, občas vám však mohou také pěkně zavařit.

Příklad

Pojďme si to předvést na příkladu:

Provozujete e-shop. Návštěvníci mohou pro rychlé vyhledávání vašich produktů použít filtr. Ten generuje stránky zobrazující v podstatě stejný obsah jako jiné stránky. Pro uživatele je to praktické, avšak vzniká tak duplicitní obsah, který je pro vyhledávače matoucí. Jistě pro vás není žádoucí, aby vyhledávače ztrácely svůj drahocenný čas indexováním těchto stránek s filtrovaným obsahem. Nejlepším postupem je tedy zamezit jim k těmto duplicitním stránkám přístup prostřednictvím direktivy Disallow.

Duplicitnímu obsahu se dá zabránit také pomocí kanonických URL nebo meta tagu robots. Tyto prostředky ovšem nezabrání vyhledávačům procházet určité stránky. Pouze zajistí, aby se tyto stránky nezobrazovaly ve výsledcích vyhledávání. Vzhledem k tomu, že vyhledávače mají na prohledání webu pouze omezený čas, měly by ho strávit na stránkách, které by měly být zobrazeny ve výsledcích.

Pracuje soubor robots.txt ve váš prospěch?

Nesprávné nastavení souboru robots.txt může brzdit výkon vašeho SEO. Zkontrolujte raději ihned, zda to není právě váš případ.

Vložte platnou doménu, prosím (www.priklad.cz).
Paddy Moogan
Paddy Moogan

Robots.txt sice velmi jednoduchý nástroj, ale pokud není správně nastaven, může zejména pro větší weby způsobit mnoho problémů. Poměrně snadno můžete udělat chybu, jako třeba zablokování celého webu (nebo nezablokování soukromých sekcí) po redesignu nebo při přechodu na nový CSM. U rozsáhlejších stránek je efektivní procházení od Google velmi důležité a základem je právě dobře strukturovaný soubor robots.txt. Musíte tomu věnovat nějaký čas, než zjistíte, které sekce vašeho webu jsou pro Google nejdosažitelnější a ten tak stráví maximální možný čas procházením právě těch stránek, na kterých vám opravdu záleží.

Jak vypadá soubor robots.txt?

Příklad jednoduchého souboru robots.txt pro webové stránky ve WordPressu:

User-agent: *
Disallow: /wp-admin/

Na tomto příkladu si můžeme vysvětlit strukturu souboru robots.txt:

  • User-agent: user-agent označuje, pro které vyhledávače jsou direktivy určené.
  • *: toto znamená, že direktivy platí pro všechny vyhledávače.
  • Disallow: tato direktiva říká, který obsah má být pro user-agenta nepřístupný.
  • /wp-admin/: toto označuje cestu, která má být pro user-agenta nepřístupná.

Tento soubor robots.txt říká všem vyhledávačům, aby se vyhnuly adresáři /wp-admin/.

Pojďme se nyní zaměřit na jednotlivé prvky souboru robots.txt do detailu:

User-agent v souboru robots.txt

Každý vyhledávač se identifikuje pomocí řetězce známého jako user-agent. Robot Googlu má označení Googlebot, robot Yahoo Slurp, robot Bingu BingBot atd.

Zápis user-agent definuje začátek skupiny direktiv. Všechny direktivy mezi prvním zápisem user-agent a následujícím zápisem user-agent se berou jako direktivy příslušející k prvnímu user-agentovi.

Direktivy mohou platit jak pro jednoho určitého user-agenta, tak i pro všechny naráz. V takovém případě se použije zástupný znak: User-agent: *.

Direktiva Disallow v souboru robots.txt

Můžete zabránit vyhledávačům v přístupu do určitých souborů, na určité stránky nebo sekce vašeho webu. Používá se k tomu direktiva Disallow. Za ní následuje cesta, která specifikuje, kam je přístup zakázaný. Pokud cesta chybí, celá direktiva bude ignorována.

Příklad

User-agent: *
Disallow: /wp-admin/

V tomto příkladu mají všechny vyhledávače zakázán přístup do adresáře /wp-admin/.

Direktiva Allow v souboru robots.txt

Direktiva Allow se používá proti direktivě Disallow. Podporují ji Google a Bing. Použitím obou těchto direktiv naráz můžete říct vyhledávačům, aby procházeli určité soubory nebo stránky v adresářích, kam mají jinak zakázán přístup. Po direktivě Allow následuje cesta, která má být přístupná. Pokud cesta chybí, direktiva bude ignorována.

Příklad:

User-agent: *
Allow: /media/podminky.pdf
Disallow: /media/

V tomto příkladu mají všechny vyhledávače zakázán přístup do adresáře /media/, ovšem s výjimkou souboru /media/podminky.pdf.

Důležité: pokud používáte zároveň direktivu Allow i Disallow, vyhněte se zástupným znakům. Mohlo by to způsobit konflikty.

Příklad

User-agent: *
Allow: /adresar
Disallow: *.html

Vyhledávače nebudou vědět, co si s URL http://www.domena.cz/adresar.html počít. Nebude jim jasné, kam vlastně mají povolený přístup. Google se v podobném případě nejednoznačných direktiv řídí tou nejméně restriktivní z nich, což znamená, že v tomto konkrétním případě by URL http://www.domena.cz/adresar.html crawloval.

Direktivy Disallow jsou neuvěřitelně mocný nástroj, se kterým byste měli zacházet opatrně. Pro některé weby je zabránění vyhledávačům v procházení konkrétních URL klíčové proto, aby byly nalezeny a zaindexovány ty správné stránky. Ovšem nesprávné použití těchto direktiv může vážně poškodit SEO pro celý web.

Každá direktiva má svůj řádek

Každá direktiva by měla být na vlastním řádku, jinak by mohlo dojít ke zmatení vyhledávačů při zpracovávání souboru.

Příklad špatně nastaveného souboru robots.txt

Vyvarujte se tedy takových souborů robots.txt, jako je tento:

User-agent: *
Disallow: /adresar-1/ Disallow: /adresar-2/ Disallow: /adresar-3/
David Iwanow
David Iwanow

Robots.txt jednou z věcí, co nejčastěji vídám nesprávně nastavené. Buď neblokuje to, co má být blokováno, nebo blokuje naopak více a má tak negativní dopad na celý web. Robots.txt je tak účinný a užitečný nástroj, ale bohužel až je příliš často špatně nastaven

Používání zástupných znaků *

Zástupné znaky se nepoužívají jen pro určení user-agenta, mohou také označovat určitá URL obsahující určitý string. Zástupné znaky podporují tyto vyhledávače: Google, Bing, Yahoo a Ask.

Příklad

User-agent: *
Disallow: *?

V tomto příkladu mají všechny vyhledávače zakázáno procházet URL, která obsahují otazník (?).

Dawn Anderson
Dawn Anderson

Vývojáři a provozovatelé webů si často myslí, že v souboru robots.txt mohou všemi možnými způsoby využívat regulární výrazy, avšak jen velmi malá část této syntaxe je zde platná - například zástupný znak (*). Vypadá to, jako by si lidé občas pletli robots.txt se souborem .htaccess.

Značení konce URL pomocí $

Pro označení konce URL můžete použít na konci cesty znak dolaru ($).

Příklad

User-agent: *
Disallow: *.php$

V tomto příkladu mají všechny vyhledávače zakázáno procházet URL končící .php. . URL adresy s paramtery, například https://priklad.cz/stranka.php?lang=cs, nebudou zakázány, protože URL nekončí po .php.

Sitemapa v souboru robots.txt

Přestože původním účelem souboru robots.txt je sdělovat vyhledávačům, které stránky nemají procházet, lze ho použít také pro nasměrování vyhledávačů do XML sitemapy. Tuto funkci zatím podporují Google, Bing, Yahoo a Ask.

Sitemap.xml by měla být uváděna jako absolutní URL (nemusí být na stejném hostu jako soubor robots.txt). Uvádění sitemap.xml v souboru robots.txt je jeden z nejlepších postupů, který vám můžeme doporučit. Dokonce i v případě, že už jste soubor sitemap.xml odeslali do Google Search Console nebo Bing Webmaster Tools. Existuje přece více vyhledávačů.

V souboru robots.txt je možné uvádět i více souborů sitemap.xml.

Příklady

Více XML sitemap definováno v souboru robots.txt:

User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.priklad.cz/sitemap1.xml
Sitemap: https://www.priklad.cz/sitemap2.xml

V tomto příkladu soubor robots.txt zakazuje všem vyhledávačům přístup do adresáře /wp-admin/ a zároveň je informuje, že existují dva soubory sitemap.xml, které naleznou na https://www.priklad.cz/sitemap1.xml a https://www.priklad.cz/sitemap2.xml.

Jedna XML sitemapa definovaná v souboru robots.txt:

User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.priklad.cz/sitemap_index.xml

V tomto příkladu soubor robots.txt zakazuje všem vyhledávačům přístup do adresáře /wp-admin/ a zároveň je informuje, že na adrese https://www.priklad.cz/sitemap_index.xml naleznou soubor sitemap.xml.

Komentáře

Komentáře se vkládají za # a můžou být jak na začátku řádku, tak i za direktivou. Vše za # bude ignorováno. Tyto komentáře se píšou pro lidi.

Příklad 1

# Všichni roboti mají zakázaný přístup do adresáře /wp-admin/.
User-agent: *
Disallow: /wp-admin/

Příklad 2

User-agent: * #Platí pro všechny roboty
Disallow: /wp-admin/ #Zakázaný přístup do adresáře /wp-admin/.

Oba výše uvedené příklady sdělují totéž.

Crawl-delay

Direktiva Crawl-delay je neoficiální pokyn, který má zabránit přetížení serverů při velkém množství požadavků. Přidání této direktivy do souboru robots.tx je ale jen dočasným řešením. Pokud existuje riziko, že vyhledávače přetíží server, znamená to, že váš web běží na nedostatečně výkonném serveru nebo je špatně nakonfigurovaný a měli byste s tím co nejdříve něco udělat.

Příklad direktivy crawl-delay v souboru robots.txt určené pro Bingbota
Příklad souboru robots.txt s direktivou crawl-delay určenou pouze pro Bing

Způsob, jakým jednotlivé vyhledávače nakládají s direktivou Crawl-delay se liší. Vysvětlíme si, jak to chodí u těch hlavních.

Crawl-delay a Google

Google nepodporuje direktivu Crawl-delay, a definovat ji v souboru robots.txt je proto zbytečné.

Stejného výsledku však můžete dosáhnout pomocí Google Search Console, kde si můžete nastavit rychlost crawlování (“Crawl rate”).

Nastavení rychlosti procházení v GSC
  1. Přihlaste se do Google Search Console.
  2. Vyberte web, pro který chcete rychlost crawlování nastavit.
  3. Klikněte na ikonu ozubeného kola v pravém horním rohu a vyberte ‘Nastavení webu’.
  4. V sekci s názvem ‘Rychlost procházení’ můžete pomocí posuvníku nastavit požadovanou rychlost. Automaticky je rychlost přednastavena na “Nechat Google určit optimální rychlost procházení mých stránek (doporučeno)”.
Nastavení rychlosti procházení v Google Search Console

Crawl-delay a Bing, Yahoo a Yandex

Bing, Yahoo a Yandex podporují direktivu Crawl-delaypro snížení rychlosti procházení webu. Jejich intepretace pro “crawl-delay” je odlišná. Zkontrolujte tedy jejich dokumentaci.

Direktiva Crawl-delay by měla následovat hned za direktivou Disallow nebo Allow.

Příklad:

User-agent: BingBot
Disallow: /private/
Crawl-delay: 10

Crawl-delay a Baidu

Baidu tuto direktivu nepodporuje, nicméně je možné založit si účet v Baidu Webmaster Tools, kde můžete kontrolovat frekvenci procházení podobně jako v Google Search Console.

Kdy používat soubor robots.txt?

Doporučujeme vždy používat soubor robots.txt. Využití souboru robots.txt není nikdy na škodu. Právě naopak, může naznačit vyhledávačům, jak nejlépe prohledat váš web.

Osvědčené postupy

Osvědčené postupy pro práci se souborem robots.txt dělíme do následujících kategorií:

Umístění a název souboru

Soubor robots.txt by měl být vždy umístěný v kořeni webu (v nejvyšším adresáři webhostingu) a měl by se jmenovat robots.txt. Například: https://www.priklad.cz/robots.txt. Pamatujte, že URL tohoto souboru je, tak jako každé jiné URL, citlivé na velká a malá písmena.

Pokud se soubor robots.txt nenalézá na určeném místě, vyhledávače usoudí, že nemáte nastaveny žádné direktivy a prohledají celý web.

Pořadí

Je třeba mít na paměti, že jednotlivé vyhledávače nakládají se souborem robots.txt různě. Základním pravidlem je, že první direktiva vždy vítězí.

Nicméně v případě Googlu a Bingu platí, že víteží konkrétnější direktiva. Takže například direktiva Allow má větší váhu než direktiva Disallow, pokud je delší.

Příklad

User-agent: *
Allow: /o/spolecnosti/
Disallow: /o/

V tomto případě mají všechny vyhledávače, včetně Googlu a Bingu, zakázán přístup do adresáře /o/, s výjimkou podadresáře /o/spolecnosti/.

Příklad

User-agent: *
Disallow: /o/
Allow: /o/spolecnosti/

V tomto příkladu mají všechny vyhledávače kromě Googlu a Bingu zakázán přístup do adresáře /o/, a to včetně podadresáře /o/spolecnosti/.

Google a Bing mají do tohoto podadresáře přístup povolen, protože direktivaAllow je delší než direktiva Disallow.

Pro každého robota pouze jedna skupina direktiv

Pro každý vyhledávač mužete nastavit pouze jednu skupinu direktiv. Víc skupin by zmátlo vyhledávače.

Buďte co nejkonkrétnější

Při nastavování direktivy Disallow buďte co nejkonkrétnější, abyste předešli něžádoucím zákazům přístupu do souborů.

Příklad:

User-agent: *
Disallow: /adresar

V tomto příkladu mají vyhledávače zakázán přístup do:

  • /adresar
  • /adresar/
  • /adresar-nazev-1
  • /adresar-nazev.html
  • /adresar-nezev.php
  • /adresar-nazev.pdf

Direktivy pro všechny roboty zahrnující specifické direktivy pro konkrétní roboty

Pokud máte nastaveny direktivy pro všechny roboty a za nimi následují direktivy pro konkrétní roboty, tito konkrétní roboti budou předchozí obecné direktivy ignorovat. Jestliže chcete, aby se jimi řídili, musíte je zopakovat.

Podívejme se na příklad, který to objasní:

Příklad

User-agent: *
Disallow: /tajemstvi/
Disallow: /jeste-nespusteno/

User-agent: googlebot
Disallow: /jeste-nespusteno/

V tomto případě mají všechny vyhledávače s výjimkou Googlu zakázán přístup do adresářů /tajemstvi/ a /jeste-nespusteno/. Google má zakázán přístup do adresáře /jeste-nespusteno/, ale může procházet adresář /tajemstvi/.

Pokud chcete googlebotovi zakázat přístup jak do adresáře /tajemstvi/, tak do /jeste-nespusteno/, pak musíte tyto direktivy pro googlebota zopakovat:

User-agent: *
Disallow: /tajemstvi/
Disallow: /jeste-nespusteno/

User-agent: googlebot
Disallow: /tajemstvi/
Disallow: /jeste nespusteno/

Mejte na paměti, že váš soubor robots.txt je veřejně přístupný. Zakázání některých “tajných” sekcí tak může být právě impulsem útoku pro lidi s někalým úmyslem.

Robots.txt může být i nebezpečný. Nesdělujete jeho prostřednictvím pouze to, kam se vyhledávače nemají koukat, ale také říkáte lidem, kde schováváte svá špinavá tajemství.

Soubor robots.txt pro všechny (sub)domény

Direktivy v robots.txt se vztahují pouze na hosting, kde je soubor umístěn.

Příklady

http://priklad.cz/robots.txt platí pro http://priklad.cz, ale už ne pro http://www.priklad.cz nebo pro https://priklad.cz.

Osvědčeným postupem je mít na své (sub)doméně pouze jeden soubor robots.txt.

Pokud máte na svém webu více souborů robots.txt, zajistěte, aby vracely stavový kód 40, nebo je přesměrujte na kanonický soubor robots.txt.

Konfliktní instrukce: robots.txt vs. Google Search Console

V případě, že se váš soubor robots.txt dostává do konfliktu s nastavením v Google Search Console, Google dá obvykle přednost právě nastevení v Google Search Console.

Po spuštění soubor robots.txt monitorujte

Soubor robots.txt je důležité monitorovat a sledovat jeho změny. V ContentKingu vídáme mnoho situací, kde nesprávné direktivy a náhlé změny v robots.txt způsobí závažné SEO problémy.

To platí zejména pro spouštění nových funkcí nebo webů, které byly do té doby připravovány v testovacím prostředí. Ty pak často obsahují následující soubor robots.txt:

User-agent: *
Disallow: /

Právě kvůli tomu jsme vytvořili sledování historie změn v souboru robots.txt.

ContentKing - sledování změn v robots.txt
Jak zjistíte, že se váš soubor robots.txt změní?

Vídáme to každou chvíli, že je soubor robots.txt změněn bez vědomí marketingového týmu. Ale to nemusí být váš případ. Začněte monitorovat svůj robots.txt ihned a dostávejte upozornění, když se něco změní.

Vložte platnou doménu, prosím (www.priklad.cz).

Poté, co přidáte nové funkce nebo spustíte nový web: vždy zkontrolujte direktivy disallow / v souboru robots.txt.

V souboru robots.txt nepoužívejte noindex

Google již několik předchozích let otevřeně doporučoval nevyužívat neoficiální direktivu noindex. Od 1. září 2019 ji však přestal podporovat úplně.

Bing pak tuto neoficiální direktivu nepodporoval nikdy, jak potvrdil Frédéric Dubut:


Nejlepší způsob, jak vyhledávačům sdělit, že jisté stránky by neměly být zaindexovány, představují meta tag robots či X-Robots-Tag.

V souboru robots.txt nepoužívejte UTF-8 BOM

BOM, neboli byte order mark, je neviditelný znak na začátku souboru, který udává, jakým způsobem je daný soubor kódován (Unicode).

Google uvádí, že tento volitelný znak na začátku souboru robots.txt ignoruje, avšak my doporučujeme “UTF-8 BOM” nevyužívat, protože jsme již byli svědky případů, kdy tento znak působil vyhledávačům problémy s interpretací souboru robots.txt.

Ačkoli si Google dle svých slov s UTF-8 BOM poradí, zde jsou dva důvody, proč ho nevyzžívat:

  1. Soubor robots.txt by měl jednoznačně komunikovat vaše preference ohledně crawlování webu, a neměl by tak obsahovat žádné přebytečné znaky, které by tuto jednoznačnost mohly narušit.
  2. Existují také další vyhledávače, které vůči UTF-8 BOM nemusí být tak shovívavé, jako o sobě tvrdí Google.

Příklady souborů robots.txt

V této kapitole si ukážeme rozmanitou škálu příkladů souborů robots.txt:

Všichni roboti mají povolen přístup na celý web

Existuje více způsobů, jak sdělit vyhledávačům, že mohou procházet všechny soubory:

User-agent: *
Disallow:

Stejný efekt bude mít prázdný soubor robots.txt nebo žádný soubor robots.txt.

Všichni roboti mají zakázán přístup do všech souborů

User-agent: *
Disallow: /

Mějte na paměti, že jediný znak navíc může všechno změnit.

Všichni roboti Googlu mají zakázán přístup do všech souborů

User-agent: googlebot
Disallow: /

Pokud zakážete přístup googlebotovi, platí to pro všechny roboty Googlu včetně například robotů, kteří hledají zprávy (googlebot-news) a obrázky (googlebot-images).

Všichni roboti Googlu s výjimkou googlebot-news mají zakázán přístup do všech souborů

User-agent: googlebot
Disallow: /

User-agent: googlebot-news
Disallow:

Všichni roboti Googlu a Yahoo mají zakázán přístup do všech souborů

User-agent: Slurp
User-agent: googlebot
Disallow: /

Všichni roboti mají zakázán přístup do dvou adresářů

User-agent: *
Disallow: /admin/
Disallow: /soukrome/

Všichni roboti mají zakázán přístup do jednoho konkrétního adresáře

User-agent: *
Disallow: /adresar/neco-pdf.pdf

Googlebot má zakázán přístup do adresáře /admin/ a Slurp má zakázán přístup do adresáře /soukrome/

User-agent: googlebot
Disallow: /admin/

User-agent: Slurp
Disallow: /soukrome/

Robots.txt pro WordPress

Následující soubor robots.txt je optimalizovaný speciálně pro WordPress:

  • Administrátorská sekce by neměla být procházena.
  • Stránky vnitřního vyhledávání by neměly být procházeny.
  • Tag pages a stránky autora by neměly být procházeny.
  • Stránky s kódem 404 by neměly být procházeny.
User-agent: *
Disallow: /wp-admin/ #zakázat přístup do administrátorské sekce
Disallow: /wp-login.php #zakázat přístup do administrátorské sekce
Disallow: /search/ #zakázat přístup na stránky vnitřního vyhledávání
Disallow: *?s=* #zakázat přístup na stránky vnitřního vyhledávání
Disallow: *?p=* #zakázat přístup na stránky, u kterých nefungují permalinky
Disallow: *&p=* #zakázat přístup na stránky, u kterých nefungují permalinky
Disallow: *&preview=* #zakázat přístup na předchozí stránky
Disallow: /tag/ #zakázat přístup na tag pages
Disallow: /author/ #zakázat přístup na stránky autora
Disallow: /404-error/ #zakázat přístup na stránky se stavovým kódem 404
Sitemap: https://www.priklad.cz/sitemap_index.xml

Tento soubor robots.txt bude ve většině případů fungovat, ale stejně byste ho vždy měli přizpůsobit pro konkrétní situaci a otestovat.

Robots.txt pro Magento

Soubor robots.txt uvedený níže je specificky optimalizovaný pro Magento a zabrání robotům v přístupu k výsledkům interního vyhledávání, přihlašovacím stránkám a URL adresám obsahujícím dynamické parametry indikující relaci či filtry jako price, color, material a size.

User-agent: *
Disallow: /catalogsearch/
Disallow: /search/
Disallow: /customer/account/login/
Disallow: /*?SID=
Disallow: /*?PHPSESSID=
Disallow: /*?price=
Disallow: /*&price=
Disallow: /*?color=
Disallow: /*&color=
Disallow: /*?material=
Disallow: /*&material=
Disallow: /*?size=
Disallow: /*&size=

Sitemap: https://www.example.com/sitemap_index.xml

Ačkoli tento soubor robots.txt bude použitelný pro většinu e-shopů běžících na platformě Magento, vždy ho nejprve otestujte a případně přizpůsobte své konkrétní situaci.

Užitečné zdroje

Robots.txt 2.0 pro Seznam.cz

Možná to bude znít překvapivě, ale i Seznam.cz podporuje také robots.txt ve verzi 2.0. Oproti původní verzi zde můžete využít syntaxi rozšířenou o regulární výrazy. Zástupné znaky tak můžete šikovně využít pro zamezení přístupu do konkrétních částí webu.

Použití robots.txt 2.0 je však třeba SeznamBotovi ohlásit direktivou Robot-version: 2.0, která musí být vždy na druhém řádku bloku, za direktivou User-agent.

Příklad použití robots.txt ve verzi 2.0:

User-agent: *
Robot-version: 2.0
Disallow: /

Více o souboru robots.txt 2.0 a jeho zástupných znacích, ale také rozdílech oproti verzi 1.0 se dozvíte v nápovědě na Seznam.cz.

Důležité je také vědět, že pro Googleboty a Seznamboty musíte definovat pravidla zvlášť. Seznam pak má dokonce i některá vlastní pravidla pro robots.txt.

Kde jsou limity souboru robots.txt?

Soubor robots.txt obsahuje direktivy

I když vyhledávače obvykle respektují soubor robots.txt, je to stále jen soubor direktiv a ne příkazů.

Stránky se stále objevují ve výsledcích vyhledávání

Stránky, které jsou kvůli souboru robots.txt nepřístupné pro vyhledávače, ale vedou na ně odkazy, se mohou stále objevovat ve výsledcích vyhledávání (pokud vyhledávače prohledávají stránku, která na ně odkazuje). Jako příklad si můžeme uvést:

Popis v Googlu není dostupný kvůli souboru robots.txt

Tip: Tyto URL adresy lze z výsledků vyhledávání odstranit pomocí nástroje na dočasné odstranění URL adres z výsledků vyhledávání v Google Search Console. Tyto URL adresy budou však odstraněny pouze dočasně. Pokud chcete, aby zůstaly odstraněny, je nutné je vždy po 90 dnech zakázat znovu.

Ukládání do cache po dobu až 24 hodin

Google oznámil, že se soubor robots.txt obvykle ukládá do cache až na 24 hodin. Je dobré mít to na paměti, pokud v souboru děláte změny.

Není jisté, jakým způsobem ostatní vyhledávače ukládají soubor robots.txt do cache, ale obecně je nejlepším způsobem, je se ukládání vašeho souboru robots.txt do cache vyhnout, aby vyhledávačům netrvalo rozeznání změn déle než je nezbytné.

Velikost souboru

Google v současnosti podporuje soubory robots.txt do velikosti 500 kibibajtů (512 kilobajtů). Obsah přesahující tuto velikost může být ignorován.

Není jasné, jestli i ostatní vyhledávače mají stanovenou nějakou maximální velikost pro tento soubor.

Časté otázky ohledně souboru robots.txt

  1. Zabrání soubor robots.txt vyhledávačům, aby zobrazovaly zakázané stránky ve výsledcích vyhledávání?
  2. Měl bych být opatrný při používání souboru robots.txt?
  3. Mají vyhledávače povinnost řídit se souborem robots.txt?
  4. Budou vyhledávače procházet můj web, i když nepoužívám soubor robots.txt?
  5. Mohu místo Disallow používat v souboru robots.txt direktivu Noindex?
  6. Které vyhledávače se řídí souborem robots.txt?
  7. Jak mohu zabránit vyhledávačům v indexaci výsledkových stránek na svém WordPress webu?

1. Zabrání soubor robots.txt vyhledávačům, aby zobrazovaly zakázané stránky ve výsledcích vyhledávání?

Ne, podívejme se na příklad:

Popis v Googlu není dostupný kvůli souboru robots.txt

Důležité: pokud je stránka zakázána souborem robots.txt a zároveň obsahuje <meta name="robots" content="noindex,nofollow">, stejně zůstane v indexech vyhledávačů, protože ty se nikdy nedozví o <meta name="robots" content="noindex,nofollow">, dokud nebudou mít povolený přístup na tuto stránku.

2. Měl bych být opatrný při používání souboru robots.txt?

Ano, je třeba opatrnosti, to by vás ale nemělo odradit od používání tohoto souboru. Je to výborný nástroj, který zefektivní procházení vašeho webu.

3. Mají vyhledávače povinnost řídit se souborem robots.txt?

Teoreticky ne. Soubor robots.txt je pouze nepovinná direktiva.

4. Budou vyhledávače procházet můj web, i když nepoužívám soubor robots.txt?

Ano. Pokud vyhledávače nenajdou soubor robots.txt v kořeni (v nejvyšším adresáři webhostingu), usoudí, že žádné direktivy nejsou nastaveny a pokusí se projít celý váš web.

5. Mohu místo Disallow používat v souboru robots.txt direktivu Noindex?

To není moc vhodné.

Google vyloženě odrazuje od používání direktivy noindex v souboru robots.txt.

6. Které vyhledávače se řídí souborem robots.txt?

S jistotou víme, že všechny následující vyhledávače se tímto souborem řídí:

7. Jak mohu zabránit vyhledávačům v indexaci výsledkových stránek na svém WordPress webu?

Přidejte do svého souboru robots.txt následující direktivy. Tím vyhledávačům zabráníte indexovat stránky výsledků vašeho WordPress webu, pokud nebyly provedeny žádné změny ve fungování těchto stránek.

User-agent: *
Disallow: /?s=
Disallow: /search/

Další zdroje

Užitečné zdroje
ContentKing Academy Content Team
Steven van Vessum
Steven van Vessum

Steven je CCO společnosti ContentKing. To znamená, že se stará o všechno spojené se zákazníky a inbound marketingem. Takže je přesně tam, kde chce být. Baví ho zlepšovat pozice webů ve vyhledávačích a rád mluví o inbound marketingu.

Vojtěch Zach
Vojtěch Zach

Vojtěch se v ContentKingu stará o zákaznickou podporu a lokalizaci. Právě on vám rád odpoví na všechny otázky, když se nás rozhodnete kontaktovat. A protože je vystudovaný překladatel, kromě dělání radosti našim uživatelům ho baví také překonávat výzvy spojené s lokalizací naší aplikace.

Lorena Torsani
Lorena Torsani

Lorena v ContentKingu působí jako specialistka marketingu. Je to kreativní duše, která se vyžívá v přinášení čerstvých nápadů a ve vytváření nevšedních kampaní, prostřednictvím kterých komunikuje s našimi zákazníky.

Získejte zkušební verzi na 14 dní zdarma

Začněte během 20 vteřin

Vložte platnou doménu, prosím (www.priklad.cz).
  • Platební karta není potřeba
  • Není třeba žádná instalace
  • Bez závazků