Robots.txt

robots.txt je standardizovaný textový soubor, kterým může web indikovat, u kterých stránek je nebo není žádoucí, aby je procházeli internetoví boti např. za účelem indexace skrze web crawler. Tento soubor se musí nacházet v kořenovém adresáři daného webu. Jeho syntaxi definuje RFC 9309.

Příklady

Uvedením následujícího textu v souboru robots.txt lze zakázat procházení webu všem vyhledávačům:

User-Agent: *
Disallow: /

Následující příklad zakáže všem robotům, aby procházeli obsah složek /cgi-bin, /images, /tmp a /private:

User-Agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Zakázaní Googlebotu procházet vše v adresáři /en:

User-Agent: Googlebot
Disallow: /en/

Alternativy

Parametr konkrétních odkazů

Zakázat procházení konkrétních odkazů lze i vložením speciálního parametru rel="nofollow" do každého z odkazů.

<a href="/stranka-kterou-nechci-prochazet" rel="nofollow">

Metatag robots

Zákaz procházení odkazů vedoucí z konkrétní URL lze pomocí umístění speciálního metatagu do hlavičky stránky.

<meta name="robots" content="nofollow" />

Sitemap.xml

Do souboru robots.txt je doporučené vložit odkaz na sitemap.xml, aby tento soubor mohly vyhledávače snáze nalézt a využívat jej k efektivnějšímu procházení webu.

Sitemap: http://www.example.org/sitemap/sitemap.xml

Zákaz procházení není zákaz indexace

Mnoho správců webů se mylně domnívá, že zákazem procházení dojde automaticky i k zákazu indexace stránek, ale praxe je mírně složitější. Internetové vyhledávače musí stránku navštívit a stáhnout, aby ji mohly zanést do svého indexu (proces indexace). Když je procházení daného adresáře zakázané v souboru robots.txt, tak danou stránku nemohou roboti navštívit a tedy indexovat. Jestliže však na danou stránku vede mnoho zpětných odkazů, tak mohou tuto stránku vyhodnotit, jako důležitou a přesto ji indexovat.

Související články

  • Google
  • PageRank
  • SEO

Externí odkazy

  • Logo Wikimedia Commons Obrázky, zvuky či videa k tématu Protokol pro zakázání přístupu robotům na Wikimedia Commons
  • Vysvětlení na Jakpsatweb.cz
  • Vysvětlení (en)
  • Validace správnosti zapsání robots.txt Archivováno 18. 1. 2007 na Wayback Machine.
  • Jak správně zapsat soubor robots.txt?
  • Soubor robots.txt: základní příručka
  • Použití atributu rel="nofollow" Archivováno 28. 10. 2020 na Wayback Machine.
Pahýl
Pahýl
Tento článek je příliš stručný nebo postrádá důležité informace.
Pomozte Wikipedii tím, že jej vhodně rozšíříte. Nevkládejte však bez oprávnění cizí texty.