Fáze a prvky procesu crawlování

Fáze a prvky procesu crawlování

Crawling, pavouci, boti — pojmy, na které je každý SEO specialista zvyklý a které mají v každé pozicovací strategii zásadní váhu, protože pokud selže tato fáze, selže i zbytek.

Pojďme se detailně podívat na to, z čeho se proces crawlování webu skládá.

Co znamená procrawlovat web?

Než se posuneme dál, definujme si proces procházení webu a ukažme si jeho důležitost pro snahy o objevení se ve výsledcích vyhledávání Googlu.

Procrawlování webu chápeme jako proces, při kterém pavouci či crawlery cestují různými stránkami webu, sbírají všechny dostupné informace, ukládají je, zpracovávají a později klasifikují.

V definici, kterou jsme právě uvedli, stojí za to vyzdvihnout několik zásadních pojmů:

  • Cestování: Představte si skutečně pavouka. Tento sympatický tvoreček musí projít co nejvíc stránek, aby vytěžil co nejvíc informací. Mezi stránkami se přesouvá po interních odkazech, které je propojují. Z toho plyne důležitost správného interního prolinkování, které pavoukům umožní „objevit“ — pokud ne všechny — alespoň ty pro nás nejrelevantnější stránky.

  • Přístupnost: Informace musí být pro pavouky přístupné. To znamená, že pokud jim úmyslně či omylem omezujeme přístup, bráníme jim ve zpracování celého obsahu, a tedy v jeho pochopení a následné klasifikaci.

K tomuto blokování či omezování obsahu stránek může docházet několika různými způsoby, které se v tomto článku pokusíme vysvětlit.

Crawlery

Mluvili jsme o pavoucích, kterým se říká také crawlery nebo boti. Můžeme je definovat jako programy analyzující dokumenty na našem webu, tedy fungují jako „knihovníci“, kteří hledají, klasifikují a organizují. Jejich hlavní funkcí je tedy budovat databáze. Existuje jich několik typů podle toho, jaký druh informací sbírají. Zmiňme některé z nejběžnějších.

Googlebot: Pavouk odpovědný za procrawlování našeho obsahu a jeho zařazování v rámci organických výsledků (SERPů). Pro SEO je nejdůležitější.

V rámci tohoto typu rozlišujeme některé subtypy:

  • Googlebot (smartphones): Mobilní verze

  • Googlebot (desktop version): Desktopová verze

  • Googlebot Images: Procrawlovává obrázky

  • Googlebot News: Pro zprávy

  • Googlebot Video: Teď je řada na videích

Příklad bota identifikovaného v našich logech:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Nejsou jediní — existují i další jako Adsbot, Adsense atd. Vzhledem k tomu, že jsme již zmínili ty pro SEO sektor relevantní, podrobné rozlišení od ostatních není cílem tohoto článku, ale další informace najdete na následujícím oficiálním odkazu Google.

Fáze procesu crawlování a indexace u Googlu

Nyní, když víme, co je crawling, kdo má tuto funkci na starost, a probrali jsme proces, podívejme se na něj detailněji.

První fáze: crawling a klasifikace

Proces, kterým se naše stránky objevují ve výsledcích Googlu, prochází první fází crawlingu, jak jsme viděli, kterou provádějí pavouci (crawlery), aby si přečetli, interpretovali, zaindexovali a klasifikovali náš obsah.

Právě toto nové slovo chceme detailně rozebrat — klasifikovat. Google musí náš obsah dokonale pochopit, jednoduše a rychle, protože, jak ještě uvidíme, Google na našem webu tráví specifický čas a v tomto čase musí náš obsah „pochopit“ a propojit s různými vyhledávacími záměry uživatelů.

Proto se v moderním SEO tak často skloňuje termín „search intent“, neboť ho Google bude v této klasifikaci zohledňovat a definuje pozici, kterou naše stránky obsadí v žebříčcích SERPů.

Proto musí být proces crawlingu čistý, jednoduchý, rychlý, bez překážek atd., aby bylo vše jasné a my byli zařazeni správně.

Fáze druhá: Indexace

Nemůžeme zapomenout na fázi indexace, která předchází klasifikaci a hraje rovněž zásadní roli, neboť právě v ní Google přidává náš obsah do své databáze, tedy ho indexuje.

crawling web
crawling web

Blokování botů Googlu

Zmínili jsme, že existují způsoby, jimiž bychom mohli pavoukům omezovat přístup k našemu obsahu. K tomu existuje pro SEO nesmírně důležitý prvek známý jako robots.txt.

Soubor robots.txt je textový soubor, který nahráváme na server a v němž dáváme jednotlivým pavoukům přesné instrukce, zda mohou nebo nemohou crawlovat URL na našem webu. Toto blokování lze aplikovat:

  • na celou doménu

  • na konkrétní cestu

  • na konkrétní URL

  • nebo na sadu URL odpovídajících určitému vzoru.

Podívejme se na příklad konfigurace tohoto souboru:

User-agent: *

Disallow: /wp-admin/

Allow: wp-admin/admin-ajax.php

Sitemap: /sitemap.xml

Jak vidíme, má první řádek, kde specifikujeme user-agent (jméno crawleru, kterého chceme zablokovat nebo povolit, ze seznamu zmíněného výše), následované příkazem „disallow“ pro zákaz vstupu nebo „allow“ pro povolení.

V konkrétním případě, který vidíme, znamená hvězdička „všechny crawlery“ bez výjimky. Zakazujeme jim vstup do cesty /wp-admin/, ale v rámci této cesty jim chceme povolit vstup do /admin-ajax.php.

Nesprávná konfigurace tohoto souboru může způsobit, že blokujeme důležité části obsahu. Běžnou chybou je mít celý web zablokovaný během vývoje a po nasazení do produkce zapomenout blokaci odstranit, čímž ho učiníme pro Google nepřístupným.

Dalším problémem, na který mohou pavouci Googlu při crawlování narazit, je neschopnost následovat interní odkazy, které máme na webu, a tedy nemožnost dostat se ke zbytku URL. K tomu dochází, když používáme javascriptové prvky místo „href“ v těchto odkazech. Tato praxe je velmi rozšířená, protože použití JS má pro uživatele řadu výhod, ale pokud se nepoužije správně a navíc u interních odkazů, může se stát, že je Google nedokáže následovat.

V SEO světě se tomu říká „link obfuscation“ (obfuskace odkazů). Dodnes je otevřená debata o tom, zda Google dokáže správně procrawlovat a vyrenderovat stránky postavené na JS.

Stavové kódy serveru

Abychom tomuto procesu dobře porozuměli, nemůžeme přehlédnout pojem, se kterým SEO specialisté pracují denně — stavové kódy serveru.

Předtím jsme viděli cyklus, kterým nás Google najde, ale jak k tomu dochází? Uživatel zadá v Googlu vyhledávací dotaz (query). Vyhledávač jde do své databáze a zobrazí nejrelevantnější výsledky (SERPy) podle provedené klasifikace pro daný dotaz.

Jakmile uživatel uvidí různé výsledky (impresí), klikne na jeden z nich, ten, který podle něj nejvíc odpovídá tomu, co potřebuje. V tu chvíli vstupuje do hry požadavek Googlu na server, kde je web hostován, aby mu „dodal“ obsah.

Když k tomu dojde, server odpoví prostřednictvím odpovídajícího kódu. Pojmenujme ty nejrelevantnější, které musíme jako SEO specialisté brát v úvahu:

  • 200: Tento kód říká Googlu, že stránka existuje, má obsah a není problém ji zobrazit. Je to ten nejžádanější, pokud je obsah stránky s kódem 200 optimální.

  • 30x: Rodina stavových kódů 30x odpovídá přesměrováním. Nejvýznamnější jsou 301 (trvalé), 302 a 307 (dočasné). V zásadě říkají Googlu „hej, tato URL A, na kterou ses ptal, už není ona, je to jiná URL B“. Existuje jich víc, ale nejsou předmětem konceptu, kterým se zde zabýváme. Důležité je vědět, že jako SEO specialisté preferujeme 301, které přenášejí veškerou autoritu.

Doporučená četba: Tutoriál o 301 přesměrováních

  • 40X: Chybové kódy. Nejméně žádané. Nejběžnější je slavný 404. Když se objeví tento kód, říkáme Googlu v reakci na jeho požadavek na URL, že už neexistuje, a jde tedy o chybu.

  • 410: Tento kód jsme z rodiny 40x chtěli vyzdvihnout pro jeho SEO význam. Pokud ho použijeme jako odpověď na požadavek Googlu na URL, říkáme tím, že „je nadobro pryč“. Je to zajímavé, protože na rozdíl od 404 chápe Google, že už tam nikdy nebude, a přestane se jí pokoušet procrawlovávat, zatímco u 404 se vrátí znovu a znovu, protože si myslí, že to možná napravíme.

  • 50x: Tento typ odpovědi je spojen s chybami serveru. Když naše zařízení z nějakého důvodu selže a Google se nás pokouší zeptat na obsah nějaké URL, server odpoví stavem 505.

Crawl budget

V této fázi článku ještě potřebujeme zmínit pojem, který se v SEO světě před pár lety zpopularizoval — crawl budget.

Crawl budget je čas, který pavouci Googlu věnují procrawlování webu a všech jeho URL. Je, jak jsme řekli, konečný. Z toho plyne důležitost optimalizace webu, abychom mu usnadnili návštěvu nejrelevantnějších stránek v daném čase.

Tento čas, který crawlery webu věnují, není fixní hodnota, poroste, nebo se zmenší v závislosti na aspektech jako frekvence aktualizace obsahu, autorita domény (popularita) atd.

Čím vyšší kvalita webu, větší autorita a více čerstvého obsahu, tím relevantnější nás Google bude považovat a tím více budgetu nám na crawling přidělí.

Programy na crawling jako Screaming Frog provádějí ideálně simulované crawly našeho webu, tedy jako by pavouci měli veškerý čas světa na projití úplně všech našich URL.

Tak to ale s Googlebotem nefunguje — pokaždé, když Google náš web navštíví, navštíví některé URL víc než jiné. Některé dokonce nemusí navštívit vůbec. To analyzujeme tím, čemu se říká logy serveru (záznamy, které URL Google procrawloval, jak často a kolikrát v daném období).

Až sem celá analýza pro pochopení toho, co je crawling, a jednotlivých prvků, které tvoří systém crawlingu Googlu.

Máte nějaké dotazy nebo postřehy? Jako vždy… rádi si vás přečteme!

Autor: David Kaufmann

David Kaufmann

Posledních 10+ let jsem byl naprosto posedlý SEO — a upřímně, jinak bych to mít ani nechtěl.

Moje kariéra dostala nový rozměr, když jsem pracoval jako senior SEO specialista pro Chess.com — jeden ze 100 nejnavštěvovanějších webů celého internetu. Pracovat v takovém měřítku, na milionech stránek, v desítkách jazyků a v jedné z nejkonkurenčnějších SERP, mě naučilo věci, které žádný kurz ani certifikát nemůže předat. Tato zkušenost změnila mou perspektivu na to, jak vypadá opravdu skvělé SEO — a stala se základem všeho, co jsem od té doby vybudoval.

Z této zkušenosti jsem založil SEO Alive — agenturu pro značky, které to s organickým růstem myslí vážně. Nejsme tady, abychom prodávali dashboardy a měsíční reporty. Jsme tady, abychom stavěli strategie, které opravdu pohnou výsledky, kombinací toho nejlepšího z klasického SEO se vzrušujícím novým světem Generative Engine Optimization (GEO) — abychom zajistili, že se vaše značka objeví nejen v modrých odkazech Googlu, ale i uvnitř odpovědí generovaných AI, které ChatGPT, Perplexity a Google AI Overviews každý den dodávají milionům lidí.

A protože jsem nenašel nástroj, který by oba tyto světy zvládal pořádně, postavil jsem si vlastní — SEOcrawl, enterprise SEO intelligence platformu, která spojuje rankings, technické audity, monitoring backlinků, zdraví crawlu a sledování viditelnosti značky v AI na jednom místě. Je to platforma, kterou jsem si vždy přál, aby existovala.

→ Přečíst všechny články od David
Další články od David Kaufmann

Objevte další obsah od tohoto autora