Fazy i elementy procesu crawlingu (indeksowania)

Crawling, pająki, boty – to terminy, którymi każdy specjalista SEO posługuje się na co dzień, a niosą one ze sobą zasadnicze znaczenie w każdej strategii pozycjonowania, ponieważ jeśli ta faza zawiedzie, reszta również.
Przyjrzyjmy się szczegółowo, na czym polega proces crawlingu strony internetowej.
Co oznacza crawlować stronę?
Zanim przejdziemy dalej, zdefiniujmy proces crawlowania witryny, pokazując znaczenie, jakie ma w każdej próbie pojawienia się w wynikach wyszukiwania Google.
Crawlowanie witryny rozumiane jest jako proces, w którym pająki lub crawlery przemierzają różne strony witryny, gromadząc wszystkie dostępne informacje, aby je przechowywać, przetwarzać, a następnie klasyfikować.
Warto wyróżnić kilka fundamentalnych terminów w definicji, którą właśnie przedstawiliśmy:
-
Podróż: Pomyśl o pająku. Ten przyjazny owad musi przejść przez jak najwięcej stron, aby wyciągnąć jak najwięcej informacji. Aby przejść z jednej strony na drugą, robi to przez linki wewnętrzne, które je łączą. Stąd znaczenie posiadania prawidłowego linkowania wewnętrznego, które pozwala tym pająkom „odkryć" – jeśli nie całość – to przynajmniej najistotniejsze dla nas strony.
-
Dostępność: Informacje muszą być dostępne dla tych pająków. Czyli jeśli w jakiś sposób ograniczamy ich dostęp celowo lub przez pomyłkę, uniemożliwiamy pająkom przetworzenie całej zawartości, a tym samym jej zrozumienie i ostatecznie sklasyfikowanie.
To blokowanie lub ograniczanie zawartości strony może wystąpić na kilka różnych sposobów, które postaramy się wyjaśnić w dalszej części tego wpisu.
Crawlery
Mówiliśmy o pająkach, znanych również jako crawlery lub boty. Możemy je zdefiniować jako programy analizujące dokumenty na naszej stronie, czyli są jak „bibliotekarze", którzy szukają, klasyfikują i organizują. Ich główną funkcją jest zatem budowanie baz danych. Istnieje kilka rodzajów, w zależności od rodzaju zbieranych informacji. Wymieńmy niektóre z najczęstszych.
Googlebot: Pająk odpowiedzialny za crawlowanie naszych treści i kategoryzowanie ich w wynikach organicznych (SERP). Dla SEO jest to najważniejszy.
W obrębie tego typu możemy wyróżnić kilka podtypów:
-
Googlebot (smartfony): Wersja mobilna
-
Googlebot (wersja desktop): Wersja desktopowa
-
Googlebot Images: Odpowiedzialny za crawlowanie obrazów
-
Googlebot News: Dla wiadomości
-
Googlebot Video: Teraz kolej na filmy
Przykład bota zidentyfikowanego w naszych logach:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Nie są jedyne – istnieją inne, takie jak Adsbot, Adsense itp. Wymieniwszy już istotne dla sektora SEO, odróżnianie ich od pozostałych nie jest celem tego artykułu, ale dodatkowe informacje znajdziesz pod następującym oficjalnym linkiem Google.
Fazy procesu crawlowania i indeksowania Google
Skoro wiemy już, czym jest crawling, kto odpowiada za tę funkcję i omówiliśmy proces, przyjrzyjmy się mu bardziej szczegółowo.
Pierwsza faza: crawling i klasyfikacja
Proces, dzięki któremu nasze strony pojawiają się w wynikach Google, przechodzi przez pierwszą fazę crawlowania, jak widzieliśmy, wykonywaną przez pająki (crawlery), aby odczytały, zinterpretowały, zaindeksowały i sklasyfikowały naszą treść.
To właśnie to nowe słowo chcemy szczegółowo przeanalizować, klasyfikować. Google musi doskonale zrozumieć naszą treść, prosto i szybko, ponieważ jak zobaczymy później, Google spędza określony czas na naszej stronie, i w tym czasie musi „zrozumieć" naszą treść i powiązać ją z różnymi intencjami wyszukiwania użytkowników.
Dlatego we współczesnym SEO tak często słyszy się słowo „Search Intent", ponieważ Google weźmie je pod uwagę w tej klasyfikacji i to ono zdefiniuje pozycję, jaką nasze strony zajmują w rankingu SERP-ów.
Dlatego proces crawlowania musi być czysty, prosty, szybki, bez przeszkód itp., aby wszystko było jasne i abyśmy zostali poprawnie sklasyfikowani.
Faza druga: Indeksowanie
Nie możemy zapomnieć o fazie indeksowania, która poprzedza klasyfikację i również odgrywa fundamentalną rolę, ponieważ będzie to krok, w którym Google dodaje naszą treść do swojej bazy danych, czyli ją indeksuje.

Blokowanie robotów Google
Wspomnieliśmy wcześniej, że istnieją sposoby, w jakie moglibyśmy ograniczać tym pająkom dostęp do naszej treści. W tym celu istnieje element o ogromnym znaczeniu w SEO znany jako robots.txt.
Plik robots.txt to plik tekstowy, który wgrywamy na nasz serwer, w którym dajemy precyzyjne instrukcje różnym pająkom, aby umożliwić im lub zablokować crawlowanie URL-i na naszej stronie. Blokowanie to można zastosować:
-
do całej domeny
-
do konkretnej ścieżki
-
do konkretnego URL
-
lub do zestawu URL-i pasujących do określonego wzorca.
Zobaczmy przykładową konfigurację tego pliku:
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
Jak widzimy, ma pierwszą linię, gdzie określamy user-agent (nazwę crawlera, którego chcemy zablokować lub zezwolić, spośród tych, które widzieliśmy wcześniej), po którym następują polecenia „disallow", aby zabronić wejścia, lub „allow", aby je dopuścić.
W konkretnym przypadku, który widzimy, wskazując * mówimy „wszystkie crawlery", bez wyjątku. Zabraniamy im wejścia do ścieżki /wp-admin/, ale w obrębie tej ścieżki chcemy pozwolić im wejść do /admin-ajax.php.
Niepoprawna konfiguracja tego pliku może spowodować, że będziemy blokować ważne części naszej treści. Częstym błędem jest zablokowanie całej witryny w trakcie jej rozwoju, a następnie zapomnienie o usunięciu tej blokady po wdrożeniu jej do produkcji, co czyni ją niedostępną dla Google.
Innym problemem, który mogą napotkać pająki Google podczas crawlowania naszej treści, jest brak możliwości podążania za linkami wewnętrznymi, które mamy na naszej witrynie, a tym samym nieuzyskanie dostępu do pozostałych URL-i. Dzieje się tak, gdy używamy elementów javascript zamiast „href" w tych linkach. Ta praktyka jest bardzo powszechna, ponieważ używanie JS ma wiele zalet na poziomie użytkownika, ale jeśli nie jest używane poprawnie, a dodane do linków wewnętrznych, Google może nie być w stanie za nimi podążać.
W świecie SEO znane jest to jako „link obfuscation". Do dziś jest to otwarta debata, czy Google jest w stanie poprawnie crawlować i renderować strony zrobione w JS.
Kody odpowiedzi serwera
Aby kontynuować dobre rozumienie tego procesu, nie możemy pominąć pojęcia, z którym SEO musi mieć codziennie do czynienia, kodów odpowiedzi serwera.
Wcześniej widzieliśmy cykl, dzięki któremu Google nas znajduje, ale jak to się dzieje? Użytkownik wykonuje wyszukiwanie (zapytanie) w Google. Wyszukiwarka idzie do swojej bazy danych i pokazuje najistotniejsze wyniki (SERP), zgodnie z dokonaną klasyfikacją, dla tego wyszukiwania.
Gdy użytkownik widzi różne wyniki (wyświetlenia), klika w jeden z nich, ten, który w jego ocenie najlepiej pasuje do tego, czego potrzebuje. W tym momencie wchodzi w grę żądanie Google do serwera, na którym hostowana jest witryna, aby „podał" zawartość.
Gdy to się dzieje, odpowiedź serwera jest produkowana przez odpowiedni kod. Wymieńmy najistotniejsze, które jako SEO musimy wziąć pod uwagę:
-
200: Ten kod odpowiedzi jest tym, który mówi Google, że strona istnieje, że ma zawartość i że nie ma problemu z jej pokazaniem. Jest najbardziej pożądany przez SEO, o ile zawartość tej strony z kodem 200 jest optymalna.
-
30x: Rodzina kodów statusu 30x odpowiada przekierowaniom. Najważniejsze to 301 (stałe), 302 i 307 (tymczasowe). Zasadniczo mówią Google „hej, ten URL A, którego zażądałeś, nie jest już tym, jest innym URL B". Jest ich więcej, ale nie są przedmiotem omawianego pojęcia. Ważne jest, aby wiedzieć, że jako SEO preferowane są 301, które przekazują cały autorytet.
Lektura zalecana: Tutorial o przekierowaniach 301
-
40X: Kody błędów. Najmniej pożądane przez SEO. Najczęstszy to słynny 404. Gdy ten kod się pojawia, mówimy Google w odpowiedzi na jego żądanie URL, że już nie istnieje i jest zatem błędem.
-
410: Chcieliśmy wyodrębnić ten z rodziny 40x ze względu na jego wartość SEO. Gdy używamy tego kodu, w odpowiedzi na żądanie z serwera Google dla URL, mówimy mu, że „odszedł na zawsze". Jest to interesujące, ponieważ w przeciwieństwie do 404, Google rozumie, że już nigdy go tam nie będzie i przestanie próbować go crawlować, podczas gdy z 404 będzie go crawlować ponownie, myśląc, że możemy chcieć go naprawić.
-
50x: Ten typ odpowiedzi jest powiązany z błędami serwera. Gdy nasza maszyna z jakiegoś powodu zawodzi, a Google próbuje zażądać od nas zawartości jakiegoś URL, jeśli serwer zawodzi, zwraca kod statusu 505.
Crawl Budget
W tym miejscu wpisu musimy jeszcze poruszyć termin, który stał się popularny kilka lat temu w świecie SEO, znany jako crawl budget.
Crawl budget odnosi się do czasu, jaki pająki Google spędzają na crawlowaniu witryny i wszystkich jej URL-i. Jest to, jak mówiliśmy wcześniej, czas skończony. Stąd znaczenie posiadania zoptymalizowanej witryny, aby ułatwić mu zobaczenie najistotniejszych stron naszej witryny w tym czasie.
Ten czas, który crawlery spędzają, przechodząc przez naszą stronę, nie jest stałą wartością, będzie rósł lub malał w zależności od aspektów takich jak częstotliwość, z jaką aktualizujemy treść, autorytet naszej domeny (popularność) itp.
Im wyższa jakość naszej witryny, im większy autorytet i im więcej świeżej treści, tym bardziej Google uzna nas za istotnych i przeznaczy więcej budżetu na crawlowanie nas.
Z programami do crawlowania takimi jak Screaming Frog wykonujemy idealnie symulowane crawle naszej witryny, czyli tak, jakby pająki miały cały czas świata, aby przejść przez każdy z naszych URL-i.
Ale tak to nie działa, gdy mówimy o Googlebocie – raczej za każdym razem, gdy Google odwiedza naszą witrynę, odwiedzi niektóre URL-e bardziej niż inne. W rzeczywistości mogą być takie, których nawet nie odwiedza. Przeanalizujemy to za pomocą tego, co znane jest jako logi serwera (zapisy, które URL-e Google crawlowało, jak często to robiło i ile razy w danym okresie).
Do tego momentu cała analiza dotycząca zrozumienia, czym jest crawling i różnych elementów, które stanowią część systemu crawlowania Google.
Masz pytania lub sugestie? Jak zawsze… chętnie cię wysłuchamy!
Autor: David Kaufmann

Ostatnie ponad 10 lat spędziłem kompletnie zafascynowany SEO — i szczerze mówiąc, nie zamieniłbym tego na nic innego.
Moja kariera wskoczyła na zupełnie nowy poziom, gdy pracowałem jako senior SEO specialist w Chess.com — jednej ze 100 najczęściej odwiedzanych stron w całym internecie. Działanie na taką skalę, na milionach podstron, w dziesiątkach języków i w jednych z najbardziej konkurencyjnych SERPs, nauczyło mnie rzeczy, których nie dałby żaden kurs ani certyfikat. To doświadczenie zmieniło moje spojrzenie na to, jak naprawdę wygląda świetne SEO — i stało się fundamentem wszystkiego, co zbudowałem od tamtej pory.
Z tego doświadczenia narodziło się SEO Alive — agencja dla marek, które na poważnie podchodzą do wzrostu organicznego. Nie jesteśmy tu po to, żeby sprzedawać dashboards i miesięczne raporty. Jesteśmy tu, żeby budować strategie, które realnie robią różnicę, łącząc to, co najlepsze w klasycznym SEO, z ekscytującym nowym światem Generative Engine Optimization (GEO) — tak, aby Twoja marka pojawiała się nie tylko w niebieskich linkach Google, ale też wewnątrz odpowiedzi generowanych przez AI, które ChatGPT, Perplexity i Google AI Overviews dostarczają każdego dnia milionom ludzi.
A ponieważ nie mogłem znaleźć narzędzia, które potrafiłoby porządnie obsłużyć oba te światy, zbudowałem je sam — SEOcrawl, platformę enterprise SEO intelligence, która łączy w jednym miejscu rankings, audyty techniczne, monitoring backlinks, kondycję crawl i śledzenie widoczności marki w AI. To platforma, o której istnieniu zawsze marzyłem.
Odkryj więcej treści tego autora

