robots.txt: kompletny przewodnik po konfiguracji

Masz już dość słuchania o robots.txt i nie wiesz, o co chodzi? Spokojnie — dziś rozprawimy się z tym tematem raz na zawsze. W tym wpisie postaramy się jasno wyjaśnić, czym jest robots.txt, jak go skonfigurować (zwłaszcza w WordPressie) i jaki wpływ może mieć na SEO Twojego projektu.
Do dzieła!
Czym jest robots.txt i do czego służy?
robots.txt to po prostu plik umieszczony w katalogu głównym Twojej strony, który pozwala zablokować określonym botom (np. botom Google'a czy Binga) dostęp do Twojej witryny lub jej części.
UWAGA: warto wiedzieć, że jest to protokół i co do zasady wszystkie „dobre" boty go przestrzegają (GoogleBot, BingBot, Semrush, ...), ale każdy bot ze złymi zamiarami może go zignorować, podobnie jak Screaming Frog, jeśli zaznaczysz tę opcję:

Dlaczego plik robots.txt jest ważny dla SEO?
Jak wspomnieliśmy wyżej, wszystkie porządne boty (np. GoogleBot) stosują się do tego protokołu — możemy więc wykorzystać ten plik, aby poprowadzić Google'a po naszej stronie.
Co? Jak to: poprowadzić Google'a za pomocą robots.txt?
Tak, spokojnie — wytłumaczymy to na przykładzie i wszystko stanie się jasne:
Wyobraź sobie, że na swojej stronie masz strefę prywatną, do której dostęp mają tylko zalogowani użytkownicy. Jak dobrze wiemy, Google nie potrafi wejść tam, gdzie wymagane jest logowanie (jeszcze...).
Czy w takim razie nie ma sensu, żeby Google nie marnował naszego crawl budgetu na przeszukiwanie stron, które nie mają dla niego żadnej wartości?
Dokładnie tak! Jednym z najważniejszych zastosowań robots.txt jest blokowanie ścieżek, które są dla Google'a mało wartościowe, dzięki czemu może on skupić się na tych naprawdę istotnych stronach. Z tego względu robots.txt powinien być jednym z fundamentów Twojej strategii SEO.
To tylko jeden z tysięcy przykładów tego, co da się zrobić z tym plikiem. Inne to wskazanie sitemapy, zmniejszenie częstotliwości crawlowania, blokowanie indeksowania zasobów i tak dalej.
Jak stworzyć plik robots.txt
No to bierzemy się do roboty!
Stworzenie tego pliku jest naprawdę proste — wystarczy odpalić edytor tekstu (Notatnik w Windowsie albo TextEdit na Macu) lub skorzystać z edytora online, a po przygotowaniu treści wyeksportować plik w formacie txt.
Następnie nadajemy mu nazwę „robots.txt" i wgrywamy do katalogu głównego strony przez panel serwera lub FTP.
Aby sprawdzić, czy plik został poprawnie wgrany, wystarczy dopisać „/robots.txt" do swojej domeny, na przykład https://seocrawl.com/robots.txt
UWAGA: uważaj na cache — najlepiej sprawdzać to w trybie incognito ;)
A co jeśli mam WordPressa?
Jeśli masz WordPressa, sprawa jest jeszcze prostsza, bo najlepsze wtyczki SEO, takie jak Rank Math czy Yoast, mają wbudowany dodatek do edycji robots.txt bezpośrednio z panelu.
W przypadku Rank Math znajdziesz to w Rank Math > General Settings > Edit robots.txt

W przypadku Yoasta trzeba przejść do SEO > Narzędzia > Edytor plików
W ten sposób bez problemu wyedytujesz lub utworzysz plik bez konieczności wykonywania któregokolwiek z powyższych kroków.
Komendy
Poniżej omówimy wiele komend, którymi możesz się posłużyć, wraz z odpowiednimi przykładami:
Zablokuj crawlowanie całej witryny
User-agent: * Disallow: /
WSKAZÓWKA: Jeśli aktualnie tworzysz stronę i nie chcesz, żeby jakikolwiek bot na nią wchodził, czytał i indeksował treści, ta reguła sprawdzi się idealnie.
Zablokuj crawlowanie pojedynczej strony
User-agent: * Disallow: /url-strony-ktorej-nie-chce-crawlowac
Zablokuj crawlowanie folderu
User-agent: * Disallow: /folder/
Zezwól na dostęp do strony
User-agent: * Allow: /strona
Zablokuj folder, ale zezwól na konkretną stronę w jego wnętrzu
User-agent: * Disallow: /folder/ Allow: /folder/strona
Wskaż sitemapę
Sitemap: https://domena.com/sitemap.xml
Wydawaj polecenia konkretnym botom
W tym przypadku zatrzymamy się na chwilę dłużej. Jeśli zwróciłeś uwagę, większość poprzednich dyrektyw zaczynała się od:
User-agent: *
Ta „*" odnosi się do wszystkich botów. Innymi słowy, wszystkie dyrektywy poniżej tej linii dotyczą każdego bota. Jeśli chcemy wysłać konkretne polecenie do wybranego bota, musimy to zmienić w następujący sposób:
User-agent: Googlebot Jeśli chcemy odwołać się do bota Google'a
User-agent: Bingbot Jeśli chcemy odwołać się do bota Binga
User-agent: DuckDuckBot Jeśli chcemy odwołać się do bota DuckDuckGo
Wystarczy sprawdzić, jak nazywa się bot, do którego chcesz skierować polecenie, i wpisać go tak, jak pokazaliśmy wyżej.
Sprawdź i przetestuj plik robots.txt
Skoro skończyłeś już „dopieszczać" swój plik robots, żeby był maksymalnie zoptymalizowany i dopasowany do Twojej strony, pozostaje jeszcze tylko jedno: przetestować go.
Przetestować? Po co?
Po to, żeby upewnić się, że nigdzie nie zrobiliśmy literówki i że plik faktycznie blokuje te części strony, które chcemy zablokować.
Polecamy do tego to narzędzie.

Po wejściu na stronę wystarczy:
-
Wpisać URL, dla którego chcesz sprawdzić, czy crawlowanie jest dozwolone
-
Wybrać User Agenta
-
Kliknąć TEST
Zaraz potem załaduje się cały Twój plik robots.txt, a poniżej zobaczysz informację, czy dostęp jest dozwolony, czy nie.

W tym przypadku, jak widać, dostajemy pozytywny wynik. Gdybyśmy jednak wpisali URL, który nie jest dozwolony, narzędzie podświetliłoby również dokładną linię, która go blokuje:

Co więcej, narzędzie pozwala edytować plik robots.txt bezpośrednio w nim, dzięki czemu możesz wprowadzać zmiany aż wynik będzie zgodny z Twoim celem. Po edycji i przetestowaniu wystarczy przenieść te modyfikacje do prawdziwego pliku robots.
Bonus: spraw, by Twój robots.txt zapadał w pamięć
Pokazaliśmy mnóstwo linijek kodu skierowanych do botów, ale w pliku możesz też zostawiać komentarze, zaczynając linię od znaku „#". Wszystko, co rozpoczyna się od „#", jest ignorowane przez boty. To otwiera całe pole do popisu — od dowcipów branżowych po easter eggi. Dlatego zachęcamy, żebyś rzucił okiem na pliki robots.txt windupschool, pccomponentes czy Minube — niejedna niespodzianka czeka ?

Podsumowanie
Jak widzisz, plik robots.txt ma do zaoferowania naprawdę sporo, ale wymaga też dużej ostrożności, bo źle ustawiona dyrektywa potrafi zablokować crawlowanie całej Twojej strony.
Mamy nadzieję, że ten przewodnik okaże się przydatny, a w razie pytań — do zobaczenia w komentarzach.
Autor: David Kaufmann

Ostatnie ponad 10 lat spędziłem kompletnie zafascynowany SEO — i szczerze mówiąc, nie zamieniłbym tego na nic innego.
Moja kariera wskoczyła na zupełnie nowy poziom, gdy pracowałem jako senior SEO specialist w Chess.com — jednej ze 100 najczęściej odwiedzanych stron w całym internecie. Działanie na taką skalę, na milionach podstron, w dziesiątkach języków i w jednych z najbardziej konkurencyjnych SERPs, nauczyło mnie rzeczy, których nie dałby żaden kurs ani certyfikat. To doświadczenie zmieniło moje spojrzenie na to, jak naprawdę wygląda świetne SEO — i stało się fundamentem wszystkiego, co zbudowałem od tamtej pory.
Z tego doświadczenia narodziło się SEO Alive — agencja dla marek, które na poważnie podchodzą do wzrostu organicznego. Nie jesteśmy tu po to, żeby sprzedawać dashboards i miesięczne raporty. Jesteśmy tu, żeby budować strategie, które realnie robią różnicę, łącząc to, co najlepsze w klasycznym SEO, z ekscytującym nowym światem Generative Engine Optimization (GEO) — tak, aby Twoja marka pojawiała się nie tylko w niebieskich linkach Google, ale też wewnątrz odpowiedzi generowanych przez AI, które ChatGPT, Perplexity i Google AI Overviews dostarczają każdego dnia milionom ludzi.
A ponieważ nie mogłem znaleźć narzędzia, które potrafiłoby porządnie obsłużyć oba te światy, zbudowałem je sam — SEOcrawl, platformę enterprise SEO intelligence, która łączy w jednym miejscu rankings, audyty techniczne, monitoring backlinks, kondycję crawl i śledzenie widoczności marki w AI. To platforma, o której istnieniu zawsze marzyłem.
Odkryj więcej treści tego autora

