Етапи й елементи процесу crawling

David Kaufmann

16 квітня 2020 р.

8 min read

Crawling, павуки, боти — це терміни, з якими SEO-фахівці працюють щодня, і вони мають фундаментальну вагу в будь-якій стратегії ранжування, бо якщо ця фаза провалиться, провалиться й решта.

Розгляньмо детально, у чому полягає процес сканування вебсайту.

Що означає сканувати вебсайт?

Перш ніж рухатися далі, визначмо процес сканування вебсайту, показавши важливість, яку він має в межах будь-якої спроби з'явитися в результатах пошуку Google.

Сканування вебсайту розуміють як процес, у якому павуки чи краулери проходять різні сторінки вебсайту, збираючи всю доступну інформацію, аби зберегти, обробити й пізніше класифікувати її.

Варто виділити кілька базових термінів у визначенні, яке ми щойно навели:

Подорож: уявіть саме павука. Ця приязна комаха має пройти якомога більше сторінок, аби витягти якомога більше інформації. Аби перейти з однієї сторінки на іншу, він робить це через внутрішні посилання, що їх з'єднують. Звідси важливість мати коректне внутрішнє лінкування, яке дасть змогу цим павукам «виявити» — якщо не все, то принаймні найрелевантніші для нас сторінки.
Доступність: інформація має бути доступною цим павукам. Тобто якщо ми якимось чином обмежуємо їхній доступ навмисно або помилково, ми завадимо павукам обробити весь контент і, відповідно, зрозуміти й зрештою класифікувати його.

Це блокування або обмеження вмісту сторінки може відбуватися кількома різними способами, які ми спробуємо пояснити далі в цьому пості.

Краулери

Ми говорили про павуків, також відомих як краулери або боти. Можемо визначити їх як програми, що аналізують документи нашого вебсайту, тобто вони як «бібліотекарі», що шукають, класифікують і впорядковують. Їхня головна функція — будувати бази даних. Існує кілька типів залежно від виду інформації, яку вони збирають. Згадаймо деякі з найпоширеніших.

Googlebot: павук, відповідальний за сканування нашого контенту та категоризацію в межах органічних результатів (SERP). Для SEO-фахівців — найважливіший.

У цьому типі можна виділити деякі підтипи:

Googlebot (smartphones): мобільна версія
Googlebot (desktop version): настільна версія
Googlebot Images: відповідає за сканування зображень
Googlebot News: для новин
Googlebot Video: тепер черга відео

Приклад бота, ідентифікованого в наших логах:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Вони не єдині — є й інші, як-от Adsbot, Adsense тощо. Згадавши вже релевантних для SEO-сектора, диференціювати їх від решти не є фокусом цієї статті, але додаткову інформацію можна знайти за офіційним посиланням Google.

Етапи процесу сканування й індексування Google

Тепер, коли ми знаємо, що таке crawling, хто відповідає за цю функцію, і обговорили процес, розгляньмо це конкретніше.

Перший етап: сканування й класифікація

Процес, у якому наші сторінки з'являються в результатах Google, проходить через перший етап сканування, як ми бачили, який виконують павуки (краулери), аби вони прочитали, інтерпретували, проіндексували й класифікували наш контент.

Саме це нове слово ми хочемо проаналізувати детально — класифікувати. Google має ідеально розуміти наш контент, просто і швидко, бо, як побачимо далі, Google витрачає конкретний час на наш вебсайт, і за цей час він має «зрозуміти» наш контент і пов'язати його з різними пошуковими намірами користувачів.

Тому в сучасному SEO так часто чути слово «Search Intent», оскільки Google ураховуватиме його в цій класифікації, і саме це визначатиме позицію, яку посідатимуть наші сторінки в рейтингах SERP.

Тому процес сканування має бути чистим, простим, швидким, без перешкод тощо, аби все було ясно і нас правильно класифікували.

Другий етап: індексування

Не можна забувати про етап індексування, що передує класифікації і теж відіграє фундаментальну роль, оскільки саме на цьому кроці Google додає наш контент до своєї бази даних, тобто індексує його.

Блокування роботів Google

Раніше ми згадували, що є способи, якими ми могли б обмежувати доступ цих павуків до нашого контенту. Для цього існує елемент життєво важливої ваги в SEO, відомий як robots.txt.

Файл robots.txt — це текстовий файл, який ми завантажуємо на наш сервер і в якому даємо точні інструкції різним павукам, аби дозволити чи заблокувати їм сканування URL-адрес нашого сайту. Це блокування можна застосовувати:

до всього домену
до конкретного шляху
до конкретної URL-адреси
або до набору URL-адрес, що відповідають певному шаблону.

Розгляньмо приклад конфігурації цього файлу:

User-agent: *

Disallow: /wp-admin/

Allow: wp-admin/admin-ajax.php

Sitemap: /sitemap.xml

Як бачимо, він має перший рядок, де ми вказуємо user-agent (назву краулера, якого хочемо заблокувати чи дозволити, з тих, що бачили раніше), за яким ідуть інструкції «disallow», аби заборонити вхід, або «allow», аби дозволити.

У конкретному випадку, який ми бачимо, вказуючи *, ми кажемо «всі краулери», без винятку. Ми забороняємо їм входити в шлях /wp-admin/, але в межах цього шляху хочемо дозволити їм входити в /admin-ajax.php.

Некоректна конфігурація цього файлу може спричинити блокування важливих частин нашого контенту. Поширеною помилкою є мати весь вебсайт заблокованим під час розробки, а потім забути зняти це блокування після виводу в продакшен, роблячи його недоступним для Google.

Інша проблема, з якою павуки Google можуть стикнутися під час сканування нашого контенту, — неможливість пройти за внутрішніми посиланнями, які ми маємо на нашому вебсайті, і, відповідно, не дістатися решти URL-адрес. Це відбувається, коли ми використовуємо javascript-елементи замість «href» у цих посиланнях. Ця практика дуже поширена, оскільки використання JS має багато переваг на рівні користувача, але якщо використовувати неправильно й додати до внутрішніх посилань, Google може не пройти за ними.

У світі SEO це відомо як «link obfuscation». На сьогодні відкрита дискусія, чи здатний Google коректно сканувати й рендерити сторінки, зроблені на JS.

Коди відповіді сервера

Аби продовжити добре розуміти цей процес, не можна оминути поняття, з яким SEO-фахівці працюють щодня, — коди відповіді сервера.

Раніше ми бачили цикл, у якому Google нас знаходить, але як це відбувається? Користувач виконує пошук (запит) у Google. Пошукова система йде у свою базу даних і показує найрелевантніші результати (SERP), згідно з виконаною класифікацією, для цього пошуку.

Побачивши різні результати (показ), користувач клікає на один з них — той, який, на його думку, найкраще відповідає його потребам. Тут вступає в гру запит Google до сервера, де хоститься вебсайт, аби він «обслужив» контент.

Коли це відбувається, відповідь сервера видається через відповідний код. Назвімо найрелевантніші, які ми, як SEO-фахівці, маємо враховувати:

200: цей код відповіді каже Google, що сторінка існує, що вона має контент і що немає проблем її показати. Найбажаніший для SEO-фахівців, поки контент тієї сторінки з кодом 200 оптимальний.
30x: сімейство кодів стану 30x відповідає перенаправленням. Найпомітніші — 301 (постійне), 302 і 307 (тимчасові). По суті, вони кажуть Google «гей, ця URL A, яку ти запросив, більше не ця, це інша URL B». Є й інші, але вони не у фокусі поняття, яке ми розглядаємо. Важливо знати, що, як SEO-фахівці, надаємо перевагу 301, які передають весь авторитет.

Рекомендоване читання: Урок про перенаправлення 301

40X: коди помилок. Найменш бажані для SEO-фахівців. Найпоширеніший — знаменита 404. Коли з'являється цей код, ми у відповідь на запит Google про URL кажемо, що її більше не існує і це, відповідно, помилка.
410: ми хотіли виділити її із сімейства 40x за її SEO-цінність. Коли ми використовуємо цей код у відповідь на запит сервера Google про URL, ми кажемо, що її «вже немає назавжди». Це цікаво, бо, на відміну від 404, Google розуміє, що її вже ніколи не буде, і припинить намагатися її сканувати, тоді як з 404 він скануватиме її знову, думаючи, що ми, можливо, захочемо її виправити.
50x: цей тип відповіді пов'язаний з помилками сервера. Коли наша машина з якоїсь причини відмовляє і Google намагається запросити в нас вміст якоїсь URL, якщо сервер відмовляє, він повертає код стану 505.

Crawl Budget

На цьому етапі посту ще треба розглянути термін, що став популярним кілька років тому в світі SEO, відомий як crawl budget.

Crawl budget посилається на час, який павуки Google витрачають на сканування вебсайту й усіх його URL-адрес. Це, як ми сказали раніше, обмежений час. Звідси й важливість мати наш вебсайт оптимізованим, аби полегшити йому за цей час побачити найрелевантніші сторінки нашого сайту.

Цей час, який краулери витрачають, проходячи нашим вебсайтом, не є фіксованим значенням, він зростатиме або зменшуватиметься залежно від таких аспектів, як частота, з якою ми оновлюємо контент, авторитет нашого домену (популярність) тощо.

Чим вища якість нашого вебсайту, чим більший авторитет і чим більше свіжого контенту, тим релевантнішим Google нас уважатиме і виділятиме більше бюджету на наше сканування.

З програмами для сканування на кшталт Screaming Frog ми виконуємо ідеально симульовані сканування нашого вебсайту, тобто ніби павуки мають увесь час світу, аби пройти кожну з наших URL-адрес.

Але це не так, коли йдеться про Googlebot — швидше, щоразу, коли Google відвідує наш вебсайт, він відвідає одні URL частіше, ніж інші. Насправді можуть бути такі, які він взагалі не відвідає. Ми проаналізуємо це з тим, що відомо як серверні логи (записи того, які URL-адреси Google сканував, як часто це робив і скільки разів за певний період).

До цього моменту — увесь аналіз щодо розуміння того, що таке crawling, та різних елементів, що формують частину системи сканування Google.

Будь-які запитання чи пропозиції? Як завжди... з радістю вас послухаємо!

Автор: David Kaufmann

Останні 10+ років я повністю занурений у SEO — і чесно кажучи, не хотів би інакше.

Моя кар'єра вийшла на новий рівень, коли я працював старшим SEO-спеціалістом у Chess.com — одному зі 100 найвідвідуваніших сайтів у всьому інтернеті. Робота в такому масштабі навчила мене того, чого не дав би жоден курс чи сертифікат.

З цього досвіду я заснував SEO Alive — агенцію для брендів, які серйозно ставляться до органічного зростання. І оскільки не знайшов інструмента, що добре справляється з обома світами — класичним і AI, побудував SEOcrawl. Якщо ви шукаєте досвідченого SEO-партнера, який любить цю справу — буду радий поговорити!

→ Читайте всі статті від David

Більше статей: David Kaufmann

Дізнайтесь більше контенту цього автора

Як користуватися Google Search Console: повний посібник з опанування SEO у 2026 році

Дізнайтеся, як використовувати Google Search Console, щоб посилити SEO: налаштування, аналіз ключових слів, покриття індексу та експорт даних — крок за кроком.

David4 трав. 2026 р.Уроки SEO

SEO-терміни | Глосарій з +75 визначень

CRO, SERP, backlink… досі не знаєте, що означають ці SEO-терміни? Знайдіть ці і набагато більше у цьому повністю оновленому глосарії SEO-визначень.

David26 квіт. 2026 р.Уроки SEO