Етапи й елементи процесу crawling

Crawling, павуки, боти — це терміни, з якими SEO-фахівці працюють щодня, і вони мають фундаментальну вагу в будь-якій стратегії ранжування, бо якщо ця фаза провалиться, провалиться й решта.
Розгляньмо детально, у чому полягає процес сканування вебсайту.
Що означає сканувати вебсайт?
Перш ніж рухатися далі, визначмо процес сканування вебсайту, показавши важливість, яку він має в межах будь-якої спроби з'явитися в результатах пошуку Google.
Сканування вебсайту розуміють як процес, у якому павуки чи краулери проходять різні сторінки вебсайту, збираючи всю доступну інформацію, аби зберегти, обробити й пізніше класифікувати її.
Варто виділити кілька базових термінів у визначенні, яке ми щойно навели:
-
Подорож: уявіть саме павука. Ця приязна комаха має пройти якомога більше сторінок, аби витягти якомога більше інформації. Аби перейти з однієї сторінки на іншу, він робить це через внутрішні посилання, що їх з'єднують. Звідси важливість мати коректне внутрішнє лінкування, яке дасть змогу цим павукам «виявити» — якщо не все, то принаймні найрелевантніші для нас сторінки.
-
Доступність: інформація має бути доступною цим павукам. Тобто якщо ми якимось чином обмежуємо їхній доступ навмисно або помилково, ми завадимо павукам обробити весь контент і, відповідно, зрозуміти й зрештою класифікувати його.
Це блокування або обмеження вмісту сторінки може відбуватися кількома різними способами, які ми спробуємо пояснити далі в цьому пості.
Краулери
Ми говорили про павуків, також відомих як краулери або боти. Можемо визначити їх як програми, що аналізують документи нашого вебсайту, тобто вони як «бібліотекарі», що шукають, класифікують і впорядковують. Їхня головна функція — будувати бази даних. Існує кілька типів залежно від виду інформації, яку вони збирають. Згадаймо деякі з найпоширеніших.
Googlebot: павук, відповідальний за сканування нашого контенту та категоризацію в межах органічних результатів (SERP). Для SEO-фахівців — найважливіший.
У цьому типі можна виділити деякі підтипи:
-
Googlebot (smartphones): мобільна версія
-
Googlebot (desktop version): настільна версія
-
Googlebot Images: відповідає за сканування зображень
-
Googlebot News: для новин
-
Googlebot Video: тепер черга відео
Приклад бота, ідентифікованого в наших логах:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Вони не єдині — є й інші, як-от Adsbot, Adsense тощо. Згадавши вже релевантних для SEO-сектора, диференціювати їх від решти не є фокусом цієї статті, але додаткову інформацію можна знайти за офіційним посиланням Google.
Етапи процесу сканування й індексування Google
Тепер, коли ми знаємо, що таке crawling, хто відповідає за цю функцію, і обговорили процес, розгляньмо це конкретніше.
Перший етап: сканування й класифікація
Процес, у якому наші сторінки з'являються в результатах Google, проходить через перший етап сканування, як ми бачили, який виконують павуки (краулери), аби вони прочитали, інтерпретували, проіндексували й класифікували наш контент.
Саме це нове слово ми хочемо проаналізувати детально — класифікувати. Google має ідеально розуміти наш контент, просто і швидко, бо, як побачимо далі, Google витрачає конкретний час на наш вебсайт, і за цей час він має «зрозуміти» наш контент і пов'язати його з різними пошуковими намірами користувачів.
Тому в сучасному SEO так часто чути слово «Search Intent», оскільки Google ураховуватиме його в цій класифікації, і саме це визначатиме позицію, яку посідатимуть наші сторінки в рейтингах SERP.
Тому процес сканування має бути чистим, простим, швидким, без перешкод тощо, аби все було ясно і нас правильно класифікували.
Другий етап: індексування
Не можна забувати про етап індексування, що передує класифікації і теж відіграє фундаментальну роль, оскільки саме на цьому кроці Google додає наш контент до своєї бази даних, тобто індексує його.

Блокування роботів Google
Раніше ми згадували, що є способи, якими ми могли б обмежувати доступ цих павуків до нашого контенту. Для цього існує елемент життєво важливої ваги в SEO, відомий як robots.txt.
Файл robots.txt — це текстовий файл, який ми завантажуємо на наш сервер і в якому даємо точні інструкції різним павукам, аби дозволити чи заблокувати їм сканування URL-адрес нашого сайту. Це блокування можна застосовувати:
-
до всього домену
-
до конкретного шляху
-
до конкретної URL-адреси
-
або до набору URL-адрес, що відповідають певному шаблону.
Розгляньмо приклад конфігурації цього файлу:
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
Як бачимо, він має перший рядок, де ми вказуємо user-agent (назву краулера, якого хочемо заблокувати чи дозволити, з тих, що бачили раніше), за яким ідуть інструкції «disallow», аби заборонити вхід, або «allow», аби дозволити.
У конкретному випадку, який ми бачимо, вказуючи *, ми кажемо «всі краулери», без винятку. Ми забороняємо їм входити в шлях /wp-admin/, але в межах цього шляху хочемо дозволити їм входити в /admin-ajax.php.
Некоректна конфігурація цього файлу може спричинити блокування важливих частин нашого контенту. Поширеною помилкою є мати весь вебсайт заблокованим під час розробки, а потім забути зняти це блокування після виводу в продакшен, роблячи його недоступним для Google.
Інша проблема, з якою павуки Google можуть стикнутися під час сканування нашого контенту, — неможливість пройти за внутрішніми посиланнями, які ми маємо на нашому вебсайті, і, відповідно, не дістатися решти URL-адрес. Це відбувається, коли ми використовуємо javascript-елементи замість «href» у цих посиланнях. Ця практика дуже поширена, оскільки використання JS має багато переваг на рівні користувача, але якщо використовувати неправильно й додати до внутрішніх посилань, Google може не пройти за ними.
У світі SEO це відомо як «link obfuscation». На сьогодні відкрита дискусія, чи здатний Google коректно сканувати й рендерити сторінки, зроблені на JS.
Коди відповіді сервера
Аби продовжити добре розуміти цей процес, не можна оминути поняття, з яким SEO-фахівці працюють щодня, — коди відповіді сервера.
Раніше ми бачили цикл, у якому Google нас знаходить, але як це відбувається? Користувач виконує пошук (запит) у Google. Пошукова система йде у свою базу даних і показує найрелевантніші результати (SERP), згідно з виконаною класифікацією, для цього пошуку.
Побачивши різні результати (показ), користувач клікає на один з них — той, який, на його думку, найкраще відповідає його потребам. Тут вступає в гру запит Google до сервера, де хоститься вебсайт, аби він «обслужив» контент.
Коли це відбувається, відповідь сервера видається через відповідний код. Назвімо найрелевантніші, які ми, як SEO-фахівці, маємо враховувати:
-
200: цей код відповіді каже Google, що сторінка існує, що вона має контент і що немає проблем її показати. Найбажаніший для SEO-фахівців, поки контент тієї сторінки з кодом 200 оптимальний.
-
30x: сімейство кодів стану 30x відповідає перенаправленням. Найпомітніші — 301 (постійне), 302 і 307 (тимчасові). По суті, вони кажуть Google «гей, ця URL A, яку ти запросив, більше не ця, це інша URL B». Є й інші, але вони не у фокусі поняття, яке ми розглядаємо. Важливо знати, що, як SEO-фахівці, надаємо перевагу 301, які передають весь авторитет.
Рекомендоване читання: Урок про перенаправлення 301
-
40X: коди помилок. Найменш бажані для SEO-фахівців. Найпоширеніший — знаменита 404. Коли з'являється цей код, ми у відповідь на запит Google про URL кажемо, що її більше не існує і це, відповідно, помилка.
-
410: ми хотіли виділити її із сімейства 40x за її SEO-цінність. Коли ми використовуємо цей код у відповідь на запит сервера Google про URL, ми кажемо, що її «вже немає назавжди». Це цікаво, бо, на відміну від 404, Google розуміє, що її вже ніколи не буде, і припинить намагатися її сканувати, тоді як з 404 він скануватиме її знову, думаючи, що ми, можливо, захочемо її виправити.
-
50x: цей тип відповіді пов'язаний з помилками сервера. Коли наша машина з якоїсь причини відмовляє і Google намагається запросити в нас вміст якоїсь URL, якщо сервер відмовляє, він повертає код стану 505.
Crawl Budget
На цьому етапі посту ще треба розглянути термін, що став популярним кілька років тому в світі SEO, відомий як crawl budget.
Crawl budget посилається на час, який павуки Google витрачають на сканування вебсайту й усіх його URL-адрес. Це, як ми сказали раніше, обмежений час. Звідси й важливість мати наш вебсайт оптимізованим, аби полегшити йому за цей час побачити найрелевантніші сторінки нашого сайту.
Цей час, який краулери витрачають, проходячи нашим вебсайтом, не є фіксованим значенням, він зростатиме або зменшуватиметься залежно від таких аспектів, як частота, з якою ми оновлюємо контент, авторитет нашого домену (популярність) тощо.
Чим вища якість нашого вебсайту, чим більший авторитет і чим більше свіжого контенту, тим релевантнішим Google нас уважатиме і виділятиме більше бюджету на наше сканування.
З програмами для сканування на кшталт Screaming Frog ми виконуємо ідеально симульовані сканування нашого вебсайту, тобто ніби павуки мають увесь час світу, аби пройти кожну з наших URL-адрес.
Але це не так, коли йдеться про Googlebot — швидше, щоразу, коли Google відвідує наш вебсайт, він відвідає одні URL частіше, ніж інші. Насправді можуть бути такі, які він взагалі не відвідає. Ми проаналізуємо це з тим, що відомо як серверні логи (записи того, які URL-адреси Google сканував, як часто це робив і скільки разів за певний період).
До цього моменту — увесь аналіз щодо розуміння того, що таке crawling, та різних елементів, що формують частину системи сканування Google.
Будь-які запитання чи пропозиції? Як завжди... з радістю вас послухаємо!
Автор: David Kaufmann

Останні 10+ років я повністю занурений у SEO — і чесно кажучи, не хотів би інакше.
Моя кар'єра вийшла на новий рівень, коли я працював старшим SEO-спеціалістом у Chess.com — одному зі 100 найвідвідуваніших сайтів у всьому інтернеті. Робота в такому масштабі навчила мене того, чого не дав би жоден курс чи сертифікат.
З цього досвіду я заснував SEO Alive — агенцію для брендів, які серйозно ставляться до органічного зростання. І оскільки не знайшов інструмента, що добре справляється з обома світами — класичним і AI, побудував SEOcrawl. Якщо ви шукаєте досвідченого SEO-партнера, який любить цю справу — буду радий поговорити!
Дізнайтесь більше контенту цього автора

