Етапи й елементи процесу crawling

Етапи й елементи процесу crawling
David Kaufmann
Уроки SEO
8 min read

Crawling, павуки, боти — це терміни, з якими SEO-фахівці працюють щодня, і вони мають фундаментальну вагу в будь-якій стратегії ранжування, бо якщо ця фаза провалиться, провалиться й решта.

Розгляньмо детально, у чому полягає процес сканування вебсайту.

Що означає сканувати вебсайт?

Перш ніж рухатися далі, визначмо процес сканування вебсайту, показавши важливість, яку він має в межах будь-якої спроби з'явитися в результатах пошуку Google.

Сканування вебсайту розуміють як процес, у якому павуки чи краулери проходять різні сторінки вебсайту, збираючи всю доступну інформацію, аби зберегти, обробити й пізніше класифікувати її.

Варто виділити кілька базових термінів у визначенні, яке ми щойно навели:

  • Подорож: уявіть саме павука. Ця приязна комаха має пройти якомога більше сторінок, аби витягти якомога більше інформації. Аби перейти з однієї сторінки на іншу, він робить це через внутрішні посилання, що їх з'єднують. Звідси важливість мати коректне внутрішнє лінкування, яке дасть змогу цим павукам «виявити» — якщо не все, то принаймні найрелевантніші для нас сторінки.

  • Доступність: інформація має бути доступною цим павукам. Тобто якщо ми якимось чином обмежуємо їхній доступ навмисно або помилково, ми завадимо павукам обробити весь контент і, відповідно, зрозуміти й зрештою класифікувати його.

Це блокування або обмеження вмісту сторінки може відбуватися кількома різними способами, які ми спробуємо пояснити далі в цьому пості.

Краулери

Ми говорили про павуків, також відомих як краулери або боти. Можемо визначити їх як програми, що аналізують документи нашого вебсайту, тобто вони як «бібліотекарі», що шукають, класифікують і впорядковують. Їхня головна функція — будувати бази даних. Існує кілька типів залежно від виду інформації, яку вони збирають. Згадаймо деякі з найпоширеніших.

Googlebot: павук, відповідальний за сканування нашого контенту та категоризацію в межах органічних результатів (SERP). Для SEO-фахівців — найважливіший.

У цьому типі можна виділити деякі підтипи:

  • Googlebot (smartphones): мобільна версія

  • Googlebot (desktop version): настільна версія

  • Googlebot Images: відповідає за сканування зображень

  • Googlebot News: для новин

  • Googlebot Video: тепер черга відео

Приклад бота, ідентифікованого в наших логах:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Вони не єдині — є й інші, як-от Adsbot, Adsense тощо. Згадавши вже релевантних для SEO-сектора, диференціювати їх від решти не є фокусом цієї статті, але додаткову інформацію можна знайти за офіційним посиланням Google.

Етапи процесу сканування й індексування Google

Тепер, коли ми знаємо, що таке crawling, хто відповідає за цю функцію, і обговорили процес, розгляньмо це конкретніше.

Перший етап: сканування й класифікація

Процес, у якому наші сторінки з'являються в результатах Google, проходить через перший етап сканування, як ми бачили, який виконують павуки (краулери), аби вони прочитали, інтерпретували, проіндексували й класифікували наш контент.

Саме це нове слово ми хочемо проаналізувати детально — класифікувати. Google має ідеально розуміти наш контент, просто і швидко, бо, як побачимо далі, Google витрачає конкретний час на наш вебсайт, і за цей час він має «зрозуміти» наш контент і пов'язати його з різними пошуковими намірами користувачів.

Тому в сучасному SEO так часто чути слово «Search Intent», оскільки Google ураховуватиме його в цій класифікації, і саме це визначатиме позицію, яку посідатимуть наші сторінки в рейтингах SERP.

Тому процес сканування має бути чистим, простим, швидким, без перешкод тощо, аби все було ясно і нас правильно класифікували.

Другий етап: індексування

Не можна забувати про етап індексування, що передує класифікації і теж відіграє фундаментальну роль, оскільки саме на цьому кроці Google додає наш контент до своєї бази даних, тобто індексує його.

crawling web
crawling web

Блокування роботів Google

Раніше ми згадували, що є способи, якими ми могли б обмежувати доступ цих павуків до нашого контенту. Для цього існує елемент життєво важливої ваги в SEO, відомий як robots.txt.

Файл robots.txt — це текстовий файл, який ми завантажуємо на наш сервер і в якому даємо точні інструкції різним павукам, аби дозволити чи заблокувати їм сканування URL-адрес нашого сайту. Це блокування можна застосовувати:

  • до всього домену

  • до конкретного шляху

  • до конкретної URL-адреси

  • або до набору URL-адрес, що відповідають певному шаблону.

Розгляньмо приклад конфігурації цього файлу:

User-agent: *

Disallow: /wp-admin/

Allow: wp-admin/admin-ajax.php

Sitemap: /sitemap.xml

Як бачимо, він має перший рядок, де ми вказуємо user-agent (назву краулера, якого хочемо заблокувати чи дозволити, з тих, що бачили раніше), за яким ідуть інструкції «disallow», аби заборонити вхід, або «allow», аби дозволити.

У конкретному випадку, який ми бачимо, вказуючи *, ми кажемо «всі краулери», без винятку. Ми забороняємо їм входити в шлях /wp-admin/, але в межах цього шляху хочемо дозволити їм входити в /admin-ajax.php.

Некоректна конфігурація цього файлу може спричинити блокування важливих частин нашого контенту. Поширеною помилкою є мати весь вебсайт заблокованим під час розробки, а потім забути зняти це блокування після виводу в продакшен, роблячи його недоступним для Google.

Інша проблема, з якою павуки Google можуть стикнутися під час сканування нашого контенту, — неможливість пройти за внутрішніми посиланнями, які ми маємо на нашому вебсайті, і, відповідно, не дістатися решти URL-адрес. Це відбувається, коли ми використовуємо javascript-елементи замість «href» у цих посиланнях. Ця практика дуже поширена, оскільки використання JS має багато переваг на рівні користувача, але якщо використовувати неправильно й додати до внутрішніх посилань, Google може не пройти за ними.

У світі SEO це відомо як «link obfuscation». На сьогодні відкрита дискусія, чи здатний Google коректно сканувати й рендерити сторінки, зроблені на JS.

Коди відповіді сервера

Аби продовжити добре розуміти цей процес, не можна оминути поняття, з яким SEO-фахівці працюють щодня, — коди відповіді сервера.

Раніше ми бачили цикл, у якому Google нас знаходить, але як це відбувається? Користувач виконує пошук (запит) у Google. Пошукова система йде у свою базу даних і показує найрелевантніші результати (SERP), згідно з виконаною класифікацією, для цього пошуку.

Побачивши різні результати (показ), користувач клікає на один з них — той, який, на його думку, найкраще відповідає його потребам. Тут вступає в гру запит Google до сервера, де хоститься вебсайт, аби він «обслужив» контент.

Коли це відбувається, відповідь сервера видається через відповідний код. Назвімо найрелевантніші, які ми, як SEO-фахівці, маємо враховувати:

  • 200: цей код відповіді каже Google, що сторінка існує, що вона має контент і що немає проблем її показати. Найбажаніший для SEO-фахівців, поки контент тієї сторінки з кодом 200 оптимальний.

  • 30x: сімейство кодів стану 30x відповідає перенаправленням. Найпомітніші — 301 (постійне), 302 і 307 (тимчасові). По суті, вони кажуть Google «гей, ця URL A, яку ти запросив, більше не ця, це інша URL B». Є й інші, але вони не у фокусі поняття, яке ми розглядаємо. Важливо знати, що, як SEO-фахівці, надаємо перевагу 301, які передають весь авторитет.

Рекомендоване читання: Урок про перенаправлення 301

  • 40X: коди помилок. Найменш бажані для SEO-фахівців. Найпоширеніший — знаменита 404. Коли з'являється цей код, ми у відповідь на запит Google про URL кажемо, що її більше не існує і це, відповідно, помилка.

  • 410: ми хотіли виділити її із сімейства 40x за її SEO-цінність. Коли ми використовуємо цей код у відповідь на запит сервера Google про URL, ми кажемо, що її «вже немає назавжди». Це цікаво, бо, на відміну від 404, Google розуміє, що її вже ніколи не буде, і припинить намагатися її сканувати, тоді як з 404 він скануватиме її знову, думаючи, що ми, можливо, захочемо її виправити.

  • 50x: цей тип відповіді пов'язаний з помилками сервера. Коли наша машина з якоїсь причини відмовляє і Google намагається запросити в нас вміст якоїсь URL, якщо сервер відмовляє, він повертає код стану 505.

Crawl Budget

На цьому етапі посту ще треба розглянути термін, що став популярним кілька років тому в світі SEO, відомий як crawl budget.

Crawl budget посилається на час, який павуки Google витрачають на сканування вебсайту й усіх його URL-адрес. Це, як ми сказали раніше, обмежений час. Звідси й важливість мати наш вебсайт оптимізованим, аби полегшити йому за цей час побачити найрелевантніші сторінки нашого сайту.

Цей час, який краулери витрачають, проходячи нашим вебсайтом, не є фіксованим значенням, він зростатиме або зменшуватиметься залежно від таких аспектів, як частота, з якою ми оновлюємо контент, авторитет нашого домену (популярність) тощо.

Чим вища якість нашого вебсайту, чим більший авторитет і чим більше свіжого контенту, тим релевантнішим Google нас уважатиме і виділятиме більше бюджету на наше сканування.

З програмами для сканування на кшталт Screaming Frog ми виконуємо ідеально симульовані сканування нашого вебсайту, тобто ніби павуки мають увесь час світу, аби пройти кожну з наших URL-адрес.

Але це не так, коли йдеться про Googlebot — швидше, щоразу, коли Google відвідує наш вебсайт, він відвідає одні URL частіше, ніж інші. Насправді можуть бути такі, які він взагалі не відвідає. Ми проаналізуємо це з тим, що відомо як серверні логи (записи того, які URL-адреси Google сканував, як часто це робив і скільки разів за певний період).

До цього моменту — увесь аналіз щодо розуміння того, що таке crawling, та різних елементів, що формують частину системи сканування Google.

Будь-які запитання чи пропозиції? Як завжди... з радістю вас послухаємо!

Автор: David Kaufmann

David Kaufmann

Останні 10+ років я повністю занурений у SEO — і чесно кажучи, не хотів би інакше.

Моя кар'єра вийшла на новий рівень, коли я працював старшим SEO-спеціалістом у Chess.com — одному зі 100 найвідвідуваніших сайтів у всьому інтернеті. Робота в такому масштабі навчила мене того, чого не дав би жоден курс чи сертифікат.

З цього досвіду я заснував SEO Alive — агенцію для брендів, які серйозно ставляться до органічного зростання. І оскільки не знайшов інструмента, що добре справляється з обома світами — класичним і AI, побудував SEOcrawl. Якщо ви шукаєте досвідченого SEO-партнера, який любить цю справу — буду радий поговорити!

→ Читайте всі статті від David
Більше статей: David Kaufmann

Дізнайтесь більше контенту цього автора