robots.txt: повний посібник з налаштування

Втомилися чути про robots.txt і не знати, про що говорять люди? Не хвилюйтеся, сьогодні ми принесемо вам розв'язання вашої проблеми. У цьому пості ми зробимо все можливе, аби пояснити, що таке robots.txt, як його налаштовувати (особливо у WordPress) і який вплив він може мати на SEO нашого проєкту.
Гайда!
Що таке robots.txt і для чого він?
Robots.txt — це просто файл, розміщений у корені вашого сайту, що дозволяє вам завадити певним ботам (як-от Google чи Bing) відвідувати ваш сайт або його частини.
УВАГА: важливо знати, що це протокол і загалом усі «хороші» боти його дотримуються (GoogleBot, BingBot, Semrush, ...), але будь-який бот зі злими намірами може його пропустити, як-от Screaming Frog, поставивши галочку на цій опції:

Чому файл robots.txt важливий для SEO?
Як ми згадували раніше, усі хороші боти (як-от GoogleBot) дотримуються цього протоколу, тож ми можемо використовувати цей файл, аби скеровувати Google по нашому сайту.
Що? Як це? Скеровувати Google за допомогою robots.txt?
Так, не хвилюйтеся, ми пояснимо це на прикладі, аби стало набагато зрозуміліше:
Уявіть, що на вашому сайті у вас є приватна зона, до якої можуть отримати доступ лише зареєстровані користувачі, і як ми добре знаємо, Google не може отримати доступ до жодного сайту, що вимагає логіну (поки що...).
То чи не мало б сенс не дозволяти Google марнувати наш crawl budget, скануючи сторінки, що не мають для нього цінності?
Точно! Одне з найважливіших застосувань robots.txt — це блокування шляхів, що мають малу цінність для Google, і таким чином змусити його сфокусуватися на важливих сторінках нашого сайту. З цієї причини robots.txt має бути одним з наріжних каменів у нашій SEO-стратегії.
Це лише один приклад з тисяч речей, які ми можемо зробити з цим файлом. Інші приклади включають вказівку нашої sitemap, зменшення інтервалу сканування, блокування сканування ресурсів, ...
Як створити файл robots.txt
Що ж... до роботи!
Створення цього файлу справді просте, вам просто треба взяти свій текстовий редактор (Блокнот у Windows чи TextEdit на Mac) або скористатися онлайн-редактором, і після написання вашого robots.txt експортувати його як txt-файл.
Маючи його, нам просто треба назвати його «robots.txt» і завантажити в корінь вашого сайту через панель сервера або через FTP.
Аби перевірити, чи його завантажено правильно, вам просто треба додати «/robots.txt» до вашого домену, наприклад https://seocrawl.com/robots.txt
УВАГА: Будьте обережні з кешем, краще переглядати в режимі інкогніто ;)
А якщо у мене WordPress?
Якщо у вас WordPress, це простіше, оскільки найкращі SEO-плагіни, як-от Rank Math чи Yoast, постачаються з вбудованим доповненням для прямого редагування robots.txt.
У випадку Rank Math ви знайдете його в Rank Math > General Settings > Edit robots.txt

У випадку Yoast треба перейти до SEO > Tools > File Editor
Так ви легко зможете редагувати чи створювати файл, не виконуючи жодного з кроків, пояснених вище.
Команди
Нижче розглянемо чимало команд, що знаходяться у нашому розпорядженні, разом з їхніми відповідними прикладами:
Блокувати сканування вашого сайту
User-agent: * Disallow: /
ПРИМІТКА: Якщо ви розробляєте свій сайт і не хочете, аби жоден бот заходив, читав і індексував ваш вміст, це правило чудово працює.
Блокувати сканування сторінки
User-agent: * Disallow: /url-of-page-i-dont-want-crawled
Блокувати сканування папки
User-agent: * Disallow: /folder/
Дозволити доступ до сторінки
User-agent: * Allow: /page
Блокувати папку і дозволити сторінку у цій папці
User-agent: * Disallow: /folder/ Allow: /folder/page
Вказати sitemap
Sitemap: https://domain.com/sitemap.xml
Давати накази конкретним ботам
У цьому випадку зупинимося трохи довше. Якщо ви помітили, більшість попередніх директив починалися з:
User-agent: *
Ця «*» означає усі боти. Тобто всі директиви після цього рядка застосовуються до всіх ботів. Якщо ми хочемо надсилати специфічні накази певним ботам, нам треба змінити це наступним чином:
User-agent: Googlebot Якщо ми хочемо посилатися на бота Google
User-agent: Bingbot Якщо ми хочемо посилатися на бота Bing
User-agent: DuckDuckBot Якщо ми хочемо посилатися на бота DuckDuckGo
Усе, що вам треба зробити, — це з'ясувати, як називається бот, якому ви хочете надіслати наказ, і назвати його так, як ми щойно показали.
Перегляд і тестування файлу robots.txt
Тепер, коли ви закінчили «налаштовувати» свій robots, аби залишити його повністю оптимізованим і кастомізованим для вашого сайту, єдине, що залишається, — це його протестувати.
Протестувати? Для чого?
Що ж, протестуйте, аби переконатися, що ми ніде не наплутали і що він дійсно працює, аби блокувати ті частини сайту, які ми хочемо блокувати.
Для цього рекомендуємо скористатися цим інструментом.

Опинившись усередині, вам просто треба:
-
Ввести URL, який ви хочете перевірити, чи дозволено сканування
-
Обрати User Agent
-
Клацнути TEST
Відразу після цього завантажиться весь наш файл robots.txt, а нижче нам скажуть, чи дозволено доступ.

У цьому випадку, як ми бачимо, він дає нам позитивний результат, але якщо ввести URL, що не дозволений, він також виділить рядок, який його блокує:

До того ж цей інструмент дозволяє нам редагувати наш файл robots.txt безпосередньо звідти, аби вносити будь-які потрібні модифікації, щоб результат відповідав нашій меті. Після модифікації та тестування нам просто треба застосувати ці нові модифікації до нашого robots.
Бонусна порада: зробіть свій robots.txt незабутнім
Ми показали вам безліч рядків коду, що працюють для ботів, але ви також можете вставляти коментарі, починаючи рядок з «#». Тобто будь-що, що починається з «#», ігноруватиметься ботами. Це відкриває світ можливостей і внутрішніх жартів. З цієї причини закликаємо вас переглянути robots.txt windupschool, pccomponentes чи Minube — впевнено зустрінете сюрприз ?

Висновок
Як ви бачили, файл robots.txt має багато чого запропонувати і також вимагає чималої уваги, бо погано розміщена директива може заблокувати сканування вашого сайту.
Сподіваємось, цей посібник буде вам корисним, і з будь-якими питаннями зустрінемось у коментарях.
Автор: David Kaufmann

Останні 10+ років я повністю занурений у SEO — і чесно кажучи, не хотів би інакше.
Моя кар'єра вийшла на новий рівень, коли я працював старшим SEO-спеціалістом у Chess.com — одному зі 100 найвідвідуваніших сайтів у всьому інтернеті. Робота в такому масштабі навчила мене того, чого не дав би жоден курс чи сертифікат.
З цього досвіду я заснував SEO Alive — агенцію для брендів, які серйозно ставляться до органічного зростання. І оскільки не знайшов інструмента, що добре справляється з обома світами — класичним і AI, побудував SEOcrawl. Якщо ви шукаєте досвідченого SEO-партнера, який любить цю справу — буду радий поговорити!
Дізнайтесь більше контенту цього автора

