robots.txt: повний посібник з налаштування

robots.txt: повний посібник з налаштування
David Kaufmann
Уроки SEO
6 min read

Втомилися чути про robots.txt і не знати, про що говорять люди? Не хвилюйтеся, сьогодні ми принесемо вам розв'язання вашої проблеми. У цьому пості ми зробимо все можливе, аби пояснити, що таке robots.txt, як його налаштовувати (особливо у WordPress) і який вплив він може мати на SEO нашого проєкту.

Гайда!

Що таке robots.txt і для чого він?

Robots.txt — це просто файл, розміщений у корені вашого сайту, що дозволяє вам завадити певним ботам (як-от Google чи Bing) відвідувати ваш сайт або його частини.

УВАГА: важливо знати, що це протокол і загалом усі «хороші» боти його дотримуються (GoogleBot, BingBot, Semrush, ...), але будь-який бот зі злими намірами може його пропустити, як-от Screaming Frog, поставивши галочку на цій опції:

ігнорувати robots.txt у screaming frog
ігнорувати robots.txt у screaming frog

Чому файл robots.txt важливий для SEO?

Як ми згадували раніше, усі хороші боти (як-от GoogleBot) дотримуються цього протоколу, тож ми можемо використовувати цей файл, аби скеровувати Google по нашому сайту.

Що? Як це? Скеровувати Google за допомогою robots.txt?

Так, не хвилюйтеся, ми пояснимо це на прикладі, аби стало набагато зрозуміліше:

Уявіть, що на вашому сайті у вас є приватна зона, до якої можуть отримати доступ лише зареєстровані користувачі, і як ми добре знаємо, Google не може отримати доступ до жодного сайту, що вимагає логіну (поки що...).

То чи не мало б сенс не дозволяти Google марнувати наш crawl budget, скануючи сторінки, що не мають для нього цінності?

Точно! Одне з найважливіших застосувань robots.txt — це блокування шляхів, що мають малу цінність для Google, і таким чином змусити його сфокусуватися на важливих сторінках нашого сайту. З цієї причини robots.txt має бути одним з наріжних каменів у нашій SEO-стратегії.

Це лише один приклад з тисяч речей, які ми можемо зробити з цим файлом. Інші приклади включають вказівку нашої sitemap, зменшення інтервалу сканування, блокування сканування ресурсів, ...

Як створити файл robots.txt

Що ж... до роботи!

Створення цього файлу справді просте, вам просто треба взяти свій текстовий редактор (Блокнот у Windows чи TextEdit на Mac) або скористатися онлайн-редактором, і після написання вашого robots.txt експортувати його як txt-файл.

Маючи його, нам просто треба назвати його «robots.txt» і завантажити в корінь вашого сайту через панель сервера або через FTP.

Аби перевірити, чи його завантажено правильно, вам просто треба додати «/robots.txt» до вашого домену, наприклад https://seocrawl.com/robots.txt

УВАГА: Будьте обережні з кешем, краще переглядати в режимі інкогніто ;)

А якщо у мене WordPress?

Якщо у вас WordPress, це простіше, оскільки найкращі SEO-плагіни, як-от Rank Math чи Yoast, постачаються з вбудованим доповненням для прямого редагування robots.txt.

У випадку Rank Math ви знайдете його в Rank Math > General Settings > Edit robots.txt

Robots TXT у Wordpress
Robots TXT у Wordpress

У випадку Yoast треба перейти до SEO > Tools > File Editor

Так ви легко зможете редагувати чи створювати файл, не виконуючи жодного з кроків, пояснених вище.

Команди

Нижче розглянемо чимало команд, що знаходяться у нашому розпорядженні, разом з їхніми відповідними прикладами:

Блокувати сканування вашого сайту

User-agent: * Disallow: /

ПРИМІТКА: Якщо ви розробляєте свій сайт і не хочете, аби жоден бот заходив, читав і індексував ваш вміст, це правило чудово працює.

Блокувати сканування сторінки

User-agent: * Disallow: /url-of-page-i-dont-want-crawled

Блокувати сканування папки

User-agent: * Disallow: /folder/

Дозволити доступ до сторінки

User-agent: * Allow: /page

Блокувати папку і дозволити сторінку у цій папці

User-agent: * Disallow: /folder/ Allow: /folder/page

Вказати sitemap

Sitemap: https://domain.com/sitemap.xml

Давати накази конкретним ботам

У цьому випадку зупинимося трохи довше. Якщо ви помітили, більшість попередніх директив починалися з:

User-agent: *

Ця «*» означає усі боти. Тобто всі директиви після цього рядка застосовуються до всіх ботів. Якщо ми хочемо надсилати специфічні накази певним ботам, нам треба змінити це наступним чином:

User-agent: Googlebot Якщо ми хочемо посилатися на бота Google

User-agent: Bingbot Якщо ми хочемо посилатися на бота Bing

User-agent: DuckDuckBot Якщо ми хочемо посилатися на бота DuckDuckGo

Усе, що вам треба зробити, — це з'ясувати, як називається бот, якому ви хочете надіслати наказ, і назвати його так, як ми щойно показали.

Перегляд і тестування файлу robots.txt

Тепер, коли ви закінчили «налаштовувати» свій robots, аби залишити його повністю оптимізованим і кастомізованим для вашого сайту, єдине, що залишається, — це його протестувати.

Протестувати? Для чого?

Що ж, протестуйте, аби переконатися, що ми ніде не наплутали і що він дійсно працює, аби блокувати ті частини сайту, які ми хочемо блокувати.

Для цього рекомендуємо скористатися цим інструментом.

Інструмент перевірки robots txt 1.jpg
Інструмент перевірки robots txt 1.jpg

Опинившись усередині, вам просто треба:

  • Ввести URL, який ви хочете перевірити, чи дозволено сканування

  • Обрати User Agent

  • Клацнути TEST

Відразу після цього завантажиться весь наш файл robots.txt, а нижче нам скажуть, чи дозволено доступ.

Результат тесту robots txt.jpg
Результат тесту robots txt.jpg

У цьому випадку, як ми бачимо, він дає нам позитивний результат, але якщо ввести URL, що не дозволений, він також виділить рядок, який його блокує:

Приклад URL заблокованого robots txt.jpg
Приклад URL заблокованого robots txt.jpg

До того ж цей інструмент дозволяє нам редагувати наш файл robots.txt безпосередньо звідти, аби вносити будь-які потрібні модифікації, щоб результат відповідав нашій меті. Після модифікації та тестування нам просто треба застосувати ці нові модифікації до нашого robots.

Бонусна порада: зробіть свій robots.txt незабутнім

Ми показали вам безліч рядків коду, що працюють для ботів, але ви також можете вставляти коментарі, починаючи рядок з «#». Тобто будь-що, що починається з «#», ігноруватиметься ботами. Це відкриває світ можливостей і внутрішніх жартів. З цієї причини закликаємо вас переглянути robots.txt windupschool, pccomponentes чи Minube — впевнено зустрінете сюрприз ?

Minube Robots TXT
Minube Robots TXT

Висновок

Як ви бачили, файл robots.txt має багато чого запропонувати і також вимагає чималої уваги, бо погано розміщена директива може заблокувати сканування вашого сайту.

Сподіваємось, цей посібник буде вам корисним, і з будь-якими питаннями зустрінемось у коментарях.

Автор: David Kaufmann

David Kaufmann

Останні 10+ років я повністю занурений у SEO — і чесно кажучи, не хотів би інакше.

Моя кар'єра вийшла на новий рівень, коли я працював старшим SEO-спеціалістом у Chess.com — одному зі 100 найвідвідуваніших сайтів у всьому інтернеті. Робота в такому масштабі навчила мене того, чого не дав би жоден курс чи сертифікат.

З цього досвіду я заснував SEO Alive — агенцію для брендів, які серйозно ставляться до органічного зростання. І оскільки не знайшов інструмента, що добре справляється з обома світами — класичним і AI, побудував SEOcrawl. Якщо ви шукаєте досвідченого SEO-партнера, який любить цю справу — буду радий поговорити!

→ Читайте всі статті від David
Більше статей: David Kaufmann

Дізнайтесь більше контенту цього автора