Пошукові роботи допомагають сайту потрапити в результати пошукової видачі та отримати трафік. Однак бувають ситуації, в яких потрібно приховати частину веб-ресурсу від пошукових систем, щоб не потрапити під їхні фільтри або не розкрити конфіденційну інформацію всьому інтернету. Забезпечити це допомагає файл robots.txt. Він вказує пошуковим роботам, які сторінки можна індексувати, а які потрібно оминути. Давайте розглянемо більш детально, що таке robots.txt, у чому його призначення, як захистити потрібні сторінки від пошуковиків. 

Що таке файл robots.txt

Файл robots.txt – це текстовий файл, що використовується для управління діями пошукових роботів на сайті. Він розміщується в кореневому каталозі вебсайту і дає можливість контролювати, які сторінки або розділи сайту можуть або не можуть бути проіндексовані пошуковими системами. 

Фактично в robots.txt прописують інструкції для пошукових роботів – які сторінки їм не можна зачіпати, а які можна. Для чого це робити? Ми всі хочемо бачити у пошуковій видачі унікальні сторінки, наповнені корисним контентом. Але сайт складається на тільки з них, є ще службові файли, дублі сторінок, папки з інформацією про користувачів, які не повинні опинитися у відкритому доступі. Robots.txt, як консьєрж, котрий вказує пошуковим роботам, куди їм можна, а куди ні. 

Що таке файл robots.txt

Правильно складений файл robots.txt дозволяє потрапити у пошукову видачу тільки сторінкам, що містять релевантний запитам користувачів контент, а сайт не потрапляє під санкції.

Головні функції файлу robots.txt 

До головних завдань, які виконує файл robots.txt відносять:

  • Визначення правил для пошукових агентів. Він містить директиви, які кажуть роботу, до яких сторінок дозволено або заборонено звернення.
  • Оптимізація індексації. Дає можливість заховати від індексації не важливий контект, дублі сторінок та інші матеріали, що можуть погіршити репутацію сайту. Одночасно можна вказати адресу карти сайту, що допомагає пошуковим системам знаходити та індексувати всі важливі сторінки.

Зверніть увагу. Навіть якщо сторінку вказали в robots.txt як таку, що не потрібно індексувати, є ризик, що вона потрапить до пошукової видачі. Це може трапитися, якщо неї було знайдено посилання всередині сайту або десь на зовнішньому ресурсі.

robots.txt – ілюстративне зображення

Як створити файл robots.txt

Кожен вебмайстер знає, як захистити важливі сторінки від пошукових систем за допомогою файла robots.txt. Ми коротко поділимося головними секретами створення файлу. Роблять це за допомогою блокнота, Notepad, Sublime, або будь-якого іншого текстового редактора.

У самому файлі robots.txt важливо прописати інструкцію User-agent і правило Disallow, до того ж є ще кілька другорядних правил:

  • User-agent – правило про те, яким роботам необхідно переглянути інструкції, описані у файлі robots.txt. Можна вказати всі системи або лише деякі. 
  • Disallow – рекомендації, яку саме інформацію не потрібно сканувати. 
  • Allow – дозвіл на сканування вказаних сторінок. 
  • Sitemap – повідомляє роботам, що всі URL сайту, обов’язкові для індексації, знаходяться за адресою https://site.ua/sitemap.xml. Під час кожного обходу робот буде дивитися, які зміни вносилися в цей файл, і швидко освіжати інформацію про сайт у базах даних пошукової системи.
  • Crawl-delay – параметр, за допомогою якого можна задати період, через який будуть завантажуватися сторінки сайту. Це правило актуальне, якщо у вас слабкий сервер. У такому разі можливі великі затримки під час звернення пошукових роботів до сторінок сайту. 
  • Clean-param допомагає уникати дублювання контенту, який може бути доступний за різними динамічними адресами.Такі адреси з’являються, якщо на сайті є різні сортування, id сесії тощо.
Приклад файлу robots.txt

Зверніть увагу. Google більше не підтримує директиву Crawl-delay. Вона актуальна для інших пошукових систем, наприклад, Bing.

Читайте також: Пластина, прокладки, корпус: чому дві клавіатури з однаковими свічами звучать по-різному

Перш ніж заповнювати файл robots.txt, потрібно розібратися які символи можна використовувати та як це правильно робити. Основні символи файлу – «/, *, $, #». За допомогою слеша «/» ми показуємо, що хочемо закрити від виявлення роботами чи нвпаки відкрити. Наприклад, якщо стоїть у правилі Disallow:

  • Cтоїть один слеш «/» ми забороняємо сканувати весь сайт;
  • Два знаки слеш можна забороняють сканування окремої директорії, наприклад, /catalog/; 
  • Один знак слеш разом з вказаною назвою, наприклад, так /catalog забороняє сканувати всі посилання які починаються /catalog.

Зірочка «*» означає будь-яку послідовність символів у файлі. Наприклад, якщо ми хочемо сказати, що правило стосується всіх роботів, пишемо User-agent *. Знак долара «$» обмежує дії знака зірочки, перериває послідовність символів. Решітка «#» використовується для коментарів. Їх може залишити вебмайтер для себе, що не забути якихось дрібниць, чи дл інших майстрів. Робот не враховує їх під час сканування сайту.

Помилки при заповненні файлу robots.txt

Недосвідчені вебмайстри часто припускаються помилок. Найчастіші з них:

  • Переплутані інструкції, коли в інструкції Disallow вказують назви ботів тощо;
  • Запис відразу кількох папок чи файлів в одній інструкції Disallow. Якщо це різні папки, не поєднані ніякими параметрами, порідні різні правила; 
  • Неправильна назва файлу, наприклад ROBOTS.TXT або якось інакше, вона має бути тільки robots.txt;
  • Порожнє правило User-agent;
  • Зайві або неправильно розставлені знаки – слеш, зірочка тощо. 

Як створити файл robots.txt – відео

Щоб розібратися як створити самостійно файл robots.txt та побачити все на власні очі, перегляньте відео:

Висновки

Файл robots.txt допомагає керувати діяльністю пошукових роботів на вашому сайті, вказувати, які сторінки потрібно індексувати, а які пропустити. Це допомагає покращити положення сайту в пошуковій видачі та приховати інформацію, що не має бути у відкритому доступі в інтернеті. Правильно складений файл robots.txt допомагає захистити інформацію від витоку у всесвітню мережу.

Відповіді на часті запитання про Robots.txt

Чи можна заборонити Google індексувати сторінки через robots.txt?

Так, можна за допомогою директиви Disallow для конкретних сторінок або директорій.

Чи обов’язково створювати файл robots.txt?

Ні, не обов’язково, але він допомагає контролювати індексацію сайту та знижує навантаження на сервер від ботів.

Чи можна заборонити доступ до сайту для всіх ботів?

Так, для цього можна використовувати директиву User-agent: * та Disallow: / у файлі robots.txt.

Теги:
Повідомити про помилку
Знайшли помилку? Виділіть її в тексті та надішліть нам на info@gosta.ua
ПІДТРИМАТИ ПРОЄКТ
g Бажаєте збільшити онлайн присутність вашого бренду?

Отримайте
понад 5+ публікацій
на різних платформах
щомісяця

Замовити
Останні новини
Сьогодні
Попередні
Свіжі статті