Пошукові роботи допомагають сайту потрапити в результати пошукової видачі та отримати трафік. Однак бувають ситуації, в яких потрібно приховати частину веб-ресурсу від пошукових систем, щоб не потрапити під їхні фільтри або не розкрити конфіденційну інформацію всьому інтернету. Забезпечити це допомагає файл robots.txt. Він вказує пошуковим роботам, які сторінки можна індексувати, а які потрібно оминути. Давайте розглянемо більш детально, що таке robots.txt, у чому його призначення, як захистити потрібні сторінки від пошуковиків.
Що таке файл robots.txt
Файл robots.txt – це текстовий файл, що використовується для управління діями пошукових роботів на сайті. Він розміщується в кореневому каталозі вебсайту і дає можливість контролювати, які сторінки або розділи сайту можуть або не можуть бути проіндексовані пошуковими системами.
Фактично в robots.txt прописують інструкції для пошукових роботів – які сторінки їм не можна зачіпати, а які можна. Для чого це робити? Ми всі хочемо бачити у пошуковій видачі унікальні сторінки, наповнені корисним контентом. Але сайт складається на тільки з них, є ще службові файли, дублі сторінок, папки з інформацією про користувачів, які не повинні опинитися у відкритому доступі. Robots.txt, як консьєрж, котрий вказує пошуковим роботам, куди їм можна, а куди ні.
Правильно складений файл robots.txt дозволяє потрапити у пошукову видачу тільки сторінкам, що містять релевантний запитам користувачів контент, а сайт не потрапляє під санкції.
Головні функції файлу robots.txt
До головних завдань, які виконує файл robots.txt відносять:
Визначення правил для пошукових агентів. Він містить директиви, які кажуть роботу, до яких сторінок дозволено або заборонено звернення.
Оптимізація індексації. Дає можливість заховати від індексації не важливий контект, дублі сторінок та інші матеріали, що можуть погіршити репутацію сайту. Одночасно можна вказати адресу карти сайту, що допомагає пошуковим системам знаходити та індексувати всі важливі сторінки.
Зверніть увагу. Навіть якщо сторінку вказали в robots.txt як таку, що не потрібно індексувати, є ризик, що вона потрапить до пошукової видачі. Це може трапитися, якщо неї було знайдено посилання всередині сайту або десь на зовнішньому ресурсі.
Як створити файл robots.txt
Кожен вебмайстер знає, як захистити важливі сторінки від пошукових систем за допомогою файла robots.txt. Ми коротко поділимося головними секретами створення файлу. Роблять це за допомогою блокнота, Notepad, Sublime, або будь-якого іншого текстового редактора.
У самому файлі robots.txt важливо прописати інструкцію User-agent і правило Disallow, до того ж є ще кілька другорядних правил:
User-agent – правило про те, яким роботам необхідно переглянути інструкції, описані у файлі robots.txt. Можна вказати всі системи або лише деякі.
Disallow – рекомендації, яку саме інформацію не потрібно сканувати.
Allow – дозвіл на сканування вказаних сторінок.
Sitemap – повідомляє роботам, що всі URL сайту, обов’язкові для індексації, знаходяться за адресою https://site.ua/sitemap.xml. Під час кожного обходу робот буде дивитися, які зміни вносилися в цей файл, і швидко освіжати інформацію про сайт у базах даних пошукової системи.
Crawl-delay – параметр, за допомогою якого можна задати період, через який будуть завантажуватися сторінки сайту. Це правило актуальне, якщо у вас слабкий сервер. У такому разі можливі великі затримки під час звернення пошукових роботів до сторінок сайту.
Clean-param допомагає уникати дублювання контенту, який може бути доступний за різними динамічними адресами.Такі адреси з’являються, якщо на сайті є різні сортування, id сесії тощо.
Зверніть увагу. Google більше не підтримує директиву Crawl-delay. Вона актуальна для інших пошукових систем, наприклад, Bing.
Перш ніж заповнювати файл robots.txt, потрібно розібратися які символи можна використовувати та як це правильно робити. Основні символи файлу – «/, *, $, #». За допомогою слеша «/» ми показуємо, що хочемо закрити від виявлення роботами чи нвпаки відкрити. Наприклад, якщо стоїть у правилі Disallow:
Cтоїть один слеш «/» ми забороняємо сканувати весь сайт;
Два знаки слеш можна забороняють сканування окремої директорії, наприклад, /catalog/;
Один знак слеш разом з вказаною назвою, наприклад, так /catalog забороняє сканувати всі посилання які починаються /catalog.
Зірочка «*» означає будь-яку послідовність символів у файлі. Наприклад, якщо ми хочемо сказати, що правило стосується всіх роботів, пишемо User-agent *. Знак долара «$» обмежує дії знака зірочки, перериває послідовність символів. Решітка «#» використовується для коментарів. Їх може залишити вебмайтер для себе, що не забути якихось дрібниць, чи дл інших майстрів. Робот не враховує їх під час сканування сайту.
Помилки при заповненні файлу robots.txt
Недосвідчені вебмайстри часто припускаються помилок. Найчастіші з них:
Переплутані інструкції, коли в інструкції Disallow вказують назви ботів тощо;
Запис відразу кількох папок чи файлів в одній інструкції Disallow. Якщо це різні папки, не поєднані ніякими параметрами, порідні різні правила;
Неправильна назва файлу, наприклад ROBOTS.TXT або якось інакше, вона має бути тільки robots.txt;
Порожнє правило User-agent;
Зайві або неправильно розставлені знаки – слеш, зірочка тощо.
Як створити файл robots.txt – відео
Щоб розібратися як створити самостійно файл robots.txt та побачити все на власні очі, перегляньте відео:
Файл robots.txt допомагає керувати діяльністю пошукових роботів на вашому сайті, вказувати, які сторінки потрібно індексувати, а які пропустити. Це допомагає покращити положення сайту в пошуковій видачі та приховати інформацію, що не має бути у відкритому доступі в інтернеті. Правильно складений файл robots.txt допомагає захистити інформацію від витоку у всесвітню мережу.
Відповіді на часті запитання про Robots.txt
Чи можна заборонити Google індексувати сторінки через robots.txt?
Так, можна за допомогою директиви Disallow для конкретних сторінок або директорій.
Чи обов’язково створювати файл robots.txt?
Ні, не обов’язково, але він допомагає контролювати індексацію сайту та знижує навантаження на сервер від ботів.
Чи можна заборонити доступ до сайту для всіх ботів?
Так, для цього можна використовувати директиву User-agent: * та Disallow: / у файлі robots.txt.
Теги:
Повідомити про помилку
Знайшли помилку? Виділіть її в тексті та надішліть нам на info@gosta.ua
Підписуйтеся на щомісячний дайджест новин від Gosta Media
Головні новини та апдейти від команди про гаджети, спорт, авто, здоров'я та лайфстайл.
Попередження:
Доступ лише для осіб старше 21 року
Цей розділ містить інформацію про азартні ігри та доступний лише для осіб, яким виповнилося 21 рік відповідно до чинного законодавства України. Будь ласка, підтвердіть, що вам 21 рік або більше.
Ця платформа не має української ліцензії. Посилання наведено виключно з інформаційною метою. Участь у грі на таких сайтах може порушувати законодавство України.