Є ще один варіант повної заборони, який я не вважаю сильно раціональним у даному випадку.
Це блокування для робота в файлі robots.txt записом:
Ця директива, на відміну від серверного блокування роботу, повністю залежить від налаштувань, власне, самого робота та його алгоритмів.
Тому блокування роботів з чітко визначеним юзерагентом на рівні серверу - залізобетонний варіант.
Цим способом можна закривати й інші надокучливі боти, наприклад:
Періодично моніторте логи доступу сайту, навантаження і т.д. Ловіть небажані краулери.
Це блокування для робота в файлі robots.txt записом:
User-Agent: bingbot
Disallow: /
Ця директива, на відміну від серверного блокування роботу, повністю залежить від налаштувань, власне, самого робота та його алгоритмів.
Тому блокування роботів з чітко визначеним юзерагентом на рівні серверу - залізобетонний варіант.
Цим способом можна закривати й інші надокучливі боти, наприклад:
# Фейсбук бот (предпоказ посилань в ФБ, Інста). Скаженіє дуже часто на досить великих сайтах. Використовувати за необхідністю.
# Справка ФБ про їхні краулери:
#https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
RewriteCond %{HTTP_USER_AGENT} ^.*facebookexternalhit.* [NC]
RewriteRule .* - [F,L]
# Turnitin (Онлайн-сервіс - чекер плагіату)
RewriteCond %{HTTP_USER_AGENT} ^.*turnitin.* [NC]
RewriteRule .* - [F,L]
# Timpi (Якась чергова нова пошукова система, якою не можна маніпулювати. Серйозно. У них так написано. Я посміявся)
RewriteCond %{HTTP_USER_AGENT} ^.*timpibot.* [NC]
RewriteRule .* - [F,L]
Періодично моніторте логи доступу сайту, навантаження і т.д. Ловіть небажані краулери.