Составляем список "лишних" роботов которые грузят сервер, их описание и способы бана

jabbaxatt

Добрый модератор
Регистрация
21 Янв 2009
Сообщения
902
Реакции
432
Рылся я сегодня в логах, на предмет роботов которые грузят сервер и при этом мне не особо нужных. И решил создать сию тему.

Известно, что по мимо роботов яндекса и гугла (а также бинга, яхо, рамблера и мейла) есть ещё куча роботов всяких SEO сервисов, маленьких поисковых систем, ручных поделок и т.д.

В итоге на сервере постоянно пасётся стадо терминаторов, и не все ведут себя вежливо в плане пожирания ресурсов.

В общем для начала я в самом низу robots.txt всех своих сайтов впишу

User-agent: MJ12bot
Disallow: /
user-agent: AhrefsBot
disallow: /
User-agent: dotbot
Disallow: /
User-agent: InterfaxScanBot
Disallow: /
User-agent: SputnikBot
Disallow: /
User-agent: SolomonoBot
Disallow: /

Это список тех что меня подзапарили. А Вас приглашаю - пополнить этот список и так-же озвучить рекомендации, скинуть информацию на тему - кто из роботов чей и для чего.

Банить роботов ведь можно и через .htaccess по юзер агенту и там же - но по IP

Я пока цивилизованно - через robots.txt - но прошу ваших советов и мнений. Кто как делает?
 
Последнее редактирование:
Перед добавлением в robots.txt посмотрите в логах, а есть ли запросы файла robots от этих User-agent :)
Из перечисленных вами как минимум AhrefsBot не спрашивал разрешения в роботс. SolomonoBot и InterfaxScanBot не смог обнаружить в логах.

Остальные спрашивали. Но тут всплывает вопрос, а поняли ли?
После запрета в файлике надо проверить логи на скан с этими UA.

По хорошему, запретить бы по регулярке в htaccess/nginx.conf всё, что не в белом списке, ибо сервисов этих вагон и они прибывают. Сделать регулярку для основных ПС легко. Но вот только кто возьмётся составить такую регулярку для бестиария обычных UA :(
 
Не проще, давать доступ только тем ботам каким нужно, а прочих банить?

Вот, роботс для этого:
User-agent: Yandex
Disallow:
Crawl-delay: 5
Host: site.ru

User-agent: Googlebot
Disallow:
Crawl-delay: 7
Sitemap: site.ru/sitemap.xml

User-agent: *
Disallow: /

Если что надо запретить для первых 2-х соответственно указываете в каждом блоке отдельно. Crawl-delay - чтобы не было слишком частых обращений - если страниц много выложено, это может повесить сервер после прогона для индексации. Если нужно временно разрешить какой-то поисковик или соцсеть, добавлять её. В общем я так делал когда дорами занимался.

И ещё напомню про свой пост в моём блоге: Для просмотра ссылки Войди или Зарегистрируйся
 
Последнее редактирование:
Я при таких случаях парсю логи и выстраиваю список наиболее частых посетителей.
Написал простенький скрипт Для просмотра ссылки Войди или Зарегистрируйся
Работает так — Для просмотра ссылки Войди или Зарегистрируйся
Как правило, идёт много запросов с одного IP
Пробиваешь по WHOIS и если это не поисковик какой нибудь — банишь навсегда в .htaccess
 
Не проще, давать доступ только тем ботам каким нужно, а прочих банить?
Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?
 
Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?
ИМХО именно так по идее клоакинг и работает (по айпи определяются поисковые боты и им отдаётся отличный контент от того, который отдаётся реальным посетителям).
Одна проблема - клоакинг, насколько я знаю, поисковиками палится. Отсюда вывод - айпи их ботов бывают разные.
 
Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?
Нет. Тут разрешены все вспомогательные боты яндекса и гугла. Вот по яндексу к примеру: Для просмотра ссылки Войди или Зарегистрируйся

Более того, хостинг где я тогда хостился сам размещал подобный роботс при добавлении очередного домена, и проблем не было никогда.

По скриптам, вот есть такой вариант: Для просмотра ссылки Войди или Зарегистрируйся давно его не пробовал уже, раньше нормальный был.

ИМХО именно так по идее клоакинг и работает (по айпи определяются поисковые боты и им отдаётся отличный контент от того, который отдаётся реальным посетителям).
Одна проблема - клоакинг, насколько я знаю, поисковиками палится. Отсюда вывод - айпи их ботов бывают разные.
IP конечно используются различные для проверок против клоакинга + юзерагент мозилла и т.п. Но есть и системы которые отслеживают все новые IP позволяя их эффективно фильтровать, другое дело что это недёшево стоит и используется только теми кому это жизненно важно.
 
Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?
Ну вот для этого я и написал
Как правило, идёт много запросов с одного IP
Пробиваешь по WHOIS и если это не поисковик какой нибудь — банишь навсегда в .htaccess
Именно вручную проверяешь, когда обычная конфигурация и настройки apache+nginx не справляются.
Такие случаи редки — DDOS не чаще раз в месяц обычно, поэтому ручками, ручками;)
 
SISTRIX Crawler можно забанить. Говорят - как только "наползет" - то нагрузит так, что мама не горюй.
Вообще советую проверять логи регуляркой Crawler|spider|bot - смотреть, какие боты по сайту ходят.
Ненужных банить, чтобы не грузили и траф не жгли.

Банить лучше не по ip, а по юзер агенту - ip запросто может меняться, а юзер агент - очень редко.

Я разбираюсь с ботами так:
Составляю список "хороших" и "плохих" ботов, далее баню "плохих", а новых отлавливаю так:
Беру логи, випиливаю из них регуляркой запросы ботов, которые у меня в белом/черном списке, далее ищу оставшееся регуляркой Crawler|spider|bot , смотрю, что осталось и что с этим делать - кого в белый список, кого в черный.
Регулярка для удаления известных ботов такая: ^.*compatible; Baiduspider.*$|^.*Baiduspider-image.*$|^.*compatible; HaosouSpider.*$|^.*compatible; MJ12bot.*$|^.*.................
Автоматическим скриптам не доверяю - есть риск забанить нужный поисковик/сео-анализатор, etc....
 
Последнее редактирование модератором:
Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?
Нет, директивы в robots.txt носят рекомендательный характер, и могут быть проигнорированы роботами.
ИМХО именно так по идее клоакинг и работает
Клоакинг будет когда для робота будет отдаваться другое содержимое. А здесь просто указание не смотреть на содержимое, причем это указание можно спокойно проигнорить.
 
Назад
Сверху