Защита сайта от user-agent, ботов и парсеров

Noxikus

Гуру форума
Регистрация
18 Фев 2015
Сообщения
304
Реакции
74
Всем привет.

Подскажите, пожалуйста, какие варианты есть для защиты сайта от user-agent, скачивания, наплыва ботов и парсеров?

Желательно на своих работающих примерах :)

Спасибо.

Вот интересный вариант - Для просмотра ссылки Войди или Зарегистрируйся

Может уже использовал кто-то?
 
Последнее редактирование модератором:
Вот интересный вариант - Для просмотра ссылки Войди или Зарегистрируйся
Может уже использовал кто-то?

безопасность штука дорогая
Для просмотра ссылки Войди или Зарегистрируйся


альтернативу можно и такую пробовать:
Для просмотра ссылки Войди или Зарегистрируйся


Всем привет.

Подскажите, пожалуйста, какие варианты есть для защиты сайта от user-agent, скачивания, наплыва ботов и парсеров?

Желательно на своих работающих примерах :)

Спасибо.

решаю, как правило, на уровне вебсервера проверки на резковозрастающую нагрузку с помощью настройки nginx
 
использую вот такую штуку в .htaccess для защиты от скачиваний и прочей нечисти)
<IfModule mod_setenvif.c>
BrowserMatchNoCase "^(aesop_com_spiderman|alexibot|backweb|bandit|batchftp|bigfoot)" bad_bot
BrowserMatchNoCase "^(black.?hole|blackwidow|blowfish|botalot|buddy|builtbottough|bullseye)" bad_bot
BrowserMatchNoCase "^(cheesebot|cherrypicker|chinaclaw|collector|copier|copyrightcheck)" bad_bot
BrowserMatchNoCase "^(cosmos|crescent|curl|custo|da|diibot|disco|dittospyder|dragonfly)" bad_bot
BrowserMatchNoCase "^(drip|easydl|ebingbong|ecatch|eirgrabber|emailcollector|emailsiphon)" bad_bot
BrowserMatchNoCase "^(emailwolf|erocrawler|exabot|eyenetie|filehound|flashget|flunky)" bad_bot
BrowserMatchNoCase "^(frontpage|getright|getweb|go.?zilla|go-ahead-got-it|gotit|grabnet)" bad_bot
BrowserMatchNoCase "^(grafula|harvest|hloader|hmview|httplib|httrack|humanlinks|ilsebot)" bad_bot
BrowserMatchNoCase "^(infonavirobot|infotekies|intelliseek|interget|iria|jennybot|jetcar)" bad_bot
BrowserMatchNoCase "^(joc|justview|jyxobot|kenjin|keyword|larbin|leechftp|lexibot|lftp|libweb)" bad_bot
BrowserMatchNoCase "^(likse|linkscan|linkwalker|lnspiderguy|lwp|magnet|mag-net|markwatch)" bad_bot
BrowserMatchNoCase "^(mata.?hari|memo|microsoft.?url|midown.?tool|miixpc|mirror|missigua|missauga)" bad_bot
BrowserMatchNoCase "^(mister.?pix|moget|mozilla.?newt|nameprotect|navroad|backdoorbot|nearsite)" bad_bot
BrowserMatchNoCase "^(net.?vampire|netants|netcraft|netmechanic|netspider|nextgensearchbot)" bad_bot
BrowserMatchNoCase "^(attach|nicerspro|nimblecrawler|npbot|octopus|offline.?explorer)" bad_bot
BrowserMatchNoCase "^(offline.?navigator|openfind|outfoxbot|pagegrabber|papa|pavuk)" bad_bot
BrowserMatchNoCase "^(pcbrowser|php.?version.?tracker|pockey|propowerbot|prowebwalker)" bad_bot
BrowserMatchNoCase "^(psbot|pump|queryn|recorder|realdownload|reaper|reget|true_robot)" bad_bot
BrowserMatchNoCase "^(repomonkey|rma|internetseer|sitesnagger|siphon|slysearch|smartdownload)" bad_bot
BrowserMatchNoCase "^(snake|snapbot|snoopy|sogou|spacebison|spankbot|spanner|sqworm|superbot)" bad_bot
BrowserMatchNoCase "^(superhttp|surfbot|asterias|suzuran|szukacz|takeout|teleport)" bad_bot
BrowserMatchNoCase "^(telesoft|the.?intraformant|thenomad|tighttwatbot|titan|urldispatcher)" bad_bot
BrowserMatchNoCase "^(turingos|turnitinbot|urly.?warning|vacuum|vci|voideye|whacker)" bad_bot
BrowserMatchNoCase "^(libwww-perl|widow|wisenutbot|wwwoffle|xaldon|xenu|zeus|zyborg|anonymouse)" bad_bot
BrowserMatchNoCase "^(abot|aipbot|EI|LWP|MSIECrawler|PlantyNet_WebRobot|UCmore)" bad_bot
BrowserMatchNoCase "^web(zip|emaile|enhancer|fetch|go.?is|auto|bandit|clip|copier|master|reaper|sauger|site.?quester|whack)" bad_bot
BrowserMatchNoCase "^.*(craftbot|download|extract|stripper|sucker|ninja|clshttp|webspider|leacher|collector|grabber|webpictures|jeteye).*$" bad_bot
BrowserMatchNoCase "(Alligator|AllSubmitter|Anonymous|autoemailspider|Badass|Baiduspider|BecomeBot)" bad_bot
BrowserMatchNoCase "(Bitacle|bladder\ fusion|Blogshares\ Spiders|Board\ Bot|Convera|ConveraMultiMediaCrawler|c-spider)" bad_bot
BrowserMatchNoCase "(DA|DnloadMage|Download\ Demon|Download\ Express|Download\ Wonder|dragonfly|DreamPassport)" bad_bot
BrowserMatchNoCase "(DSurf|DTS\ Agent|EBrowse|eCatch|edgeio|Email\ Extractor|EmeraldShield)" bad_bot
BrowserMatchNoCase "(ESurf|ExtractorPro|FileHeap\!\ file downloader|Forex|Franklin\ Locator|FreshDownload|FSurf)" bad_bot
BrowserMatchNoCase "(Gaisbot|Gamespy_Arcade|genieBot|GetBot|Gigabot|GOFORITBOT|heritrix)" bad_bot
BrowserMatchNoCase "(HooWWWer|iCCrawler|ichiro|iGetter|imds_monitor|Industry\ Program|Indy\ Library)" bad_bot
BrowserMatchNoCase "(InetURL|InstallShield\ DigitalWizard|IRLbot|IUPUI\ Research\ Bot|JoBo)" bad_bot
BrowserMatchNoCase "(Kapere|LeechGet|LightningDownload|Linkie|Mac\ Finder|Mail\ Sweeper|Mass\ Downloader)" bad_bot
BrowserMatchNoCase "(MetaProducts\ Download\ Express|Microsoft\ Data\ Access|Microsoft\ URL\ Control|Missouri\ College\ Browse|MovableType|Mozi\!|Mozilla/3\.0 (compatible))" bad_bot
BrowserMatchNoCase "(Mozilla/5\.0 (compatible\; MSIE 5\.0)|MSIE_6\.0|MVAClient|MyFamilyBot|MyGetRight|NASA\ Search|Naver)" bad_bot
BrowserMatchNoCase "(NaverBot|NetResearchServer|NEWT\ ActiveX|Nextopia|Nitro\ Downloader|Nutch|OmniExplorer)" bad_bot
BrowserMatchNoCase "(P3P|PagmIEDownload|playstarmusic|Program\ Shareware|Progressive\ Download|psycheclone|puf)" bad_bot
BrowserMatchNoCase "(PussyCat|PuxaRapido|Python-urllib|RedKernel|relevantnoise|RTG30|SBIder)" bad_bot
BrowserMatchNoCase "(script|Seekbot|sna-|Snap\ bot|SpeedDownload|Sphere|sproose)" bad_bot
BrowserMatchNoCase "(SQ\ Webscanner|Stamina|Star\ Downloader|UdmSearch|URLGetFile|User-Agent|UtilMind\ HTTPGet)" bad_bot
BrowserMatchNoCase "(WebAuto|WebCapture|webcollage|WebCopier|WebFilter|WebReaper|Website\ eXtractor)" bad_bot
BrowserMatchNoCase "(WebStripper|WebZIP|Wells\ Search|WEP\ Search\ 00|Wget|Wildsoft\ Surfer|WinHttpRequest)" bad_bot
BrowserMatchNoCase "(Y\!TunnelPro|YahooYSMcm|Zade|ZBot|zerxbot)" bad_bot

Deny from env=bad_bot
</ifModule>
хотелось бы услышать критику по используемому мной методу, либо какие-то дополнения по улучшению, если таковые имеются

особо настойчивых блокирую ручками в том же .htaccess с помощью
<Limit GET POST>
order allow,deny
deny from xxx.xxx.xxx.xxx
allow from all
</Limit>
 
Последнее редактирование:
У мня как то взломали магаз я и не заметил, пока Яндекс не выкинул сайт из поиска и не написал мне в Webmaster.Yandex.ru, и сайт так работал несколько месяцев, было добавлено несколько тысяч страниц типа форума с вопросами, ответами, отзывами и ссылкой видимо на вирус какой то, так пришлось переделать все сайты, форматнуть и переустановить все на сервере т.к. пишут, что нельзя быть уверенным в том, что где-то не вшили вредоносный код.

Недавно пытались подобрать пароль к серверу брутом через ssh, так сервер писец как тормозил, в поддержке посоветовали изменить порт SSH - помогло, как бы помогает от "автоматических" взломов, если захотят доковыряться именно до вас, потребуется более серьезные способы защиты.
 
можно попробовать настроить количество одновременных подключений
 
У мня как то взломали магаз я и не заметил, пока Яндекс не выкинул сайт из поиска и не написал мне в Webmaster.Yandex.ru, и сайт так работал несколько месяцев,
Жесть какая то!
Яндекс же присылает полный расклад на почту (все изменения), если у вас работающий проект и смотреть в него раз в несколько месяцев - вот вам и результат собственно, ничего удивительного в этом нет.
 
Жесть какая то!
Яндекс же присылает полный расклад на почту (все изменения), если у вас работающий проект и смотреть в него раз в несколько месяцев - вот вам и результат собственно, ничего удивительного в этом нет.
Взлом был произведен незаметно, через уязвимость в модуле шаблона Warehouse, я слежу за почтой, на тот момент Яндекс не сразу заметил заражение сайта, зато проиндексировал несколько тысяч поддельных страниц в виде форума и ссылками естественно опасными.
В корневой папке сайта все было ОК, после меня взламывали и по жестче, закосячили весь сайт (файлы), пока я не разобрался где дыра.
 
на тот момент Яндекс не сразу заметил заражение сайта, зато проиндексировал несколько тысяч поддельных страниц
спс за идею. Чтобы сразу замечать "шалости" написал простенький модуль для
мониторинга изменений в файловой системе сайта. Мониторинг за файлами с расширением:
  • php
  • html
  • js
  • css
  • tpl
  • twig
Когда изменения обнаружены, администратор будет оповещен по электронной почте и / или записаны логи этих изменений. Использовать скрипт полезно запуская задание по крону (например ночью), в случае выявления изменений, отправит сформированный отчет администратору
качать тут бесплатно
Для просмотра ссылки Войди или Зарегистрируйся
 
спс за идею. Чтобы сразу замечать "шалости" написал простенький модуль для
мониторинга изменений в файловой системе сайта. Мониторинг за файлами с расширением:
  • php
  • html
  • js
  • css
  • tpl
  • twig
Когда изменения обнаружены, администратор будет оповещен по электронной почте и / или записаны логи этих изменений. Использовать скрипт полезно запуская задание по крону (например ночью), в случае выявления изменений, отправит сформированный отчет администратору
качать тут бесплатно
Для просмотра ссылки Войди или Зарегистрируйся
Супер идея .
Поддерживает 1.7 ?
 
Назад
Сверху