как запретить индексацию через .htaccess

Статус
В этой теме нельзя размещать новые ответы.

sidor80

Постоялец
Регистрация
15 Фев 2007
Сообщения
84
Реакции
41
Вобшем хочу прогнать сайт по черным каталогам и линкопомойки хорошенько запрятать от поисковиков. закрывать через роботс тхт, ноуиндекс, запрет в мета тегах
не катит потому как при дабовлении скрипты каталогов это все проверяют и боты не всегда выполняют эти дерективы поэтому решил делать через .htaccess. Хочу сделать запрет по двум параметрам запретить ботам индексировать страницы с разрешением .htm и вобше запретить просмотр вот нашол пример одного из способов

"вот так запрещаем просмотр дора не ботам и не из поисковика

RewriteEngine on
Options +FollowSymlinks
RewriteBase /

RewriteCond %{REMOTE_ADDR} !(тут ипаки ботов)
RewriteCond %{HTTP_REFERER} !(тут рефереры проверяем ботов и поисковиков) [NC]
RewriteRule ^.*$ - [F] #если не бот и не из поисковика пишем запрет
иначе показываем"

но толком не могу понять как это правильно надо прописать в .htaccess приведите точный пример того как это надо правильно прописать .htaccess. И покажите пример запрета индексации страниц с разрешением .htm
 
Эм... ни разу не видел, чтобы ботам что-то запрещали через хтацесс. Интересная мысль конечно, но не проще ли сделать в роботс.тхт:
Код:
User-agent: *
Disallow: /
Хотя это всё равно не спасает и любопытный гуглбот залазиет и индексирует
 
htaccess написал(а):
RewriteCond %{HTTP_USER_AGENT} ^.*google.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*msnbot.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*slurp.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*yandex.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*rambler.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*webalta.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*aport.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*lycos.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*scooter.* [NC]
RewriteRule ^(.*)$ - [F]

В данном случае неважно: rambler или stackrambler, google или googlebot - регулярки определяют наличие соответствующей сигнальной строки в юзер-агенте, поскольку раз боты забанены, то и подразумевается отсутствие заходов с поисковиков.
 
  • Нравится
Реакции: Lenr
вот на фиде стоит запрет на ботов и спайдеров
взял с UF
Код:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (curl¦Dart.?Communications¦Enfish¦htdig¦Java¦larbin) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (FrontPage¦Indy.?Library¦RPT\-HTTPClient) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (libwww¦lwp¦www\.thatrobotsite\.com¦webbandit¦Wget¦Zeu¦w00t) [NC,OR]
# Image-grabbers
RewriteCond %{HTTP_USER_AGENT} (AcoiRobot¦Flickbot¦webcollage) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Express¦Mister¦Collector) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Image.?(fetch¦Stripper¦Sucker) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (LinkWalker¦ia_archiver¦NPbot|lwp-trivial|Subtext|Downloader|BabalooSpider|Nutch|larbin|page_verifier|IRLbot) [NC,OR]
# BAD or SPAM bots
RewriteCond %{HTTP_USER_AGENT} (Wells|College|iRc|Boston|Missigua|Snap|Rambler|DepSpid|Spam|tailrank|Java|perl|Netcraft|Lsearch/sondeur) [NC,OR]
# Uzkoglazie BOTi i pro4ie urodi
RewriteCond %{HTTP_USER_AGENT} (bot|spider|crawler|Baidu|Become|ShopWiki) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Naver|China|http_get|Download|ichiro|sogou|Fetch|Shim) [NC]
#


RewriteRule .* - [F]

# block blank user-agent
SetEnvIf User-Agent ^$ BAD_BOT
SetEnvIf User-Agent ^-$ BAD_BOT

# keyweb
SetEnvIf Remote_Addr "84\.19\.1([7][6-9]|[8][0-9]|[9][1])\.[0-9]+" BAD_BOT
SetEnvIf Remote_Addr "87\.118\.([9][6-9]|[1][0-2][0-9])\.[0-9]+" BAD_BOT
# layeredtech-SAVVIS
SetEnvIf Remote_Addr "216\.3[2-5]\.[0-9]+\.[0-9]+" BAD_BOT
SetEnvIf Remote_Addr "72\.21\.([3][2-9]|[4-5][0-9]|[6][0-3])\.[0-9]+" BAD_BOT
SetEnvIf Remote_Addr "72\.36\.([1][2-9][0-9]|[2][0-9][0-9])\.[0-9]+" BAD_BOT
SetEnvIf Remote_Addr "72\.232\.[0-9]+\.[0-9]+" BAD_BOT
# thaplanet
SetEnvIf Remote_Addr "67\.1(8|9)\.[0-9]+\.[0-9]+" BAD_BOT
SetEnvIf Remote_Addr "70\.8[4-7]\.[0-9]+\.[0-9]+" BAD_BOT



# Bad bot, no cookie!
Order Allow,Deny
Allow from all
Deny from env=BAD_BOT
 
роботс.ткст многие боты просто игнорируют
 
на фиде всегда использую robots.txt накрутки серчей не вижу, боты не ходят по линкам из related
 
а если например запретить индексацию через мета теги помоему тоже канает
 
А почему через хтаксес? можно ведь в той странице на которой ссылки сдлать проверку на бота на php....
if (bot) {nothing}
if (!bot) {show_page}
 
Сто процентов не получится даже ботов одного поисковика не пустить. Для этого надо знать все IP ботов и всеего юзер агенты. Да вот только юзер агент может быть любой у бота, да и айпишники меняются/добавляются постоянно.
Так что это мера временная.
 
robots.txt действительно игнорируют.
inko123 привел правильный пример, тока список актуальных айпи ботов гугла постоянно меняется.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху