• DONATE to NULLED!
    Вы можете помочь Форуму и команде, поддержать финансово.
    starwanderer - модератор этого раздела будет Вам благодарен!

Помощь Помогите улучшить robots.txt

Protector

Профессор
Регистрация
17 Ноя 2013
Сообщения
257
Реакции
40
Решил поделится моим robots.txt под мои wordpress сайты. Ссылки на сайте имеют вид Для просмотра ссылки Войди или Зарегистрируйся. Помогите улучшить робота. Что добавить, что убрать, какие роботы на ваших сайтах ?

User-Agent: *
Allow: /wp-content/uploads/
Allow: /wp-content/themes/*.css
Allow: /wp-content/plugins/*.css
Allow: /wp-content/uploads/*.css
Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/uploads/*.js
Allow: /wp-includes/css/
Allow: /wp-includes/js/
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /admin
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback/
Disallow: /trackback
Disallow: */*/trackback
Disallow: /?s=
Disallow: /*?*
Disallow: /*category
Disallow: /*feed
Disallow: */feed
Disallow: */*/feed/*/
Disallow: /?feed=
Disallow: /*comments
Disallow: /*archives
 
Решил поделится моим robots.txt под мои wordpress сайты. Ссылки на сайте имеют вид Для просмотра ссылки Войди или Зарегистрируйся. Помогите улучшить робота. Что добавить, что убрать, какие роботы на ваших сайтах ?

User-Agent: *
Allow: /wp-content/uploads/
Allow: /wp-content/themes/*.css
Allow: /wp-content/plugins/*.css
Allow: /wp-content/uploads/*.css
Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/uploads/*.js
Allow: /wp-includes/css/
Allow: /wp-includes/js/
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /admin
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback/
Disallow: /trackback
Disallow: */*/trackback
Disallow: /?s=
Disallow: /*?*
Disallow: /*category
Disallow: /*feed
Disallow: */feed
Disallow: */*/feed/*/
Disallow: /?feed=
Disallow: /*comments
Disallow: /*archives
Плохо! Очень плохо!

robots.txt должен быть как можно меньше. Запрещать индекс надо не в нем, а на самой странице:
HTML:
<meta name="robots" content="all"/>
<meta name="robots" content="noindex, follow"/>

Во-первых. То что вы запретили индексацию страницы входа, это совсем не значит, что злоумышленники её не найдут. Они скорее всего глянут роботс, так как там, такие как Вы, всяческие секретные файлы из индекса убирают.

Во-вторых. Гугл индексирует эти страницы и даже в поиске показывает. Просто вместо краткого описания на странице результатов написано "Индексирование этой страницы запрещено"
 
robots.txt должен быть как можно меньше. Запрещать индекс надо не в нем, а на самой странице:
HTML:
<meta name="robots" content="all"/>
<meta name="robots" content="noindex, follow"/>

И как вы предлагаете реализовать это на wordpress ? Я не умею.
Во-первых. То что вы запретили индексацию страницы входа, это совсем не значит, что злоумышленники её не найдут. Они скорее всего глянут роботс, так как там, такие как Вы, всяческие секретные файлы из индекса убирают.

Во-вторых. Гугл индексирует эти страницы и даже в поиске показывает. Просто вместо краткого описания на странице результатов написано "Индексирование этой страницы запрещено"

Вряд ли в opensource движке есть какие либо секретные файлы. Цель робота закрыть от индексации дубли и всякий мусор, разве я не прав ? А вот посчитаются ли поисковики с роботом или проигнорируют это не моё дело. По крайней мере я сделал всё что мог и выполнил рекомендации ПС закрыв от индексации всё ненужное. С такой логикой не нужно закрывать от индексации внешние ссылки, всё равно поисковики не учитывают тег nofollow. Может и не нужно, но всё же лучше подстраховаться.
И вообще, если вы считаете что это неправильно, то объясните пожалуйста как правильно и как на своих wordpress сайтах это делаете вы.
 
И как вы предлагаете реализовать это на wordpress ? Я не умею.


Вряд ли в opensource движке есть какие либо секретные файлы. Цель робота закрыть от индексации дубли и всякий мусор, разве я не прав ? А вот посчитаются ли поисковики с роботом или проигнорируют это не моё дело. По крайней мере я сделал всё что мог и выполнил рекомендации ПС закрыв от индексации всё ненужное. С такой логикой не нужно закрывать от индексации внешние ссылки, всё равно поисковики не учитывают тег nofollow. Может и не нужно, но всё же лучше подстраховаться.
И вообще, если вы считаете что это неправильно, то объясните пожалуйста как правильно и как на своих wordpress сайтах это делаете вы.
Для просмотра ссылки Войди или Зарегистрируйся

Для просмотра ссылки Войди или Зарегистрируйся
 
Не понимаю чем плох вариант в закрытии страниц в robots.txt и почему лучше именно закрывать со страниц я не знаю.
А так в robots.txt не нужно закрывать css,js файлы, гугл их и так будет считывать.
 
Для просмотра ссылки Войди или Зарегистрируйся

Для просмотра ссылки Войди или Зарегистрируйся

Если честно не понял смысла этого плагина. Он ведь по умолчанию ставит на все записи "index, follow", верно ? Но у меня так и так все страницы блога индексируются, мне надо закрыть от индексации то что не является записью и страницей, то есть всё лишнее. Мне не нужен лишний плагин на сайте, меня вполне удовлетворяет ограничение индексации через робот. У кого нибудь есть ещё какие нибудь мысли по поводу robots.txt ?
 
Сам недавно начал анализировать проблемы с google вебмастером. Там есть функция "Просмотреть как Googlebot". Вот на нее рекомендую обратить внимание. То есть ты открывай какие-то отдельные файлы для робота, или смотри по объемам, и открывай сразу целые папки, желательно пробежаться по основным страницам, для начала.

Так же рекомендую иметь в своем роботсе вот такие штуки, на случай, если что-то пропустишь при ручной правке:

Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png

P.S. Я бы поспорил про кол-во строк в файле роботс (по моему мнению, негативного влияния это оказывать не может)
 
Уважаемый . Робот.тхт скроет только отдельные файлы или папки. Страницы скрыть просто не возможно Гугл робот все равно их находит. В all one seo прекрасно можно указать тип индексируемых страниц
 
Лучшим способом по формированию качественного роботс - это связка плагина+ручная проверка в Гугле-Яндексе.
1. Устанавливаете плагин (их куча, берете фри и самый популярный).
2. Тестите свои статьи, товары... та и весь сайт через Для просмотра ссылки Войди или Зарегистрируйся и Для просмотра ссылки Войди или Зарегистрируйся
3. Вносите, непосредственно, рекомендации от Я и Г.
 
Нужно запретить в роботс тхт индексацию ссылок типа: Сайт/Категория/offset_20 которые плодят дубли, подскажите как правильно:

Disallow: /*_offset_*.html
Disallow: /*_offset_*
Disallow: /offset_20
Disallow: /offset
Disallow: /offset_*

Спасибо, сорри за нубство:))
 
Назад
Сверху