robot.txt возможные ошибки

Тема в разделе "Тех. вопросы", создана пользователем d0ublezer0, 10 май 2018.

  1. d0ublezer0

    d0ublezer0

    Регистр.:
    21 май 2009
    Сообщения:
    305
    Симпатии:
    168
    привет
    яндекс считает ошибочными директивы:
    25 Disallow: /*by,product_price* Возможно, был использован недопустимый символ
    27 Disallow: /*by,ordering* Возможно, был использован недопустимый символ
    28 Disallow: /*by,product_in_stock* Возможно, был использован недопустимый символ
    29 Disallow: /*by,pc.ordering,product_name* Возможно, был использован недопустимый символ

    Что не нравится Яндексу? Как их исправить?
    Это страницы с результатами сортировки
     
    Последнее редактирование: 10 май 2018
  2. cocs

    cocs

    Регистр.:
    5 дек 2009
    Сообщения:
    537
    Симпатии:
    247
    Ругается на наличие запятых в адресе.
     
    d0ublezer0 нравится это.
  3. KomandorZS

    KomandorZS Постоялец

    Регистр.:
    10 фев 2017
    Сообщения:
    134
    Симпатии:
    45
    Читал на разных форумах про robot.txt одни пишут что он обязательно нужен, другие пишут что он нафиг не нужен. Подскажите мнение как он влияет на поисковую выдачу и влияет ли вообще ? Что точно стоит скрыть от роботов а что не надо трогать ? Толкового манула так и не нашел. Просветите )
     
  4. cocs

    cocs

    Регистр.:
    5 дек 2009
    Сообщения:
    537
    Симпатии:
    247
    robot.txt не влияеет на поисковую выдачу, а вот его отсутствие, или не корректное его заполнение - влияет. Это своего рода инструкция по работе с сайтом для ПС, если его не будет, ПС будет индексировать так как она считает нужным, если будет, то она будет принимать во внимание ваши рекомендации.
    Что скрывать, а чего не стоит надо смотреть в конкретных случаях. Например в большинстве случаев от ПС скрывают результаты поиска по сайту, а взять ту же OLX, то там наоборот половина выдачи в ПС из этого сайта, построена на выдачи поиска самой доски. Примеры: https://www.olx.ua/uk/elektronika/q-jeka-jk/, https://www.olx.ua/uk/moda-i-stil/aksessuary/q-портмоне/
     
  5. snail

    snail Постоялец

    Регистр.:
    23 фев 2009
    Сообщения:
    63
    Симпатии:
    2
    В последнее время на одном из сайтов веб мастер постоянно пишет что не может найти robot.txt, хотя он там есть и в не https версии он его отлично видит, после проверки на день нашел, и опять тоже самое. Никто с подобным не сталкивался?
     
  6. prefer

    prefer

    Регистр.:
    12 май 2016
    Сообщения:
    410
    Симпатии:
    87
    Покажите содержимое файла htaccess
     
  7. snail

    snail Постоялец

    Регистр.:
    23 фев 2009
    Сообщения:
    63
    Симпатии:
    2
    Код:
    Options -Indexes
    ErrorDocument 404 /404.php
    RewriteEngine On
    RewriteCond %{HTTPS} off [OR]
    RewriteCond %{HTTP_HOST} ^www\.
    RewriteRule (.*) https://тут домен/$1 [L,R=301]
    RewriteCond %{REQUEST_FILENAME} !robots\.txt
    <IfModule mod_php5.c>
    php_flag session.use_trans_sid off
    #php_value display_errors 1
    #php_value mbstring.internal_encoding UTF-8
    </IfModule>
    <IfModule mod_dir.c>
    DirectoryIndex index.php index.html
    </IfModule>
    <FilesMatch ".(flv|gif|jpg|jpeg|png|ico|swf|js|css|pdf|webm|mp4|woff2)$">
    SetOutputFilter DEFLATE
    ExpiresActive on
    ExpiresDefault "access plus 1 week"
    Header set Cache-Control "private, must-revalidate"
    </FilesMatch>
    <FilesMatch ".(pl|php|cgi|spl|scgi|fcgi)$">
    Header unset Cache-Control
    </FilesMatch>
    Думаете, тут есть ошибки?
     
    Последнее редактирование модератором: 6 апр 2019
  8. prefer

    prefer

    Регистр.:
    12 май 2016
    Сообщения:
    410
    Симпатии:
    87
    RewriteRule (.*) https://тут домен/$1 [L,R=301]
    RewriteCond %{REQUEST_FILENAME} !robots\.txt

    Попробуте так
    RewriteCond %{REQUEST_FILENAME} !robots\.txt
    RewriteRule (.*) https://тут домен/$1 [L,R=301]
     
  9. vanich

    vanich Создатель Нарушитель

    Заблокирован
    Регистр.:
    22 дек 2015
    Сообщения:
    10
    Симпатии:
    0
    Нужен, в т.ч. чтобы не отдавать поисковику дубли контента, иначе фильтр и плохое ранжирование.