Robots.txt |
||
13:34 2 декабря 2015 — Угниченко Дмитрий |

robots.txt является необязательным файлом сайта с директивами для поисковых систем.
В robots.txt задается ряд настроек для сайта:
- Директивы по политике индексации документов сайта;
- Нюансы по частоте обращений ботов к сайту;
- Путь к карте сайта формата XML.
Ссылка на сервис от Yandex — Анализ robots.txt
В файле robots.txt указываются директивы для различных поисковых систем. Создается файл robots.txt бесплатнол через сервис от MegaIndex.
Ссылка на сервис от MegaIndex — Генерация файла robots.txt
Список поисковых ботов доступен в чтиве на сайте социальной сети интернет-специалистов MegaIndex.org по ссылке далее — Список всех поисковых роботов/индексаторов/ботов/краулеров/пауков
Поисковые боты
Боты поисковых систем ограничены в сканировании сайта через специальный параметр краулингового бюджета.Более подробно про краулинговый бюджет в материале на MegaIndex.org — "Что такое краулинговый бюджет и как его оптимизировать".
Иногда стоит запрещать индексацию сайта любыми ботами, кроме ботов от поисковых систем.
Список поисковых ботов может быть ограничен. Например, как вариант оставить ботов от поисковых систем Google, Yandex и Bing.
Поисковые боты Yandex называются Ya*/Yandex*. Google — Googlebot*.
Запрещать доступ ботам можно через .htaccess. Файл htaccess находится на сервере в директории доменного имени, адреса сайта. Как правило, файл можно вручную редактировать текстовыми процессором.
Поисковые боты надо запрещать именно в директивах сервера. Указания в robots.txt являются рекомендациями.
Пример файла .htaccess сo списком запрещенных ботов:
RewriteEngine on RewriteCond %{HTTP_HOST} ^blog.example.com$ RewriteRule ^(.*)$ http://www.example.com/$1 [R=301,L] SetEnvIfNoCase User-Agent .*rogerbot.* bad_bot SetEnvIfNoCase User-Agent .*exabot.* bad_bot SetEnvIfNoCase User-Agent .*mj12bot.* bad_bot SetEnvIfNoCase User-Agent .*dotbot.* bad_bot SetEnvIfNoCase User-Agent .*gigabot.* bad_bot SetEnvIfNoCase User-Agent .*ahrefsbot.* bad_bot SetEnvIfNoCase User-Agent .*sitebot.* bad_bot SetEnvIfNoCase User-Agent .*BLEXbot.* bad_bot SetEnvIfNoCase User-Agent .*Blekkobot.* bad_bot SetEnvIfNoCase User-Agent .*SEOkicks-Robot.* bad_bot SetEnvIfNoCase User-Agent .*BotALot.* bad_bot SetEnvIfNoCase User-Agent .*Alexibot.* bad_bot SetEnvIfNoCase User-Agent .*BecomeBot.* bad_bot SetEnvIfNoCase User-Agent .*BunnySlippers.* bad_bot SetEnvIfNoCase User-Agent .*CheeseBot.* bad_bot SetEnvIfNoCase User-Agent .*Foobot.* bad_bot SetEnvIfNoCase User-Agent .*exabot.* bad_bot SetEnvIfNoCase User-Agent .*grub.* bad_bot SetEnvIfNoCase User-Agent .*grub-client.* bad_bot SetEnvIfNoCase User-Agent .*hloader.* bad_bot SetEnvIfNoCase User-Agent .*httplib.* bad_bot SetEnvIfNoCase User-Agent .*humanlinks.* bad_bot SetEnvIfNoCase User-Agent .*InfoNaviRobot.* bad_bot SetEnvIfNoCase User-Agent .*JennyBot.* bad_bot SetEnvIfNoCase User-Agent .*Jetbot.* bad_bot SetEnvIfNoCase User-Agent .*larbin.* bad_bot SetEnvIfNoCase User-Agent .*LexiBot.* bad_bot SetEnvIfNoCase User-Agent .*LinkextractorPro.* bad_bot SetEnvIfNoCase User-Agent .*LinkWalker.* bad_bot SetEnvIfNoCase User-Agent .*LNSpiderguy.* bad_bot SetEnvIfNoCase User-Agent .*moget.* bad_bot SetEnvIfNoCase User-Agent .*MSIECrawler.* bad_bot SetEnvIfNoCase User-Agent .*naver.* bad_bot SetEnvIfNoCase User-Agent .*NetAnts.* bad_bot SetEnvIfNoCase User-Agent .*NetMechanic.* bad_bot SetEnvIfNoCase User-Agent .*NICErsPRO.* bad_bot SetEnvIfNoCase User-Agent .*Nutch.* bad_bot SetEnvIfNoCase User-Agent .*Openbot.* bad_bot SetEnvIfNoCase User-Agent .*Openfind.* bad_bot SetEnvIfNoCase User-Agent .*psbot.* bad_bot SetEnvIfNoCase User-Agent .*ProWebWalker.* bad_bot SetEnvIfNoCase User-Agent .*RepoMonkey.* bad_bot SetEnvIfNoCase User-Agent .*scooter.* bad_bot SetEnvIfNoCase User-Agent .*Stanford.* bad_bot SetEnvIfNoCase User-Agent .*SpankBot.* bad_bot SetEnvIfNoCase User-Agent .*SiteSnagger.* bad_bot SetEnvIfNoCase User-Agent .*suzuran.* bad_bot SetEnvIfNoCase User-Agent .*Teleport.* bad_bot SetEnvIfNoCase User-Agent .*WebBandit.* bad_bot SetEnvIfNoCase User-Agent .*WebCopier.* bad_bot SetEnvIfNoCase User-Agent .*Xenu.* bad_bot SetEnvIfNoCase User-Agent .*Zeus.* bad_bot <Limit GET POST HEAD> Order Allow,Deny Allow from all Deny from env=bad_bot </Limit>
Понравился пост?Да НетПонравилось 1, не понравилось 0 |
Расскажите о нас... |
2 комментария
+ Добавить комментарийПока на своих сайтах не отсек ему доступ - он так сильно грузил сервер, что просто беда. Теперь все нормально. Для всех новых сайтах теперь сразу это делаю.
RewriteRule ^(.*)$ www.example.com/$1">http://www.example.com/$1 [R=301,L]
Что означают blog.example.com и www.example.com?