Поисковые роботы, индексаторы, боты, краулеры и пауки |
||
01:18 9 февраля 2015 — Угниченко Дмитрий |

Список всех поисковых роботов, индексаторов, ботов, краулеров и пауков
Поисковыми роботами принято называть любые программы (такие как роботы или пауки), которые автоматически обнаруживают и сканируют веб-сайты, переходя по ссылкам от страницы к странице. Ниже список всех основных поисковых роботов Google и Yandex. Зная их по именам появляется возможность настроить файл сайта с рекомендациями поисковым системам по индексации robots.txt более тонко.Закрыть доступ к сайту роботам, краулерам и паукам
При использовании сателлитов рекомендуется ограничить доступ сторонним сервисам к сайту.Закрыть доступ к сайту на Wordpress можно используя специальный плагин под названием Spider Blocker. Ссылка — Spider Blocker.
Рекомендованное по теме на сайте сайте социальной сети интернет-специалистов — Сателлиты и сетки сайтов в SEO — ВИДЕО.
Поисковые роботы, индексаторы, боты, краулеры и пауки Google
Поисковый роботРобот Googlebot (веб-поиск Google)Googlebot
Агенты пользователя
Googlebot
Агент пользователя в запросах HTTP(S)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
или
(редко используется) Googlebot/2.1 (+http://www.google.com/bot.html)
Поисковый робот
Googlebot News
Агенты пользователя
Googlebot-News (Googlebot)
Агент пользователя в запросах HTTP(S)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
или
(редко используется) Googlebot/2.1 (+http://www.google.com/bot.html)
Поисковый робот
Googlebot Images
Агенты пользователя
Googlebot-Image (Googlebot)
Агент пользователя в запросах HTTP(S)
Googlebot-Image/1.0
Поисковый робот
Googlebot Video
Агенты пользователя
Googlebot-Video (Googlebot)
Агент пользователя в запросах HTTP(S)
Googlebot-Video/1.0
Поисковый робот
Google Mobile
Агенты пользователя
Googlebot-Mobile
Агент пользователя в запросах HTTP(S)
[различные типы мобильных устройств] (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Поисковый робот
Google Mobile AdSense
Агенты пользователя
Mediapartners-Google
или
Mediapartners (Googlebot)
Агент пользователя в запросах HTTP(S)
[различные типы мобильных устройств] (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Поисковый робот
Google AdSense
Агенты пользователя
Mediapartners-Google
Mediapartners
(Googlebot) или Mediapartners-Google
Агент пользователя в запросах HTTP(S)
Mediapartners-Google
Поисковый робот
Проверка качества целевой страницы Google AdsBot
Агенты пользователя
AdsBot-Google
Агент пользователя в запросах HTTP(S)
AdsBot-Google (+http://www.google.com/adsbot.html)
Список доступен по ссылке https://support.google.com/webmasters/answer/1061943?hl=ru
Поисковые роботы индексаторы/боты/краулеры/пауки Yandex
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основной индексирующий робот;Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — индексатор Яндекс.Картинок;
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) — индексатор Яндекс.Видео;
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — робот, индексирующий мультимедийные данные;
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) — робот поиска по блогам, индексирующий комментарии постов;
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)— робот, индексирующий пиктограммы сайтов (favicons);
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)— робот сервиса Яндекс.Вебмастер;
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)— робот, обращающийся к странице при валидации микроразметки через форму Валидатор микроразметки;
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) — робот мобильных сервисов;
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) — робот Яндекс.Директа, особым образом интерпретирует robots.txt;
Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel; +http://yandex.com/bots) — «простукивалка» Яндекс.Директа, проверяет корректность ссылок из объявлений перед модерацией;
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) — «простукивалка» быстрых ссылок, используется для проверки доступности страниц, определившихся в качестве быстрых ссылок;
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) — робот Рекламной сети Яндекса;
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) — робот Яндекс.Метрики;
Mozilla/5.0 (compatible; YandexNews/3.0; +http://yandex.com/bots) — робот Яндекс.Новостей;
Mozilla/5.0 (compatible; YandexNewslinks; +http://yandex.com/bots) — «простукивалка» Яндекс.Новостей, используется для проверки ссылок из новостных материалов;
Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
Mozilla/5.0 (compatible; YandexAntivirus/2.0; +http://yandex.com/bots) — антивирусный робот, который проверяет страницы на наличие опасного кода;
Mozilla/5.0 (compatible; YandexZakladki/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Закладок, используется для проверки доступности страниц, добавленных в закладки;
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) — робот Яндекс.Маркета;
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) — робот поисковых вертикалей;
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) — робот Яндекс.Календаря, используется для синхронизации с другими календарями, особым образом интерпретирует robots.txt.
Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) — Робот почты для домена, используется при проверке прав на владение доменом.
Список доступен по ссылке http://help.yandex.com/search/robots/logs.xml
Для чего это нужно знать. Например, если нужно запретить индексацию изображений раздела сайта, но разрешить индексацию текстов. На практике это выглядит так.
robots.txt:
User-agent: Yandex Disallow: User-agent: YandexImages Disallow: /раздел/Проверить robots.txt можно в «MegaIndex Аудит» по ссылке http://audit.megaindex.ru/audit/site_param/
Регистрируйтесь сейчас и пользуйтесь проверкой файла robots.txt бесплатно.
Ссылка для регистрации: бесплатная регистрация.
Список ботов
Рекомендуется ограничить доступ к сайту следующим ботамUser-agent: 008 User-agent: crawler4j User-agent: crawler4j (http://code.google.com/p/crawler4j/) User-agent: Curious George - www.analyticsseo.com/crawler User-agent: Curious George - www.analyticsseo.com User-agent: Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+) User-agent: MJ12 User-agent: Mozilla/5.0 (compatible; Steeler/3.5; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/) User-agent: Steeler User-agent: Microsoft-WebDAV-MiniRedir/6.1.7601 User-agent: Mozilla/5.0 (compatible; Findxbot/1.0; +http://www.findxbot.com) User-agent: Findxbot User-agent: Mozilla/5.0 (compatible; SeznamBot/3.2; +http://fulltext.sblog.cz/) User-agent: SeznamBot User-agent: Seznam User-agent: Mozilla/4.0 (compatible; Vagabondo/4.0; http://webagent.wise-guys.nl/) User-agent: Mozilla/4.0 (compatible; Vagabondo/4.0; webcrawler at wise-guys dot nl; http://webagent.wise-guys.nl/; http://www.wise-guys.nl/) User-agent: Vagabondo User-agent: Jakarta Commons-HttpClient/3.0.1 User-agent: LWP::Simple/5.822 User-agent: Mozilla/5.0 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot) User-agent: SMTBot User-agent: Mozilla/5.0 (compatible; memoryBot/1.22.56 +http://internetmemory.org/en/) User-agent: memoryBot User-agent: Mozilla/5.0 (compatible; smrjbot/0.0.20) User-agent: smrjbot User-agent: Mozilla/5.0 (compatible; spbot/4.4.2; +http://OpenLinkProfiler.org/bot ) User-agent: spbot
Понравился пост?Да НетПонравилось 1, не понравилось 0 |
Расскажите о нас... |
0 комментариев
+ Добавить комментарий