Поисковые роботы, индексаторы, боты, краулеры и пауки

1 0
01:18 9 февраля 2015 — Угниченко Дмитрий
Поисковые роботы, индексаторы, боты, краулеры и пауки

Список всех поисковых роботов, индексаторов, ботов, краулеров и пауков

Поисковыми роботами принято называть любые программы (такие как роботы или пауки), которые автоматически обнаруживают и сканируют веб-сайты, переходя по ссылкам от страницы к странице. Ниже список всех основных поисковых роботов Google и Yandex. Зная их по именам появляется возможность настроить файл сайта с рекомендациями поисковым системам по индексации robots.txt более тонко.

Закрыть доступ к сайту роботам, краулерам и паукам

При использовании сателлитов рекомендуется ограничить доступ сторонним сервисам к сайту.

Закрыть доступ к сайту на Wordpress можно используя специальный плагин под названием Spider Blocker. Ссылка — Spider Blocker.

Рекомендованное по теме на сайте сайте социальной сети интернет-специалистов — Сателлиты и сетки сайтов в SEO — ВИДЕО.

Поисковые роботы, индексаторы, боты, краулеры и пауки Google

Поисковый робот
Робот Googlebot (веб-поиск Google)Googlebot
Агенты пользователя
Googlebot
Агент пользователя в запросах HTTP(S)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
или
(редко используется) Googlebot/2.1 (+http://www.google.com/bot.html)

Поисковый робот
Googlebot News
Агенты пользователя
Googlebot-News (Googlebot)
Агент пользователя в запросах HTTP(S)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
или
(редко используется) Googlebot/2.1 (+http://www.google.com/bot.html)

Поисковый робот
Googlebot Images
Агенты пользователя
Googlebot-Image (Googlebot)
Агент пользователя в запросах HTTP(S)
Googlebot-Image/1.0

Поисковый робот
Googlebot Video
Агенты пользователя
Googlebot-Video (Googlebot)
Агент пользователя в запросах HTTP(S)
Googlebot-Video/1.0

Поисковый робот
Google Mobile
Агенты пользователя
Googlebot-Mobile
Агент пользователя в запросах HTTP(S)
[различные типы мобильных устройств] (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Поисковый робот
Google Mobile AdSense
Агенты пользователя
Mediapartners-Google
или
Mediapartners (Googlebot)
Агент пользователя в запросах HTTP(S)
[различные типы мобильных устройств] (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Поисковый робот
Google AdSense
Агенты пользователя
Mediapartners-Google
Mediapartners
(Googlebot) или Mediapartners-Google
Агент пользователя в запросах HTTP(S)
Mediapartners-Google

Поисковый робот
Проверка качества целевой страницы Google AdsBot
Агенты пользователя
AdsBot-Google
Агент пользователя в запросах HTTP(S)
AdsBot-Google (+http://www.google.com/adsbot.html)

Список доступен по ссылке https://support.google.com/webmasters/answer/1061943?hl=ru

Поисковые роботы индексаторы/боты/краулеры/пауки Yandex

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основной индексирующий робот;
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — индексатор Яндекс.Картинок;
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) — индексатор Яндекс.Видео;
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — робот, индексирующий мультимедийные данные;
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) — робот поиска по блогам, индексирующий комментарии постов;
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)— робот, индексирующий пиктограммы сайтов (favicons);
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)— робот сервиса Яндекс.Вебмастер;
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)— робот, обращающийся к странице при валидации микроразметки через форму Валидатор микроразметки;
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) — робот мобильных сервисов;
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) — робот Яндекс.Директа, особым образом интерпретирует robots.txt;
Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel; +http://yandex.com/bots) — «простукивалка» Яндекс.Директа, проверяет корректность ссылок из объявлений перед модерацией;
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) — «простукивалка» быстрых ссылок, используется для проверки доступности страниц, определившихся в качестве быстрых ссылок;
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) — робот Рекламной сети Яндекса;
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) — робот Яндекс.Метрики;
Mozilla/5.0 (compatible; YandexNews/3.0; +http://yandex.com/bots) — робот Яндекс.Новостей;
Mozilla/5.0 (compatible; YandexNewslinks; +http://yandex.com/bots) — «простукивалка» Яндекс.Новостей, используется для проверки ссылок из новостных материалов;
Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
Mozilla/5.0 (compatible; YandexAntivirus/2.0; +http://yandex.com/bots) — антивирусный робот, который проверяет страницы на наличие опасного кода;
Mozilla/5.0 (compatible; YandexZakladki/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Закладок, используется для проверки доступности страниц, добавленных в закладки;
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) — робот Яндекс.Маркета;
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) — робот поисковых вертикалей;
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) — робот Яндекс.Календаря, используется для синхронизации с другими календарями, особым образом интерпретирует robots.txt.
Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) — Робот почты для домена, используется при проверке прав на владение доменом.

Список доступен по ссылке http://help.yandex.com/search/robots/logs.xml

Для чего это нужно знать. Например, если нужно запретить индексацию изображений раздела сайта, но разрешить индексацию текстов. На практике это выглядит так.

robots.txt:
User-agent: Yandex
Disallow:

User-agent: YandexImages
Disallow: /раздел/
Проверить robots.txt можно в «MegaIndex Аудит» по ссылке http://audit.megaindex.ru/audit/site_param/

Регистрируйтесь сейчас и пользуйтесь проверкой файла robots.txt бесплатно.
Ссылка для регистрации: бесплатная регистрация.

Список ботов

Рекомендуется ограничить доступ к сайту следующим ботам

User-agent: 008
User-agent: crawler4j
User-agent: crawler4j (http://code.google.com/p/crawler4j/)
User-agent: Curious George - www.analyticsseo.com/crawler
User-agent: Curious George - www.analyticsseo.com
User-agent: Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)
User-agent: MJ12
User-agent: Mozilla/5.0 (compatible; Steeler/3.5; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
User-agent: Steeler
User-agent: Microsoft-WebDAV-MiniRedir/6.1.7601
User-agent: Mozilla/5.0 (compatible; Findxbot/1.0; +http://www.findxbot.com)
User-agent: Findxbot
User-agent: Mozilla/5.0 (compatible; SeznamBot/3.2; +http://fulltext.sblog.cz/)
User-agent: SeznamBot
User-agent: Seznam
User-agent: Mozilla/4.0 (compatible;  Vagabondo/4.0; http://webagent.wise-guys.nl/)
User-agent: Mozilla/4.0 (compatible;  Vagabondo/4.0; webcrawler at wise-guys dot nl; http://webagent.wise-guys.nl/; http://www.wise-guys.nl/)
User-agent: Vagabondo
User-agent: Jakarta Commons-HttpClient/3.0.1
User-agent: LWP::Simple/5.822
User-agent: Mozilla/5.0 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)
User-agent: SMTBot
User-agent: Mozilla/5.0 (compatible; memoryBot/1.22.56 +http://internetmemory.org/en/)
User-agent: memoryBot
User-agent: Mozilla/5.0 (compatible; smrjbot/0.0.20)
User-agent: smrjbot
User-agent: Mozilla/5.0 (compatible; spbot/4.4.2; +http://OpenLinkProfiler.org/bot )
User-agent: spbot

0 комментариев

+ Добавить комментарий

Только зарегистрированные пользователи могут добавлять комментарии.