Выявление зеркал в индексе внешних ссылок
15:15 2 ноября 2016 — опубликовал Хиврин Николай
|
При анализе внешних ссылок во всех известных нам продуктах стоит проблема большого числа зеркал популярных ресурсов, что по сути добавляют мусор в отчет по внешним ссылкам.
Мы долго работали над решением этой проблемы и готовы к запуску технологии автоматического поиска зеркал, что позволит очистить наш индекс от бесполезных ссылок.
Выявление зеркал работает на основе алгоритма SimHash. Алгоритм позволяет быстро находить сайты с идентичным контентом. Наш индексатор в автоматическом режиме считает главным зеркалом тот домен, на который стоит подавляющее большинство внешних ссылок.
Подробнее об алгоритме SimHash: http://jmlr.org/proceedings/papers/v33/shrivastava14.pdf
В настоящий момент в базу нашего индекса попала информация только по 10% зеркал, полное обновление базы займет еще около 3 недель.
Сейчас Вы уже можете видеть записи о том, что сайт является зеркалом к основному домену:
Пример отчета по внешним ссылкам — перейти
Мы долго работали над решением этой проблемы и готовы к запуску технологии автоматического поиска зеркал, что позволит очистить наш индекс от бесполезных ссылок.
Выявление зеркал работает на основе алгоритма SimHash. Алгоритм позволяет быстро находить сайты с идентичным контентом. Наш индексатор в автоматическом режиме считает главным зеркалом тот домен, на который стоит подавляющее большинство внешних ссылок.
Подробнее об алгоритме SimHash: http://jmlr.org/proceedings/papers/v33/shrivastava14.pdf
В настоящий момент в базу нашего индекса попала информация только по 10% зеркал, полное обновление базы займет еще около 3 недель.
Сейчас Вы уже можете видеть записи о том, что сайт является зеркалом к основному домену:
Пример отчета по внешним ссылкам — перейти