Хиврин Николай

Выявление зеркал в индексе внешних ссылок

0 0
15:15 2 ноября 2016 — опубликовал Хиврин Николай
При анализе внешних ссылок во всех известных нам продуктах стоит проблема большого числа зеркал популярных ресурсов, что по сути добавляют мусор в отчет по внешним ссылкам.

Мы долго работали над решением этой проблемы и готовы к запуску технологии автоматического поиска зеркал, что позволит очистить наш индекс от бесполезных ссылок.

Выявление зеркал работает на основе алгоритма SimHash. Алгоритм позволяет быстро находить сайты с идентичным контентом. Наш индексатор в автоматическом режиме считает главным зеркалом тот домен, на который стоит подавляющее большинство внешних ссылок.

Подробнее об алгоритме SimHash: http://jmlr.org/proceedings/papers/v33/shrivastava14.pdf

В настоящий момент в базу нашего индекса попала информация только по 10% зеркал, полное обновление базы займет еще около 3 недель.

Сейчас Вы уже можете видеть записи о том, что сайт является зеркалом к основному домену:


Пример отчета по внешним ссылкам — перейти