Выявление зеркал в индексе внешних ссылок |
||
15:15 2 ноября 2016 — Хиврин Николай |
При анализе внешних ссылок во всех известных нам продуктах стоит проблема большого числа зеркал популярных ресурсов, что по сути добавляют мусор в отчет по внешним ссылкам.
Мы долго работали над решением этой проблемы и готовы к запуску технологии автоматического поиска зеркал, что позволит очистить наш индекс от бесполезных ссылок.
Выявление зеркал работает на основе алгоритма SimHash. Алгоритм позволяет быстро находить сайты с идентичным контентом. Наш индексатор в автоматическом режиме считает главным зеркалом тот домен, на который стоит подавляющее большинство внешних ссылок.
Подробнее об алгоритме SimHash: http://jmlr.org/proceedings/papers/v33/shrivastava14.pdf
В настоящий момент в базу нашего индекса попала информация только по 10% зеркал, полное обновление базы займет еще около 3 недель.
Сейчас Вы уже можете видеть записи о том, что сайт является зеркалом к основному домену:
Пример отчета по внешним ссылкам — перейти
В дальнейшем сайты зеркала будут индексировать в меньшем объеме или вовсе исключены из нашего индекса. В настоящий момент зеркала занимают до 60% нашего индекса. Исключение зеркал позволит нам использовать освобожденные ресурсы для увеличения полноты индекса и увеличение скорости его обновления.
Также это уменьшит нагрузку для серверов, которые отдают нам содержимое сайтов, что плодотворно скажется на всей экосистеме интернета.
Мы долго работали над решением этой проблемы и готовы к запуску технологии автоматического поиска зеркал, что позволит очистить наш индекс от бесполезных ссылок.
Выявление зеркал работает на основе алгоритма SimHash. Алгоритм позволяет быстро находить сайты с идентичным контентом. Наш индексатор в автоматическом режиме считает главным зеркалом тот домен, на который стоит подавляющее большинство внешних ссылок.
Подробнее об алгоритме SimHash: http://jmlr.org/proceedings/papers/v33/shrivastava14.pdf
В настоящий момент в базу нашего индекса попала информация только по 10% зеркал, полное обновление базы займет еще около 3 недель.
Сейчас Вы уже можете видеть записи о том, что сайт является зеркалом к основному домену:
Пример отчета по внешним ссылкам — перейти
В дальнейшем сайты зеркала будут индексировать в меньшем объеме или вовсе исключены из нашего индекса. В настоящий момент зеркала занимают до 60% нашего индекса. Исключение зеркал позволит нам использовать освобожденные ресурсы для увеличения полноты индекса и увеличение скорости его обновления.
Также это уменьшит нагрузку для серверов, которые отдают нам содержимое сайтов, что плодотворно скажется на всей экосистеме интернета.
Понравился пост?Да НетПонравилось 0, не понравилось 0 |
Расскажите о нас... |
0 комментариев
+ Добавить комментарий