Определения тематик доноров по LDA

2 0
14:10 11 мая 2016 — Хиврин Николай
Мы внедрили алгоритм LDA для определения тематик доноров ссылок.

Подробнее об алгоритме — https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation

Суть алгоритма лежит в текстовом анализе сайтов или документов, при котором исследуемый сайт сравнивается с заданной коллекцией. В качестве базовой коллекции мы взяли сайты, разбитые по категориям Яндекс Каталога.

Для каждого из исследуемых сайтов рассчитывает тематический вектор, который сравнивается с векторами, посчитанными для сайтов из каждой тематической категории. По самому близкому вектору категории определяется тематика для исследуемого сайта или документа.

Для полного обновления базы внешних ссылок нам потребуется ещё месяц, но уже сейчас данные по размеченным донорам начали появляться в отчетах:




Пример отчета: https://ru.megaindex.com/backlinks/megaindex.ru

Ранее в MegaIndex уже работало определение тематик сайтов на основе поискового ранжирования, однако данный подход значительно расширяет возможности для анализа тематик отдельных документов и сайтов, которые плохо ранжируются в результатах поиска.

Знание о тематиках позволит более точно выявлять SEO-ссылки нашим анализаторам и усовершенствовать алгоритм закупки.

Вы можете протестировать определение тематики на любом URL или тексте в специальном приложении: https://ru.megaindex.com/a/tcategories

Также определение тематики доступно через API:
— по URL (https://ru.megaindex.com/api/catalog/view/12)
— по тексту (https://ru.megaindex.com/api/catalog/view/13)

2 комментария

+ Добавить комментарий
Не пашет вообще...
Что-то по вашей же ссылке с примером megaindex.ru странные тематики - Знакомства, Поиск людей. При этом количество ссылок на скриншоте - 12000, которые ожидают определение тематики, а сейчас показывает - 1362. Интернет каталоги на скриншоте - 588, сейчас - 99. Что такого ужасного произошло за 5 дней?

Только зарегистрированные пользователи могут добавлять комментарии.