Создание сервиса определения тематики сайта

1 0
09:01 28 мая 2013 — Осин Иван
На данный момент открытых сервисов определения тематики сайта довольно мало и работают они мягко говоря довольно слабо.

Определение тематики сайта, страницы сайта и просто текста довольно актуальная задача, с которой в той или иной степени справляются сейчас только поисковые системы и крупные биржи покупки ссылок.

Есть идея написания сервиса, который определяет тематику сайта используя выдачу поисковых систем.

Алгоритм примерно такой: сначала по плотности отбираются ключевые слова со страницы сайта, отбрасывая общие слова, предлоги и тд.
например для страницы megaindex.org получились следующие ключевики:
статью
опубликовал
megaindex
читать
iphone
android
яндекс
услуги
seo
конференции
хиврин
николай
комментария
стоимость
google
реклама
остров
подарки
сайтов
количество
комментариев
дежурный
рынку
rtb
контекстная
тематики
получить
ничего
продвижение
конференция
видеозапись
пользователей
бесплатная
грузоперевозки
острова
менеджер
услуга
интернет
программы
топэксперт

Далее в поисковую систему вводятся запросы вида:
(статью | опубликовал)
(опубликовал | megaindex)
(google | реклама)
(грузоперевозки | острова)
(программы | топэксперт)
и тд…

в итоге получается вектор из сайтов, например первые топ20, тематику которых можно определить очень легко, имея спарсенную базу данных каталогов яндекса, дмоза, маила и liveinternet.
при сложении весов тематик этого вектора можно довольно точно определить тематику сайта, все левые тематики отпадут, такие как грузоперевозки например.

9 комментариев

+ Добавить комментарий
А что мешает любым подборщиком определять вч запрос для сайта и смотреть тематику сайтов из топ 10 по нему?
Общие слова могут быть ВЧ запросами, но если их ввести вместе с узкотематичными ВЧ то покажутся сайты относящиеся больше к тематике узкотематичного слова, тем самым общие слова исключаются. Еще с помощью спец. символов можно найти взаимосвязь двух ключевых слов, общую тематику, которая их объединяет
ок, а если с сайтами из топ 10 по определенному тем же гуглом ВЧ постфактум найти соответствия по контенту, у кого больше совпадений того и тема нашему сайту присваивается.
ну попробуй, каким образом соответствие контента будешь делать? какой алгоритм?
ну например : "Алгоритм примерно такой: сначала по плотности отбираются ключевые слова со страницы сайта, отбрасывая общие слова, предлоги и тд...."))) и смотрим соответствие с массивом ключевиков на сайтах из топ 10
допустим у тебя получилось 50 ключевиков на сайте, по каждому смотришь топ10, тоесть 500 сайтов тебе надо потом спарсить, отобрать у них по плотности слова, и потом только по какому то алгоритму сравнить. Трудоемко наверно получается.
зачем 50? достаточно трех неоднокоренных вч. При наличии норм функционала, результат будет через несколько секунд.
трех маловато будет, ну попробуй посмотрим качество
мне это не надо, я просто тебе предложил, как альтернативу.

Только зарегистрированные пользователи могут добавлять комментарии.