Создание сервиса определения тематики сайта |
||
09:01 28 мая 2013 — Осин Иван |
На данный момент открытых сервисов определения тематики сайта довольно мало и работают они мягко говоря довольно слабо.
Определение тематики сайта, страницы сайта и просто текста довольно актуальная задача, с которой в той или иной степени справляются сейчас только поисковые системы и крупные биржи покупки ссылок.
Есть идея написания сервиса, который определяет тематику сайта используя выдачу поисковых систем.
Алгоритм примерно такой: сначала по плотности отбираются ключевые слова со страницы сайта, отбрасывая общие слова, предлоги и тд.
например для страницы megaindex.org получились следующие ключевики:
статью
опубликовал
megaindex
читать
iphone
android
яндекс
услуги
seo
конференции
хиврин
николай
комментария
стоимость
google
реклама
остров
подарки
сайтов
количество
комментариев
дежурный
рынку
rtb
контекстная
тематики
получить
ничего
продвижение
конференция
видеозапись
пользователей
бесплатная
грузоперевозки
острова
менеджер
услуга
интернет
программы
топэксперт
Далее в поисковую систему вводятся запросы вида:
(статью | опубликовал)
(опубликовал | megaindex)
(google | реклама)
(грузоперевозки | острова)
(программы | топэксперт)
и тд…
в итоге получается вектор из сайтов, например первые топ20, тематику которых можно определить очень легко, имея спарсенную базу данных каталогов яндекса, дмоза, маила и liveinternet.
при сложении весов тематик этого вектора можно довольно точно определить тематику сайта, все левые тематики отпадут, такие как грузоперевозки например.
Определение тематики сайта, страницы сайта и просто текста довольно актуальная задача, с которой в той или иной степени справляются сейчас только поисковые системы и крупные биржи покупки ссылок.
Есть идея написания сервиса, который определяет тематику сайта используя выдачу поисковых систем.
Алгоритм примерно такой: сначала по плотности отбираются ключевые слова со страницы сайта, отбрасывая общие слова, предлоги и тд.
например для страницы megaindex.org получились следующие ключевики:
статью
опубликовал
megaindex
читать
iphone
android
яндекс
услуги
seo
конференции
хиврин
николай
комментария
стоимость
реклама
остров
подарки
сайтов
количество
комментариев
дежурный
рынку
rtb
контекстная
тематики
получить
ничего
продвижение
конференция
видеозапись
пользователей
бесплатная
грузоперевозки
острова
менеджер
услуга
интернет
программы
топэксперт
Далее в поисковую систему вводятся запросы вида:
(статью | опубликовал)
(опубликовал | megaindex)
(google | реклама)
(грузоперевозки | острова)
(программы | топэксперт)
и тд…
в итоге получается вектор из сайтов, например первые топ20, тематику которых можно определить очень легко, имея спарсенную базу данных каталогов яндекса, дмоза, маила и liveinternet.
при сложении весов тематик этого вектора можно довольно точно определить тематику сайта, все левые тематики отпадут, такие как грузоперевозки например.
Понравился пост?Да НетПонравилось 1, не понравилось 0 |
Расскажите о нас... |
9 комментариев
+ Добавить комментарий