Анализ релевантности текстов по ТОПам и TF*IDF

0 0
12:00 1 марта 2016 — Хиврин Николай
У нас появилось новое приложение для анализа релевантности текста на продвигаемых страницах.



Видео о работе приложения по анализу релевантности текстов:



Новый инструмент отличается от массы уже существующих анализаторов двумя основными технологическими подходами:

1. Сравнение контента Вашей страницы и страниц, которые уже ранжируются в ТОПе по данному запросу
2. Анализ документа по метрике TF*IDF (подробнее о метрике в Wikipedia)

Метрика TF*IDF уже давно является основой определения текстовой релевантности в поисковых системах. Для её подсчета сначала необходимо определить IDF для каждого слова.

IDF (inverse document frequency) — инверсия частоты, с которой определенное слово встречается в большой коллекции документов. В нашем случае эта коллекция состоит из всех страниц, которые обрабатывает наш индексатор. Например, если в коллекции 500 млрд документов, а слово "перевозки" встречается в 5 млрд документов, то значение IDF = log (500 млрд / 5 млрд) = log (100) = 2 (В нашем случае мы берем основание логорифма равное 10)

Таким образом популярные слова, которые встречаются в каждом 10-ом документе и чаще, будут иметь IDF<1.
А слова, которые встречаются в каждом 100-ом документе и реже, будут иметь IDF>2.

Практически все тематики можно охарактеризовать определенными словами с IDF близким к 2.

Значение TF — это отношение числа вхождений определенного слова к числу слов в документе. Например, если в документе 500 слов, а слово "перевозки" встречается 5 раз, то TF = 5 / 500 = 0.01

Как видно из формулы, TF*IDF будет максимально в том случае, если довольно редкие слова будут иметь множество вхождений в документ. По этой причине мы сортирует все слова по убыванию метрики TF*IDF (сверху сразу можно увидеть наиболее значимые слова в тематике).

Список топовых URL системой изначально берется по результатам органического поиска Яндекс в Москве.

Задав URL, который Вы оптимизируете по заданному запросу, приложение позволит наглядно сравнить число вхождений каждого слова. А задав точность сравнения, наглядно покажет цветом все отклонения, красным — меньше, синим — больше:



Также внизу Вы получите рекомендованные доработки по изменению страницы в соответствие в топовыми URL:



Основная задача данного инструмента — это создание сбалансированного текста, который будет включать не только ключевые слова, но и необходимый набор синонимов. Также этот инструментарий поможет выявить определенные слова, которые характеризуют коммерческую составляющую документов из ТОПа, такие как "руб", "калькулятор" и прочее.

Если Вы не задаете URL для сравнения, то приложение просто сформирует техническое задание на копирайт на основе топовых URL.

Весь текст мы разделаем на 4 типа:
1.TITLE документа
2. Анкоры ссылок
3. Короткие пассажи (обычно это заголовки, ячейки таблицы, списки и т.п.)
4. Связанный текст

Успешной оптимизации текста с новым приложением: https://ru.megaindex.com/a/textanalysis

18 комментариев

+ Добавить комментарий
Интересно, а вы дорабатываете потом эти сервисы? Решил воспользоваться недавно анонсированным - Подбор и кластеризация запросов. Так кластеризация не работает. Точнее каким-то образом рассортировал эти запросы, но в группу попали фразы, которые вообще не относятся к группе. Удалить запросы с кол-вом показов меньше - не работает. Выбираю любое число, жму Удалить - страница перезагружается, запросы на месте.
И по-моему эту не первый сервис, который так и восстановили те косяки, которые были в начале.
Кластеризация активно дорабатывается. Попробуйте сейчас, найдете много нового.
Здравствуйте, Николай. Расскажите немного подробнее про точность сравнения. Что с чем сравнивается, на что влияет этот процент, какой лучше брать и почему?
Спасибо.
Добавили видео - http://www.youtube.com/watch?v=u1aOxeLC4e8
Сравнивается количество вхождение заданного URL и медианные данные по ТОПам по каждому тему контента (TITLE, анкоры, пассажи, текст). Допустимое отклонение задается в процентах, его каждый может установить самостоятельно. Чем точнее, тем ближе будете подгонять документ под ТОПовые URL
Установил 20% - есть и красные поля и синие, зеленых гораздо меньше. Установил точность сравнения = 100% красных значений, где мой документ не дотягивает, вообще не показывает. Только зеленый и синий.
Почему изначально не ставить 100% и не подгонять документ под те, которые в ТОП? Вот чего не могу понять.
Отличный сервис. Было бы неплохо добавить возможность сортировать по значениям столбцов в таблице, например по столбцу IDF и иметь возможность сохранить данные таблицы в csv или Excell
Николай, добрый день.
А будет ли возможность менять регион?
Да, планируем добавить
Интересная возможность, составит конкуренцию Акварели. Единственное - было бы удобно указать релевантную страницу с сайта, чтобы посмотреть на разницу в средних/медианных показателях выдачи и страницы
Инструмент интегрируется с модулем ведения проектов, где все будет удобно связано
  • 992829
  • |
  • 16:18 3 марта 2016
Подскажите, слова со страниц страницы берутся полностью из кода, меню, закрытые noindex области так же учитываются?
Недавно Тар говорил, что ориентироваться на BM25 некошерно и это давно устарело, вы говорите, что нужно ориентироваться на TF*IDF, что по сути примерно то же что и BM25, так кто больше прав?
По каким параметрам вы разбиваете блоки страницы? Комментарии, Блоки рекламы попадают в исследуемую часть?
Николай, а каким образом можно увидеть, как поисковик разбил страницу на пассажи?
Николай, подскажите, что означает группа "Ссылки"?
Было бы очень здорово, если бы Вы добавили возможность анализировать текст, на предмет соответствия того или иного запроса. Имеется ввиду текст не с самого сайта, а тот, который пришел от копирайтера.
Добрый день! Объясните пожалуйста по подробнее про пункт пассажи. Часто возникает такая ситуация что размер пассажей в 2-3 раза больше самого текста. Т.е. получается что если в пассажи входят заголовки, списки и т.д. то размер финального текста должен быть суммой размера пассажей и размера текста?
Добрый день! Объясните пожалуйста по подробнее про пункт пассажи. Часто возникает такая ситуация что размер пассажей в 2-3 раза больше самого текста. Т.е. получается что если в пассажи входят заголовки, списки и т.д. то размер финального текста должен быть суммой размера пассажей и размера текста?

Только зарегистрированные пользователи могут добавлять комментарии.