Анализ релевантности текстов по ТОПам и TF*IDF |
||
12:00 1 марта 2016 — Хиврин Николай |
У нас появилось новое приложение для анализа релевантности текста на продвигаемых страницах.
Видео о работе приложения по анализу релевантности текстов:
Новый инструмент отличается от массы уже существующих анализаторов двумя основными технологическими подходами:
1. Сравнение контента Вашей страницы и страниц, которые уже ранжируются в ТОПе по данному запросу
2. Анализ документа по метрике TF*IDF (подробнее о метрике в Wikipedia)
Метрика TF*IDF уже давно является основой определения текстовой релевантности в поисковых системах. Для её подсчета сначала необходимо определить IDF для каждого слова.
IDF (inverse document frequency) — инверсия частоты, с которой определенное слово встречается в большой коллекции документов. В нашем случае эта коллекция состоит из всех страниц, которые обрабатывает наш индексатор. Например, если в коллекции 500 млрд документов, а слово "перевозки" встречается в 5 млрд документов, то значение IDF = log (500 млрд / 5 млрд) = log (100) = 2 (В нашем случае мы берем основание логорифма равное 10)
Таким образом популярные слова, которые встречаются в каждом 10-ом документе и чаще, будут иметь IDF<1.
А слова, которые встречаются в каждом 100-ом документе и реже, будут иметь IDF>2.
Практически все тематики можно охарактеризовать определенными словами с IDF близким к 2.
Значение TF — это отношение числа вхождений определенного слова к числу слов в документе. Например, если в документе 500 слов, а слово "перевозки" встречается 5 раз, то TF = 5 / 500 = 0.01
Как видно из формулы, TF*IDF будет максимально в том случае, если довольно редкие слова будут иметь множество вхождений в документ. По этой причине мы сортирует все слова по убыванию метрики TF*IDF (сверху сразу можно увидеть наиболее значимые слова в тематике).
Список топовых URL системой изначально берется по результатам органического поиска Яндекс в Москве.
Задав URL, который Вы оптимизируете по заданному запросу, приложение позволит наглядно сравнить число вхождений каждого слова. А задав точность сравнения, наглядно покажет цветом все отклонения, красным — меньше, синим — больше:
Также внизу Вы получите рекомендованные доработки по изменению страницы в соответствие в топовыми URL:
Основная задача данного инструмента — это создание сбалансированного текста, который будет включать не только ключевые слова, но и необходимый набор синонимов. Также этот инструментарий поможет выявить определенные слова, которые характеризуют коммерческую составляющую документов из ТОПа, такие как "руб", "калькулятор" и прочее.
Если Вы не задаете URL для сравнения, то приложение просто сформирует техническое задание на копирайт на основе топовых URL.
Весь текст мы разделаем на 4 типа:
1.TITLE документа
2. Анкоры ссылок
3. Короткие пассажи (обычно это заголовки, ячейки таблицы, списки и т.п.)
4. Связанный текст
Успешной оптимизации текста с новым приложением: https://ru.megaindex.com/a/textanalysis
Видео о работе приложения по анализу релевантности текстов:
Новый инструмент отличается от массы уже существующих анализаторов двумя основными технологическими подходами:
1. Сравнение контента Вашей страницы и страниц, которые уже ранжируются в ТОПе по данному запросу
2. Анализ документа по метрике TF*IDF (подробнее о метрике в Wikipedia)
Метрика TF*IDF уже давно является основой определения текстовой релевантности в поисковых системах. Для её подсчета сначала необходимо определить IDF для каждого слова.
IDF (inverse document frequency) — инверсия частоты, с которой определенное слово встречается в большой коллекции документов. В нашем случае эта коллекция состоит из всех страниц, которые обрабатывает наш индексатор. Например, если в коллекции 500 млрд документов, а слово "перевозки" встречается в 5 млрд документов, то значение IDF = log (500 млрд / 5 млрд) = log (100) = 2 (В нашем случае мы берем основание логорифма равное 10)
Таким образом популярные слова, которые встречаются в каждом 10-ом документе и чаще, будут иметь IDF<1.
А слова, которые встречаются в каждом 100-ом документе и реже, будут иметь IDF>2.
Практически все тематики можно охарактеризовать определенными словами с IDF близким к 2.
Значение TF — это отношение числа вхождений определенного слова к числу слов в документе. Например, если в документе 500 слов, а слово "перевозки" встречается 5 раз, то TF = 5 / 500 = 0.01
Как видно из формулы, TF*IDF будет максимально в том случае, если довольно редкие слова будут иметь множество вхождений в документ. По этой причине мы сортирует все слова по убыванию метрики TF*IDF (сверху сразу можно увидеть наиболее значимые слова в тематике).
Список топовых URL системой изначально берется по результатам органического поиска Яндекс в Москве.
Задав URL, который Вы оптимизируете по заданному запросу, приложение позволит наглядно сравнить число вхождений каждого слова. А задав точность сравнения, наглядно покажет цветом все отклонения, красным — меньше, синим — больше:
Также внизу Вы получите рекомендованные доработки по изменению страницы в соответствие в топовыми URL:
Основная задача данного инструмента — это создание сбалансированного текста, который будет включать не только ключевые слова, но и необходимый набор синонимов. Также этот инструментарий поможет выявить определенные слова, которые характеризуют коммерческую составляющую документов из ТОПа, такие как "руб", "калькулятор" и прочее.
Если Вы не задаете URL для сравнения, то приложение просто сформирует техническое задание на копирайт на основе топовых URL.
Весь текст мы разделаем на 4 типа:
1.TITLE документа
2. Анкоры ссылок
3. Короткие пассажи (обычно это заголовки, ячейки таблицы, списки и т.п.)
4. Связанный текст
Успешной оптимизации текста с новым приложением: https://ru.megaindex.com/a/textanalysis
Понравился пост?Да НетПонравилось 0, не понравилось 0 |
Расскажите о нас... |
18 комментариев
+ Добавить комментарийИ по-моему эту не первый сервис, который так и восстановили те косяки, которые были в начале.
Спасибо.
Сравнивается количество вхождение заданного URL и медианные данные по ТОПам по каждому тему контента (TITLE, анкоры, пассажи, текст). Допустимое отклонение задается в процентах, его каждый может установить самостоятельно. Чем точнее, тем ближе будете подгонять документ под ТОПовые URL
Почему изначально не ставить 100% и не подгонять документ под те, которые в ТОП? Вот чего не могу понять.
А будет ли возможность менять регион?