TF-IDF в SEO - ВИДЕО

1 0
22:04 11 января 2015 — Угниченко Дмитрий
TF-IDF (TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса.

Алгоритм TF-IDF анализирует только текстовое содержание документов.

Вес слова пропорционален количеству употребления этого слова в документе (TF) и обратно пропорционален частоте употребления слова в других документах коллекции (IDF).

TF

TF означает частоту слова (Term Frequency). Определяет частоту употребления слова. Например, количество вхождений слова в документ по отношению к общему количеству слов в документе. Таким образом, оценивается важность слова в пределах отдельного документа.

Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100).

IDF

IDF означает обратную частоту документа (Inverse Document Frequency). IDF уменьшает вес широко употребляемых слов.

Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000).

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах. Это одна из причин, по которым легко продвигать низкочастотные запросы.

Отношение общего количества документов к количеству документов к коллекции.

TD-IDF видео







Еще:

Как определить релевантность документа поисковому запросу по алгоритму TF-IDF

Проверить TF-IDF и провести анализ текста на основе лидеров поиска органической выдачи онлайн и бесплатно можно используя приложение Анализ текста от MegaIndex.
Ссылка для регистрации — MegaIndex. Ссылка на приложение — Анализ текста.

0 комментариев

+ Добавить комментарий

Только зарегистрированные пользователи могут добавлять комментарии.