TF-IDF в SEO - ВИДЕО |
||
22:04 11 января 2015 — Угниченко Дмитрий |
TF-IDF (TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса.
Алгоритм TF-IDF анализирует только текстовое содержание документов.
Вес слова пропорционален количеству употребления этого слова в документе (TF) и обратно пропорционален частоте употребления слова в других документах коллекции (IDF).
Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100).
Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000).
Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах. Это одна из причин, по которым легко продвигать низкочастотные запросы.
Отношение общего количества документов к количеству документов к коллекции.
Еще:
Ссылка для регистрации — MegaIndex. Ссылка на приложение — Анализ текста.
Алгоритм TF-IDF анализирует только текстовое содержание документов.
Вес слова пропорционален количеству употребления этого слова в документе (TF) и обратно пропорционален частоте употребления слова в других документах коллекции (IDF).
TF
TF означает частоту слова (Term Frequency). Определяет частоту употребления слова. Например, количество вхождений слова в документ по отношению к общему количеству слов в документе. Таким образом, оценивается важность слова в пределах отдельного документа.Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100).
IDF
IDF означает обратную частоту документа (Inverse Document Frequency). IDF уменьшает вес широко употребляемых слов.Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000).
Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах. Это одна из причин, по которым легко продвигать низкочастотные запросы.
Отношение общего количества документов к количеству документов к коллекции.
TD-IDF видео
Еще:
- BM25 (SEO): Как определить релевантность документа поисковому запросу по алгоритму BM25 (ВИДЕО);
- Закон Ципфа (SEO): Как определить релевантность документа поисковому запросу по закону Ципфа (ВИДЕО).
Как определить релевантность документа поисковому запросу по алгоритму TF-IDF
Проверить TF-IDF и провести анализ текста на основе лидеров поиска органической выдачи онлайн и бесплатно можно используя приложение Анализ текста от MegaIndex.Ссылка для регистрации — MegaIndex. Ссылка на приложение — Анализ текста.
Понравился пост?Да НетПонравилось 1, не понравилось 0 |
Расскажите о нас... |
0 комментариев
+ Добавить комментарий