tf – idf - tf–idf

В поиске информации , TF-IDF , TF * IDF , или TFIDF , короткий для термина частотного обратной частоты документа , является числовой статистикой , которая призвана отразить , насколько важно слово к документу в коллекции или корпусе . Он часто используется в качестве весового коэффициента при поиске информации, интеллектуальном анализе текста и пользовательском моделировании . Значение tf – idf увеличивается пропорционально тому, сколько раз слово появляется в документе, и компенсируется количеством документов в корпусе, которые содержат это слово, что помогает учесть тот факт, что некоторые слова в целом встречаются чаще. tf – idf - одна из самых популярных сегодня схем взвешивания терминов. Опрос, проведенный в 2015 году, показал, что 83% текстовых рекомендательных систем в электронных библиотеках используют tf – idf.

Варианты схемы взвешивания tf – idf часто используются поисковыми системами в качестве центрального инструмента для оценки и ранжирования релевантности документа с учетом пользовательского запроса . tf – idf может успешно использоваться для фильтрации стоп-слов в различных предметных полях, включая текстовое обобщение и классификацию.

Одна из простейших функций ранжирования вычисляется путем суммирования tf – idf для каждого термина запроса; многие более сложные функции ранжирования являются вариантами этой простой модели.

Мотивации

Частота сроков

Предположим, у нас есть набор текстовых документов на английском языке, и мы хотим ранжировать их по тому, какой документ более соответствует запросу «коричневая корова». Простой способ начать - удалить документы, которые не содержат всех трех слов «the», «brown» и «cow», но при этом остается много документов. Чтобы различать их, мы можем подсчитать, сколько раз каждый термин встречается в каждом документе; количество раз, когда термин встречается в документе, называется частотой его употребления . Однако в случае, когда объем документов сильно различается, часто вносятся корректировки (см. Определение ниже). Первая форма взвешивания терминов была предложена Хансом Петером Луном ( Hans Peter Luhn, 1957), и ее можно резюмировать следующим образом:

Вес термина, который встречается в документе, просто пропорционален частоте использования термина.

Частота обратного документа

Поскольку термин «the» настолько распространен, частота использования термина будет иметь тенденцию неправильно выделять документы, в которых слово «the» используется чаще, без придания достаточного веса более значимым терминам «коричневый» и «корова». Термин «the» не является подходящим ключевым словом для различения релевантных и нерелевантных документов и терминов, в отличие от менее распространенных слов «коричневый» и «корова». Следовательно, включен обратный коэффициент частоты документа, который уменьшает вес терминов, которые очень часто встречаются в наборе документов, и увеличивает вес терминов, которые встречаются редко.

Карен Спэрк Джонс (1972) разработала статистическую интерпретацию специфичности термина, названную обратной частотой документа (idf), которая стала краеугольным камнем взвешивания терминов:

Специфичность термина может быть определена как функция, обратная количеству документов, в которых он встречается.

Определение

Tf – idf - это произведение двух статистических данных, частоты термина и обратной частоты документа . Существуют различные способы определения точных значений обеих статистических данных.
Формула, предназначенная для определения важности ключевого слова или фразы в документе или на веб-странице.

Варианты кратности срока (тс) веса
схема взвешивания	тс вес
двоичный	${\ displaystyle {0,1}}$
сырой счет	${\ displaystyle f_ {t, d}}$
частота сроков	${\ displaystyle f_ {t, d} {\ Bigg /} {\ sum _ {t '\ in d} {f_ {t', d}}}}$
нормализация журнала	${\ displaystyle \ log (1 + f_ {t, d})}$
двойная нормализация 0,5	${\ displaystyle 0,5 + 0,5 \ cdot {\ frac {f_ {t, d}} {\ max _ {\ {t '\ in d \}} {f_ {t', d}}}}}$
двойная нормализация K	${\ displaystyle K + (1-K) {\ frac {f_ {t, d}} {\ max _ {\ {t '\ in d \}} {f_ {t', d}}}}}$

Частота сроков

Частота термина $tf (t, d)$ - частота термина $t$ ,

{\ displaystyle \ mathrm {tf} (t, d) = {\ frac {f_ {t, d}} {\ sum _ {t '\ in d} {f_ {t', d}}}}}

,

где $f t, d$ - это исходное количество термина в документе, т. е. количество раз, когда термин $t$ встречается в документе $d$ . Есть несколько других способов определить частоту использования терминов:

сам исходный счет: $tf (t, d) = f t, d$
Логические «частоты»: $tf (t, d) = 1,$ если $t$ встречается в $d,$ и 0 в противном случае;
Частота термина с поправкой на длину документа: $tf (t, d) = f t, d \div (количество слов в d)$
логарифмически масштабируемая частота: $tf (t, d) = log (1 + f t, d)$ ;
увеличенная частота, чтобы предотвратить предвзятость в сторону более длинных документов, например, необработанная частота, деленная на исходную частоту наиболее часто встречающегося термина в документе:

{\ displaystyle \ mathrm {tf} (t, d) = 0,5 + 0,5 \ cdot {\ frac {f_ {t, d}} {\ max \ {f_ {t ', d}: t' \ in d \} }}}

Частота обратного документа

Варианты обратного веса документа (idf)
схема взвешивания	вес idf ( ) ${\ displaystyle n_ {t} = \| \ {d \ in D: t \ in d \} \|}$
унарный	1
частота обратного документа	${\ displaystyle \ log {\ frac {N} {n_ {t}}} = - \ log {\ frac {n_ {t}} {N}}}$
обратная частота документа гладкая	${\ displaystyle \ log \ left ({\ frac {N} {1 + n_ {t}}} \ right) +1}$
частота обратного документа макс.	${\ displaystyle \ log \ left ({\ frac {\ max _ {\ {t '\ in d \}} n_ {t'}} {1 + n_ {t}}} \ right)}$
вероятностная обратная частота документа	${\ displaystyle \ log {\ гидроразрыва {N-n_ {t}} {n_ {t}}}}$

Частота обратного документа - это мера того, сколько информации предоставляет слово, т. Е. Является ли оно общим или редким во всех документах. Это логарифмически масштабированная обратная доля документов, содержащих слово (полученная путем деления общего количества документов на количество документов, содержащих термин, и последующего логарифма этого частного):

{\ displaystyle \ mathrm {idf} (t, D) = \ log {\ frac {N} {| \ {d \ in D: t \ in d \} |}}}

с участием

${\ displaystyle N}$ : общее количество документов в корпусе ${\ Displaystyle N = {| D |}}$
${\ displaystyle | \ {d \ in D: t \ in d \} |}$ : количество документов, в которых встречается термин (т. е. ). Если термин отсутствует в корпусе, это приведет к делению на ноль. Поэтому обычно знаменатель корректируется на . ${\ displaystyle t}$ ${\ Displaystyle \ mathrm {tf} (т, д) \ neq 0}$ ${\ displaystyle 1+ | \ {d \ in D: t \ in d \} |}$

График различных обратных частотных функций документа: стандартный, гладкий, вероятностный.

Частота термина - обратная частота документа

Тогда tf – idf рассчитывается как

{\ Displaystyle \ mathrm {tfidf} (t, d, D) = \ mathrm {tf} (t, d) \ cdot \ mathrm {idf} (t, D)}

Высокий вес в tf – idf достигается за счет высокой частоты термина (в данном документе) и низкой частоты использования термина во всем наборе документов; поэтому веса имеют тенденцию отфильтровывать общие термины. Поскольку соотношение внутри функции журнала idf всегда больше или равно 1, значение idf (и tf – idf) больше или равно 0. Поскольку термин появляется в большем количестве документов, отношение внутри логарифма приближается к 1 , приближая idf и tf – idf к 0.

Рекомендуемые схемы взвешивания tf – idf
схема взвешивания	вес срока документа	вес термина запроса
1	${\ displaystyle f_ {t, d} \ cdot \ log {\ frac {N} {n_ {t}}}}$	${\ displaystyle \ left (0,5 + 0,5 {\ frac {f_ {t, q}} {\ max _ {t} f_ {t, q}}} \ right) \ cdot \ log {\ frac {N} {n_ {t}}}}$
2	${\ displaystyle \ log (1 + f_ {t, d})}$	${\ displaystyle \ log \ left (1 + {\ frac {N} {n_ {t}}} \ right)}$
3	${\ displaystyle (1+ \ log f_ {t, d}) \ cdot \ log {\ frac {N} {n_ {t}}}}$	${\ displaystyle (1+ \ log f_ {t, q}) \ cdot \ log {\ frac {N} {n_ {t}}}}$

Обоснование idf

Idf был представлен как «специфичность термина» Карен Шперк Джонс в статье 1972 года. Хотя он хорошо зарекомендовал себя в качестве эвристики , его теоретические основы были проблемными в течение как минимум трех десятилетий после этого, и многие исследователи пытались найти для него теоретическое обоснование информации .

Собственное объяснение Спэрка Джонса не предлагало много теории, за исключением связи с законом Ципфа . Были предприняты попытки поставить idf на вероятностную основу путем оценки вероятности того, что данный документ $d$ содержит термин $t$ как относительную частоту документов,

{\ Displaystyle P (t | D) = {\ гидроразрыва {| \ {d \ in D: t \ in d \} |} {N}},}

так что мы можем определить idf как

{\ Displaystyle {\ begin {align} \ mathrm {idf} & = - \ log P (t | D) \\ & = \ log {\ frac {1} {P (t | D)}} \\ & = \ log {\ frac {N} {| \ {d \ in D: t \ in d \} |}} \ end {align}}}

А именно, обратная частота документа является логарифмом «обратной» относительной частоты документа.

Эта вероятностная интерпретация, в свою очередь, принимает ту же форму, что и самоинформация . Однако применение таких теоретико-информационных понятий к проблемам при поиске информации приводит к проблемам при попытке определить соответствующие пространства событий для требуемых распределений вероятностей : необходимо учитывать не только документы, но также запросы и термины.

Связь с теорией информации

Частота термина и обратная частота документа могут быть сформулированы с использованием теории информации ; это помогает понять, почему их продукт имеет значение с точки зрения общего информационного содержания документа. Характерное предположение о распределении состоит в том, что: ${\ Displaystyle р (д, т)}$

{\ Displaystyle p (d | t) = {\ frac {1} {| \ {d \ in D: t \ in d \} |}}}

Это предположение и его последствия, по словам Айзавы: «представляют собой эвристику, которую использует tf-idf».

Вспомните выражение условной энтропии для «случайно выбранного» документа в корпусе, обусловленного тем фактом, что он содержит конкретный термин (и предположим, что все документы имеют равную вероятность быть выбранными, и малость r = вероятности)): ${\ displaystyle D}$ ${\ displaystyle t}$ ${\ displaystyle p}$

{\ displaystyle H ({\ cal {D}} | {\ cal {T}} = t) = - \ sum _ {d} p_ {d | t} \ log p_ {d | t} = - \ log { \ frac {1} {| \ {d \ in D: t \ in d \} |}} = \ log {\ frac {| \ {d \ in D: t \ in d \} |} {| D | }} + \ log | D | = - \ mathrm {idf} (t) + \ log | D |}

В терминах обозначений и являются «случайными величинами», соответствующими соответственно отрисовке документа или термина. Теперь вспомните определение взаимной информации и обратите внимание, что ее можно выразить как ${\ displaystyle {\ cal {D}}}$ ${\ displaystyle {\ cal {T}}}$

{\ displaystyle M ({\ cal {T}}; {\ cal {D}}) = H ({\ cal {D}}) - H ({\ cal {D}} | {\ cal {T}} ) = \ sum _ {t} p_ {t} \ cdot (H ({\ cal {D}}) - H ({\ cal {D}} | W = t)) = \ sum _ {t} p_ { т} \ cdot \ mathrm {idf} (т)}

Последний шаг - расширить безусловную вероятность нарисовать термин относительно (случайного) выбора документа, чтобы получить: ${\ displaystyle p_ {t}}$

{\ displaystyle M ({\ cal {T}}; {\ cal {D}}) = \ sum _ {t, d} p_ {t | d} \ cdot p_ {d} \ cdot \ mathrm {idf} ( t) = \ sum _ {t, d} \ mathrm {tf} (t, d) \ cdot {\ frac {1} {| D |}} \ cdot \ mathrm {idf} (t) = {\ frac { 1} {| D |}} \ sum _ {t, d} \ mathrm {tf} (t, d) \ cdot \ mathrm {idf} (t).}

Это выражение показывает, что суммирование Tf – idf всех возможных терминов и документов восстанавливает взаимную информацию между документами и термином с учетом всех особенностей их совместного распределения. Следовательно, каждый Tf – idf несет «бит информации», прикрепленный к паре документов термин x.

Пример tf – idf

Предположим, что у нас есть таблицы количества терминов в корпусе, состоящем только из двух документов, как указано справа.

Документ 2
Срок	Срок действия
это	1
является	1
Другая	2
пример	3

Документ 1
Срок	Срок действия
это	1
является	1
а	2
образец	1

Расчет tf – idf для термина «это» выполняется следующим образом:

В необработанной форме частоты tf - это просто частота «this» для каждого документа. В каждом документе слово «это» встречается один раз; но поскольку в документе 2 больше слов, его относительная частота меньше.

{\ displaystyle \ mathrm {tf} ({\ mathsf {'' this ''}}, d_ {1}) = {\ frac {1} {5}} = 0,2}

{\ displaystyle \ mathrm {tf} ({\ mathsf {'' this ''}}, d_ {2}) = {\ frac {1} {7}} \ приблизительно 0,14}

Идентификатор idf является постоянным для корпуса и учитывает соотношение документов, содержащих слово «это». В данном случае у нас есть корпус из двух документов, и все они включают слово «это».

{\ displaystyle \ mathrm {idf} ({\ mathsf {'' this ''}}, D) = \ log \ left ({\ frac {2} {2}} \ right) = 0}

Таким образом, tf – idf равно нулю для слова «это», что означает, что это слово не очень информативно, поскольку оно встречается во всех документах.

{\ displaystyle \ mathrm {tfidf} ({\ mathsf {'' this ''}}, d_ {1}, D) = 0,2 \ times 0 = 0}

{\ displaystyle \ mathrm {tfidf} ({\ mathsf {'' this ''}}, d_ {2}, D) = 0,14 \ times 0 = 0}

Слово «пример» более интересно - оно встречается трижды, но только во втором документе:

{\ displaystyle \ mathrm {tf} ({\ mathsf {'' example ''}}, d_ {1}) = {\ frac {0} {5}} = 0}

{\ displaystyle \ mathrm {tf} ({\ mathsf {'' example ''}}, d_ {2}) = {\ frac {3} {7}} \ приблизительно 0,429}

{\ displaystyle \ mathrm {idf} ({\ mathsf {'' example ''}}, D) = \ log \ left ({\ frac {2} {1}} \ right) = 0,301}

Наконец-то,

{\ displaystyle \ mathrm {tfidf} ({\ mathsf {'' example ''}}, d_ {1}, D) = \ mathrm {tf} ({\ mathsf {'' example ''}}, d_ {1 }) \ times \ mathrm {idf} ({\ mathsf {'' example ''}}, D) = 0 \ times 0.301 = 0}

{\ displaystyle \ mathrm {tfidf} ({\ mathsf {'' example ''}}, d_ {2}, D) = \ mathrm {tf} ({\ mathsf {'' example ''}}, d_ {2 }) \ times \ mathrm {idf} ({\ mathsf {'' example ''}}, D) = 0,429 \ times 0,301 \ приблизительно 0,129}

(с использованием логарифма по основанию 10 ).

Вне сроков

Идея tf – idf также применима к объектам, отличным от терминов. В 1998 году понятие idf было применено к цитированию. Авторы утверждали, что «если очень необычная цитата встречается в двух документах, это должно иметь больший вес, чем цитирование, сделанное большим количеством документов». Кроме того, tf – idf применялся к «визуальным словам» с целью сопоставления объектов в видео и целых предложениях. Однако концепция tf – idf не во всех случаях оказалась более эффективной, чем простая схема tf (без idf). Когда к цитированию применялся tf – idf, исследователи не могли найти никаких улучшений по сравнению с простым весом цитирования, в котором не было компонента idf.

Производные

Ряд схем взвешивания членов произошел от tf – idf. Один из них - TF – PDF (Term Frequency * Proportional Document Frequency). TF – PDF был введен в 2001 году в контексте выявления новых тем в СМИ. Компонент PDF измеряет разницу в том, как часто термин встречается в разных доменах. Еще одно производное - TF – IDuF. В TF – IDuF идентификатор idf не рассчитывается на основе корпуса документов, в котором необходимо выполнить поиск или который будет рекомендован. Вместо этого idf рассчитывается для личных коллекций документов пользователей. Авторы сообщают, что TF-IDuF был столь же эффективен, как и tf-idf, но также мог применяться в ситуациях, когда, например, система пользовательского моделирования не имеет доступа к глобальному корпусу документов.

Смотрите также

использованная литература

Salton, G ; Макгилл, MJ (1986). Введение в современный информационный поиск . Макгроу-Хилл . ISBN 978-0-07-054484-0.
Salton, G .; Fox, EA; Ву, Х. (1983). «Расширенный логический поиск информации». Коммуникации ACM . 26 (11): 1022–1036. DOI : 10.1145 / 182.358466 . hdl : 1813/6351 . S2CID 207180535 .
Salton, G .; Бакли, К. (1988). «Термино-взвешивающие подходы в автоматическом поиске текста» (PDF) . Обработка информации и управление . 24 (5): 513–523. DOI : 10.1016 / 0306-4573 (88) 90021-0 . hdl : 1813/6721 .
Wu, HC; Лук, РВП; Вонг, К.Ф.; Квок, KL (2008). «Интерпретация весов терминов TF-IDF как принятие решений по релевантности» . ACM-транзакции в информационных системах . 26 (3): 1. DOI : 10,1145 / 1361684,1361686 . hdl : 10397/10130 . S2CID 18303048 .

Внешние ссылки и рекомендуемая литература

Gensim - это библиотека Python для моделирования векторного пространства, которая включает взвешивание tf – idf.
Анатомия поисковой системы
tf – idf и связанные определения, используемые в Lucene
TfidfTransformer в scikit-learn
Генератор текста в матрицу (TMG) Набор инструментов MATLAB, который может использоваться для различных задач интеллектуального анализа текста (TM), в частности: i) индексирование, ii) поиск, iii) уменьшение размерности, iv) кластеризация, v) классификация. Шаг индексации предлагает пользователю возможность применять локальные и глобальные методы взвешивания, включая tf – idf.
Срок частота объяснила Объяснение термина частоты

Languages

In other projects

tf – idf - tf–idf

СОДЕРЖАНИЕ

Мотивации

Частота сроков

Частота обратного документа

Определение

Частота сроков

Частота обратного документа

Частота термина - обратная частота документа

Обоснование idf

Связь с теорией информации

Пример tf – idf

Вне сроков

Производные

Смотрите также

использованная литература

Внешние ссылки и рекомендуемая литература