Векторная космическая модель - Vector space model

Модель векторного пространства или векторная модель термина - это алгебраическая модель для представления текстовых документов (и любых объектов в целом) в виде векторов идентификаторов (таких как термины индекса). Он используется в информационной фильтрации , поиска информации , индексации и релевантности рейтинга. Его первое использование было в системе поиска информации SMART .

Определения

Документы и запросы представлены в виде векторов.

Каждому измерению соответствует отдельный термин. Если термин встречается в документе, его значение в векторе не равно нулю. Было разработано несколько различных способов вычисления этих значений, также известных как (термины) веса. Одна из самых известных схем - взвешивание tf-idf (см. Пример ниже).

Определение термина зависит от приложения. Обычно термины представляют собой отдельные слова, ключевые слова или более длинные фразы. Если в качестве терминов выбраны слова, размерность вектора - это количество слов в словаре (количество различных слов, встречающихся в корпусе ).

Векторные операции можно использовать для сравнения документов с запросами.

Приложения

Vector space model.jpg

Значимость рейтинг документов в поиске по ключевому слову можно рассчитать, используя предположение документа Сходства теории, сравнивая отклонения углов между каждым вектором документа и исходным вектором запроса , где запрос представляются в виде вектора с тем же размерностью, что и векторы, представляют другие документы.

На практике проще вычислить косинус угла между векторами, чем сам угол:

Где - пересечение (т.е. скалярное произведение ) векторов документа (d 2 на рисунке справа) и запроса (q на рисунке), это норма вектора d 2 и норма вектора q. Норма вектора вычисляется так:

Используя косинус, сходство между документом d j и запросом q можно рассчитать как:

Поскольку все векторы, рассматриваемые в этой модели, являются неотрицательными по элементам, значение косинуса, равное нулю, означает, что вектор запроса и документа ортогональны и не имеют совпадений (т. Е. Термин запроса не существует в рассматриваемом документе). См. Косинусное подобие для получения дополнительной информации.

Термин частотно-обратно пропорциональный весовой коэффициент частоты документа

В классической модели векторного пространства, предложенной Салтоном , Вонгом и Янгом, веса терминов в векторах документа являются произведениями локальных и глобальных параметров. Эта модель известна как частотно-обратная частотная модель документа . Вектор веса для документа d равен , где

а также

  • частота термина t в документе d (локальный параметр)
  • - обратная частота документа (глобальный параметр). - общее количество документов в наборе документов; - количество документов, содержащих термин t .

Преимущества

Модель векторного пространства имеет следующие преимущества перед стандартной булевой моделью :

  1. Простая модель на основе линейной алгебры
  2. Веса терминов не двоичные
  3. Позволяет вычислять постоянную степень сходства между запросами и документами
  4. Позволяет ранжировать документы в соответствии с их возможной релевантностью
  5. Допускает частичное совпадение

Большинство из этих преимуществ является следствием разницы в плотности представления коллекции документов между логическим подходом и подходом, обратным частотности термина. При использовании логических весов любой документ лежит в вершине n-мерного гиперкуба . Следовательно, возможные представления документов равны, а максимальное евклидово расстояние между парами равно . По мере добавления документов в коллекцию документов область, определяемая вершинами гиперкуба, становится более населенной и, следовательно, более плотной. В отличие от логического типа, когда документ добавляется с использованием весов частот, обратных к частоте, обратные частоты терминов в новом документе уменьшаются, в то время как частота остальных терминов увеличивается. В среднем по мере добавления документов область расположения документов расширяется, регулируя плотность представления всей коллекции. Такое поведение моделирует исходную мотивацию Солтона и его коллег, что коллекция документов, представленная в области с низкой плотностью, может дать лучшие результаты поиска.

Ограничения

Модель векторного пространства имеет следующие ограничения:

  1. Длинные документы плохо представлены, потому что у них плохие значения сходства (небольшое скалярное произведение и большая размерность )
  2. Ключевые слова для поиска должны точно соответствовать условиям документа; подстроки слов могут привести к « ложноположительному совпадению»
  3. Семантическая чувствительность; документы с аналогичным контекстом, но с другим словарем терминов не будут связаны, что приведет к « ложноотрицательному совпадению».
  4. Порядок, в котором термины появляются в документе, теряется в представлении векторного пространства.
  5. Теоретически предполагает, что термины статистически независимы.
  6. Взвешивание интуитивно понятно, но не очень формально.

Однако многие из этих трудностей можно преодолеть за счет интеграции различных инструментов, включая математические методы, такие как разложение по сингулярным числам, и лексические базы данных, такие как WordNet .

Модели, основанные на модели векторного пространства и расширяющие ее

Модели, основанные на модели векторного пространства и расширяющие ее, включают:

Программное обеспечение, реализующее модель векторного пространства

Следующие программные пакеты могут быть интересны тем, кто хочет поэкспериментировать с векторными моделями и реализовать на их основе поисковые сервисы.

Бесплатное программное обеспечение с открытым исходным кодом

дальнейшее чтение

Смотрите также

использованная литература