Классификация документов - Document classification

Классификация документов или категоризация документов - проблема библиотечного дела , информатики и информатики . Задача - отнести документ к одному или нескольким классам или категориям . Это может быть сделано «вручную» (или «интеллектуально») или алгоритмически . Интеллектуальная классификация документов в основном относится к области библиотековедения, а алгоритмическая классификация документов - в области информатики и информатики. Однако проблемы частично совпадают, и поэтому существует междисциплинарное исследование классификации документов.

Классифицируемыми документами могут быть тексты, изображения, музыка и т. Д. Каждый вид документа имеет свои особые проблемы классификации. Если не указано иное, подразумевается классификация текста.

Документы можно классифицировать по тематике или другим атрибутам (например, по типу документа, автору, году печати и т. Д.). В остальной части статьи рассматривается только предметная классификация. Существует две основных философии предметной классификации документов: подход, основанный на содержании и подход, основанный на запросах.

Классификация "на основе содержания" и "на основе запроса"

Классификация на основе содержимого - это классификация, в которой вес, присвоенный конкретным темам в документе, определяет класс, которому присвоен документ. Например, обычным правилом классификации в библиотеках является то, что не менее 20% содержания книги должно относиться к тому классу, к которому книга отнесена. При автоматической классификации это может быть количество раз, когда данное слово встречается в документе.

Классификация, ориентированная на запросы (или -индексирование) - это классификация, в которой ожидаемый запрос от пользователей влияет на то, как классифицируются документы. Классификатор спрашивает себя: «По каким дескрипторам следует искать эту сущность?» и «подумайте обо всех возможных запросах и решите, для каких из них актуальна данная сущность» (Soergel, 1985, p. 230).

Классификация, ориентированная на запросы, может быть классификацией, нацеленной на конкретную аудиторию или группу пользователей. Например, библиотека или база данных для феминистских исследований может классифицировать / индексировать документы иначе, чем историческая библиотека. Однако, вероятно, лучше понимать классификацию, ориентированную на запросы, как классификацию, основанную на политике : классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно разновидность классификации или индексации, основанной на исследованиях пользователей. Только в том случае, если применяются эмпирические данные об использовании или пользователях, следует рассматривать классификацию, ориентированную на запросы, как подход, основанный на пользователях.

Классификация против индексации

Иногда проводится различие между отнесением документов к классам («классификация») и присвоением предметов документам (« предметное индексирование »), но, как утверждал Фредерик Уилфрид Ланкастер , это различие не приносит результатов. «Эти терминологические различия, - пишет он, - совершенно бессмысленны и служат лишь для того, чтобы вызвать путаницу» (Lancaster, 2003, стр. 21). Мнение о том, что это различие является чисто поверхностным, также подтверждается тем фактом, что система классификации может быть преобразован в тезаурус, и наоборот (см. Aitchison, 1986, 2004; Broughton, 2008; Riesthuis & Bliedung, 1991). Таким образом, действие маркировки документа (скажем, присвоение документа документу термина из контролируемого словаря ) в то же время присвоить этот документ классу документов, проиндексированных этим термином (все документы, проиндексированные или классифицированные как X, принадлежат к одному и тому же классу документов). Другими словами, пометить документ так же, как присвоить его класс документов, индексированных под этим ярлыком.

Автоматическая классификация документов (ADC)

Задачи автоматической классификации документов можно разделить на три вида: контролируемая классификация документов, когда некоторый внешний механизм (например, обратная связь с людьми) предоставляет информацию о правильной классификации документов, неконтролируемая классификация документов (также известная как кластеризация документов ), где классификация должна выполняться полностью без ссылки на внешнюю информацию и частично контролируемую классификацию документов , когда части документов маркируются внешним механизмом. Доступно несколько программных продуктов с различными моделями лицензий.

Методы

К методам автоматической классификации документов относятся:

Приложения

Методы классификации были применены к

  • фильтрация спама , процесс, который пытается отличить спам- сообщения электронной почты от законных писем.
  • маршрутизация электронной почты , отправка электронного письма, отправленного на общий адрес, на определенный адрес или почтовый ящик в зависимости от темы
  • идентификация языка , автоматическое определение языка текста
  • жанровая классификация с автоматическим определением жанра текста
  • оценка читабельности , автоматически определяющая степень читабельности текста, для поиска подходящих материалов для разных возрастных групп или типов читателей или как часть более крупной системы упрощения текста
  • анализ настроений , определение отношения докладчика или писателя к какой-либо теме или общей контекстной полярности документа.
  • классификация, связанная со здоровьем, с использованием социальных сетей в надзоре за общественным здоровьем
  • сортировка статей, выбор статей, релевантных для ручного подбора литературы, например, как это делается в качестве первого шага для создания вручную отобранных баз данных аннотаций в биологии
  • обнаружение юмора , автоматически определяющее, следует ли серьезно относиться к данному короткому тексту, с вариантами использования в чат-ботах и ​​личных помощниках.

Смотрите также

дальнейшее чтение

использованная литература

внешние ссылки