Концепция майнинга - Concept mining

Анализ концепций - это деятельность, которая приводит к извлечению концепций из артефактов . Решения задачи обычно включают аспекты искусственного интеллекта и статистики , такие как интеллектуальный анализ данных и текстовый анализ . Поскольку артефакты обычно представляют собой слабо структурированную последовательность слов и других символов (а не понятий), проблема нетривиальна , но она может дать мощное понимание значения, происхождения и сходства документов.

Методы

Традиционно преобразование слов в понятия выполнялось с использованием тезауруса , и для вычислительных методов характерно то же самое. Используемые тезаурусы либо специально созданы для данной задачи, либо уже существующая языковая модель, обычно связанная с WordNet Принстона .

Отображение слов в понятия часто бывает неоднозначным . Обычно каждое слово в данном языке относится к нескольким возможным концепциям. Люди используют контекст для устранения неоднозначности различных значений данного фрагмента текста, когда доступные системы машинного перевода не могут легко вывести контекст.

Однако для целей интеллектуального анализа концепций эти неоднозначности, как правило, менее важны, чем при машинном переводе, поскольку в больших документах неоднозначности имеют тенденцию выравниваться, как и в случае с интеллектуальным анализом текста.

Есть много способов устранения неоднозначности, которые можно использовать. Примерами являются лингвистический анализ текста и использование информации о частоте ассоциации слов и понятий, которая может быть выведена из больших корпусов текста. В последнее время появились методы, основанные на семантическом сходстве между возможными концепциями и контекстом, и они вызвали интерес в научном сообществе.

Приложения

Обнаружение и индексирование похожих документов в больших корпусах

Одним из побочных результатов расчета статистики документа в области концепции, а не домен слово, является то , что понятия образуют естественные древовидные структуры , основанные на hypernymy и меронят и холонят . Эти структуры могут использоваться для генерации простой статистики членства в дереве, которую можно использовать для поиска любого документа в евклидовом концептуальном пространстве . Если размер документа также рассматривается как другое измерение этого пространства, тогда может быть создана чрезвычайно эффективная система индексирования. Этот метод в настоящее время используется в коммерческих целях для поиска аналогичных юридических документов в корпусе из 2,5 миллионов документов.

Кластеризация документов по темам

Стандартные методы числовой кластеризации могут использоваться в «пространстве концепций», как описано выше, для поиска и индексации документов по предполагаемой теме. Они численно намного более эффективны, чем их собратья по интеллектуальному анализу текста , и, как правило, ведут себя более интуитивно, поскольку лучше сопоставляются с мерами сходства, генерируемыми человеком.

Смотрите также

Ссылки

  1. Yuen-Hsien Tseng, Chun-Yen Chang, Shu-Nu Chang Rundgren и Carl-Johan Rundgren, « Mining Concept Maps из новостных историй для измерения гражданской научной грамотности в СМИ », Компьютеры и образование, Vol. 55, No. 1, август 2010 г., стр. 165-177.
  2. Yuen-Hsien Tseng, « Автоматическое создание тезауруса для китайских документов », Журнал Американского общества информационных наук и технологий, Vol. 53, No. 13, ноябрь 2002 г., стр. 1130-1138.
  3. Yuen-Hsien Tseng, « Общие названия для кластеризованных документов », Экспертные системы с приложениями, Vol. 37, No. 3, 15 марта 2010 г., стр. 2247-2254.