Модель темы - Topic model
В машинном обучении и обработки естественного языка , тема модель представляет собой тип статистической модели для обнаружения отвлеченные «темы» , которые происходят в наборе документов. Тематическое моделирование - это часто используемый инструмент интеллектуального анализа текста для обнаружения скрытых семантических структур в теле текста. Интуитивно, учитывая, что документ посвящен определенной теме, можно было бы ожидать, что определенные слова будут появляться в документе более или менее часто: «собака» и «кость» будут чаще встречаться в документах о собаках, «кошке» и «мяу». будет фигурировать в документах о кошках, причем «то» и «есть» будут фигурировать в обоих примерно одинаково. Документ обычно затрагивает несколько тем в разных пропорциях; таким образом, в документе, который на 10% посвящен кошкам и 90% - собакам, вероятно, будет примерно в 9 раз больше слов о собаках, чем слов о кошках. «Темы», полученные с помощью методов тематического моделирования, представляют собой группы похожих слов. Тематическая модель фиксирует эту интуицию в математической структуре, которая позволяет исследовать набор документов и на основе статистики слов в каждом обнаруживать, какими могут быть темы и каков баланс тем в каждом документе.
Тематические модели также называются вероятностными тематическими моделями, которые относятся к статистическим алгоритмам для обнаружения скрытых семантических структур обширного тела текста. В век информации количество письменных материалов, с которыми мы сталкиваемся каждый день, просто выходит за рамки наших возможностей обработки. Тематические модели могут помочь организовать и предложить понимание больших коллекций неструктурированных текстов. Первоначально разработанные как инструмент интеллектуального анализа текста, тематические модели использовались для обнаружения поучительных структур в данных, таких как генетическая информация, изображения и сети. У них также есть приложения в других областях, таких как биоинформатика и компьютерное зрение .
История
Ранняя тематическая модель была описана Пападимитриу, Рагхаваном, Тамаки и Вемпалой в 1998 году. Другая, называемая вероятностным скрытым семантическим анализом (PLSA), была создана Томасом Хофманном в 1999 году. Скрытое распределение Дирихле (LDA), возможно, самая распространенная тематическая модель. в настоящее время используется, является обобщением PLSA. Разработанный Дэвидом Блей , Эндрю Нг и Майклом И. Джорданом в 2002 году, LDA вводит разреженные априорные распределения Дирихле вместо распределения темы документа и темы-слова, кодируя интуицию, что документы охватывают небольшое количество тем и что темы часто используют небольшие число слов. Другие тематические модели, как правило, являются расширениями LDA, такими как распределение Pachinko , которое улучшает LDA, моделируя корреляции между темами в дополнение к корреляциям слов, которые составляют темы. Иерархический анализ скрытого дерева ( HLTA ) является альтернативой LDA, который моделирует совместное появление слов с помощью дерева скрытых переменных, а состояния скрытых переменных, которые соответствуют мягким кластерам документов, интерпретируются как темы.
Тематические модели для контекстной информации
Подходы к временной информации включают определение Блоком и Ньюманом временной динамики тем в Пенсильванской газете за 1728–1800 гг. Griffiths & Steyvers использовали тематическое моделирование по выдержкам из журнала PNAS, чтобы определить темы, популярность которых выросла или упала с 1991 по 2001 год, тогда как Ламба и Мадхусушан использовали тематическое моделирование в полнотекстовых исследовательских статьях, взятых из журнала DJLIT за 1981–2018 годы. В области библиотечного дела и информатики Ламба и Мадхусудхан применили тематическое моделирование к различным индийским ресурсам, таким как журнальные статьи и электронные тезисы и ресурсы (ETD). Нельсон анализировал изменение тем с течением времени в Richmond Times-Dispatch, чтобы понять социальные и политические изменения и преемственность в Ричмонде во время Гражданской войны в США . Янг, Торгет и Михалча применили методы тематического моделирования к газетам 1829–2008 годов. Mimno использовал тематическое моделирование с 24 журналами по классической филологии и археологии за 150 лет, чтобы посмотреть, как темы в журналах меняются с течением времени и как журналы становятся более разными или похожими с течением времени.
Инь и др. представила тематическую модель для географически распределенных документов, в которой положения документов объясняются скрытыми областями, которые обнаруживаются во время логического вывода.
Чанг и Блей включили сетевую информацию между связанными документами в реляционную тематическую модель, чтобы смоделировать связи между веб-сайтами.
Модель автор-тема Розен-Цви и др. моделирует темы, связанные с авторами документов, чтобы улучшить обнаружение тем для документов с информацией об авторстве.
HLTA был применен к коллекции недавних исследовательских работ, опубликованных на крупных площадках, посвященных искусственному интеллекту и машинному обучению. Полученная модель называется AI Tree . Полученные темы используются для индексации статей на aipano.cse.ust.hk, чтобы помочь исследователям отслеживать тенденции исследований и определять статьи для чтения , а также помогать организаторам конференций и редакторам журналов определять рецензентов для представленных материалов .
Алгоритмы
На практике исследователи пытаются подогнать соответствующие параметры модели к корпусу данных, используя одну из нескольких эвристик для максимального правдоподобия. Недавний обзор Blei описывает этот набор алгоритмов. Несколько групп исследователей, начиная с Papadimitriou et al. пытались разработать алгоритмы с вероятными гарантиями. Предполагая, что данные действительно были сгенерированы рассматриваемой моделью, они пытаются разработать алгоритмы, которые, вероятно, найдут модель, которая использовалась для создания данных. Используемые здесь методы включают разложение по сингулярным значениям (SVD) и метод моментов . В 2012 году был представлен алгоритм, основанный на неотрицательной матричной факторизации (NMF), который также обобщается на тематические модели с корреляциями между темами.
В 2018 году появился новый подход к тематическим моделям, основанный на блочной стохастической модели.
Тематические модели количественной биомедицины
Тематические модели используются и в других контекстах. Например, появилось использование тематических моделей в исследованиях биологии и биоинформатики. В последнее время для извлечения информации из набора данных геномных образцов рака использовались тематические модели. В этом случае темы - это скрытые биологические переменные, которые необходимо вывести.
Смотрите также
- Явный семантический анализ
- Скрытый семантический анализ
- Скрытое размещение Дирихле
- Иерархический процесс Дирихле
- Неотрицательная матричная факторизация
- Маллет (программный проект)
- Gensim
использованная литература
дальнейшее чтение
- Стейверс, Марк; Гриффитс, Том (2007). «Вероятностные тематические модели» . В Landauer, T .; McNamara, D; Деннис, S .; и другие. (ред.). Справочник по скрытому семантическому анализу (PDF) . Психология Press. ISBN 978-0-8058-5418-3. Архивировано из оригинального (PDF) на 24.06.2013.
- Блей, DM; Лафферти, JD (2009). «Тематические модели» (PDF) .
- Blei, D .; Лафферти, Дж. (2007). «Коррелированная тематическая модель науки ». Анналы прикладной статистики . 1 (1): 17–35. arXiv : 0708.3601 . DOI : 10.1214 / 07-AOAS114 . S2CID 8872108 .
- Мимно, Д. (апрель 2012 г.). «Вычислительная историография: интеллектуальный анализ данных в век классических журналов» (PDF) . Журнал по вычислительной технике и культурному наследию . 5 (1): 1–19. DOI : 10.1145 / 2160165.2160168 . S2CID 12153151 .
- Марвик, Бен (2013). «Открытие новых проблем и противоречий в антропологии с использованием интеллектуального анализа текста, тематического моделирования и анализа содержания микроблогов в социальных сетях» . В Яньчане, Чжао; Юнхуа, Цен (ред.). Интеллектуальный анализ данных приложений с помощью R . Эльзевир. С. 63–93.
- Джокерс, М. 2010 Кто ваш напарник по DH-блогу: поиск совпадений в день блоггеров DH с тематическим моделированием Мэтью Л. Джокерс, опубликовано 19 марта 2010 г.
- Друин, Дж. 2011 Набег на моделирование тем церковного архива Пруста. размещено 17 марта 2011 г.
- Темплтон, C. 2011 Тематическое моделирование в гуманитарных науках: Обзор Технологического института Мэриленда в блоге по гуманитарным наукам. отправлено 1 августа 2011 г.
- Griffiths, T .; Стейверс, М. (2004). «Поиск научных тем» . Труды Национальной академии наук . 101 (Дополнение 1): 5228–35. Bibcode : 2004PNAS..101.5228G . DOI : 10.1073 / pnas.0307752101 . PMC 387300 . PMID 14872004 .
- Ян Т., Торгет и Р. Михалча (2011) Тематическое моделирование в исторических газетах. Материалы 5-го семинара ACL-HLT по языковым технологиям для культурного наследия, социальных и гуманитарных наук . Ассоциация компьютерной лингвистики, Мэдисон, Висконсин. страницы 96–104.
- Блок, С. (январь 2006 г.). «Делать больше с оцифровкой: введение в тематическое моделирование ранних американских источников» . Common-place Интерактивный журнал ранней американской жизни . 6 (2).
- Newman, D .; Блок, С. (март 2006 г.). "Вероятностная тематическая декомпозиция газеты восемнадцатого века" (PDF) . Журнал Американского общества информационных наук и технологий . 57 (5): 753–767. DOI : 10.1002 / asi.20342 .
внешние ссылки
- Мимно, Дэвид. «Тематическая модельная библиография» .
- Бретт, Меган Р. «Тематическое моделирование: базовое введение» . Журнал цифровых гуманитарных наук.
- Тематические модели, применяемые к онлайн-новостям и обзорам Видео презентации Google Tech Talk Элис О о моделировании тем с помощью LDA
- Моделирование науки: динамические тематические модели научных исследований Видео презентации Google Tech Talk Дэвида М. Блея
- Автоматизированные тематические модели в политологии. Видео презентации Брэндона Стюарта на семинаре "Инструменты для текста" , 14 июня 2010 г.
- Шон Грэм, Ян Миллиган и Скотт Вейнгарт «Начало работы с тематическим моделированием и MALLET» . Историк программирования. Архивировано из оригинала на 2014-08-28 . Проверено 29 мая 2014 .
- Блей, Дэвид М. «Вступительный материал и программное обеспечение»
- код , демонстрация - пример использования LDA для моделирования темы