Анализ настроений - Sentiment analysis

Анализ настроений (также известный как анализ мнений или ИИ эмоций ) - это использование обработки естественного языка , анализа текста , компьютерной лингвистики и биометрии для систематической идентификации, извлечения, количественной оценки и изучения аффективных состояний и субъективной информации. Анализ настроений широко применяется для озвучивания материалов клиентов, таких как обзоры и ответы на опросы, онлайн и социальные сети, а также медицинские материалы для приложений, которые варьируются от маркетинга до обслуживания клиентов и клинической медицины.

Примеры

Цели и проблемы анализа настроений можно показать на нескольких простых примерах.

Простые случаи

  • Coronet предлагает лучшие линейки круизных лайнеров на целый день.
  • Bertram имеет глубокий V-образный корпус и легко перемещается по морям.
  • Круизные лайнеры 80-х из Флориды в пастельных тонах уродливы.
  • Я не люблю старые круизеры с каютами .

Более интересные примеры

  • Я не люблю круизеры с каютами. ( Обработка отрицания )
  • Ненависть к гидроциклам - не мое. (Отрицание, обратный порядок слов )
  • Иногда я действительно ненавижу RIB . ( Наречие изменяет настроение)
  • Я действительно очень хотел бы выйти на улицу в такую ​​погоду! (Возможно саркастический )
  • Крис Крафт выглядит лучше, чем Известняк. (Два торговых наименования , определить цель отношения сложно).
  • Chris Craft выглядит лучше, чем Limestone, но Limestone демонстрирует мореходные качества и надежность. (Два отношения, два бренда).
  • Фильм поражает множеством тревожных поворотов сюжета. (Отрицательный термин, используемый в определенных областях в положительном смысле).
  • Вы должны увидеть их декадентское десертное меню. (В некоторых областях отношение к терминам отношения изменилось в последнее время)
  • Я люблю свой мобильный телефон, но не рекомендую его никому из моих коллег. (Определенно положительное мнение, трудно категоризировать)
  • На следующей неделе концерт будет правым koide9! («Quoi de neuf?», По-французски «что нового?». Новые термины могут быть очень отношениями, но непостоянны по полярности и часто выходят за рамки известного словаря.)

Типы

Основная задача анализа тональности - это классификация полярности данного текста на уровне документа, предложения или характеристики / аспекта - независимо от того, является ли выраженное мнение в документе, предложении или характеристике / аспекте объекта положительным, отрицательным или нейтральным. Продвинутая классификация настроений «за пределами полярности» рассматривает, например, эмоциональные состояния, такие как удовольствие, гнев, отвращение, печаль, страх и удивление.

Предшественники сентиментального анализа включают General Inquirer, который дает подсказки для количественной оценки закономерностей в тексте и, отдельно, психологическое исследование, которое изучает психологическое состояние человека на основе анализа его вербального поведения.

Впоследствии метод, описанный в патенте Volcani и Fogel, специально рассматривал настроения и идентифицировал отдельные слова и фразы в тексте по разным эмоциональным шкалам. Текущая система, основанная на их работе, под названием EffectCheck, представляет синонимы, которые можно использовать для увеличения или уменьшения уровня вызванных эмоций в каждой шкале.

Многие другие последующие попытки были менее изощренными, с использованием простого полярного взгляда на настроения, от положительного к отрицательному, например, работы Терни и Панга, которые применили разные методы для определения полярности обзоров продуктов и обзоров фильмов соответственно. Эта работа находится на уровне документов. Можно также классифицировать полярность документа по многосторонней шкале, что, в частности, было предпринято Пангом и Снайдером: Панг и Ли расширили основную задачу классификации обзора фильма как положительного или отрицательного, чтобы предсказать звездные рейтинги по 3-балльной шкале. или по 4-звездочной шкале, в то время как Снайдер провел углубленный анализ отзывов о ресторанах, прогнозируя оценки различных аспектов данного ресторана, таких как еда и атмосфера (по пятизвездочной шкале).

Первые шаги к объединению различных подходов - обучающего, лексического, основанного на знаниях и т. Д. - были предприняты на весеннем симпозиуме AAAI 2004 г., на котором лингвисты, информатики и другие заинтересованные исследователи сначала согласовали интересы и предложили общие задачи и наборы контрольных данных для систематические компьютерные исследования аффекта, привлекательности, субъективности и настроения в тексте.

Несмотря на то, что в большинстве методов статистической классификации нейтральный класс игнорируется в предположении, что нейтральные тексты лежат около границы бинарного классификатора, некоторые исследователи предполагают, что, как и в любой проблеме полярности, необходимо идентифицировать три категории. Более того, можно доказать, что определенные классификаторы, такие как максимальная энтропия и SVM, могут выиграть от введения нейтрального класса и повысить общую точность классификации. В принципе, существует два способа работы с нейтральным классом. Либо алгоритм сначала определяет нейтральный язык, отфильтровывает его, а затем оценивает остальные с точки зрения положительных и отрицательных настроений, либо строит трехстороннюю классификацию за один шаг. Этот второй подход часто включает оценку распределения вероятностей по всем категориям (например, наивные байесовские классификаторы, реализованные NLTK ). Использование нейтрального класса и способ его использования зависит от характера данных: если данные четко сгруппированы по нейтральному, отрицательному и положительному языкам, имеет смысл отфильтровать нейтральный язык и сосредоточиться на полярности между положительными и отрицательными настроениями. Если, напротив, данные в основном нейтральны с небольшими отклонениями в сторону положительного и отрицательного аффекта, эта стратегия затруднит четкое различие между двумя полюсами.

Другой метод определения настроения - это использование системы шкалы, при которой словам, обычно ассоциируемым с негативным, нейтральным или позитивным настроением, присваивается соответствующее число по шкале от -10 до +10 (от самого отрицательного до самого положительного). или просто от 0 до положительного верхнего предела, например +4. Это позволяет регулировать тональность данного термина относительно его окружения (обычно на уровне предложения). Когда фрагмент неструктурированного текста анализируется с использованием обработки естественного языка , каждому понятию в указанной среде присваивается оценка, основанная на том, как эмоциональные слова соотносятся с понятием и связанной с ним оценкой. Это позволяет двигаться к более сложному пониманию настроения, потому что теперь можно регулировать значение тональности концепции относительно модификаций, которые могут ее окружать. Например, слова, которые усиливают, ослабляют или отрицают чувство, выраженное концепцией, могут повлиять на его оценку. В качестве альтернативы текстам можно присвоить положительную и отрицательную оценку силы настроения, если цель состоит в том, чтобы определить тональность текста, а не общую полярность и силу текста.

Существуют различные другие типы анализа настроений, такие как анализ настроений на основе аспектов, анализ настроений (положительный, отрицательный, нейтральный), многоязычный анализ настроений и обнаружение эмоций.

Определение субъективности / объективности

Эта задача обычно определяется как классификация данного текста (обычно предложения) на один из двух классов: объективный или субъективный. Иногда эта проблема может быть сложнее классификации полярности. Субъективность слов и фраз может зависеть от их контекста, и объективный документ может содержать субъективные предложения (например, новостная статья, цитирующая мнения людей). Более того, как упоминал Су, результаты во многом зависят от определения субъективности, используемого при аннотировании текстов. Однако Панг показал, что удаление объективных предложений из документа перед классификацией его полярности помогает повысить производительность.

Субъективная и объективная идентификация, возникающие подзадачи анализа настроений для использования синтаксических, семантических функций и знания машинного обучения для идентификации предложения или документа - это факты или мнения. Осведомленность о признании фактов и мнений появилась не недавно, возможно, впервые она была представлена ​​Карбонеллом в Йельском университете в 1979 году.

Термин «цель» относится к инциденту, несущему фактическую информацию.

  • Пример объективного предложения: «Чтобы быть избранным президентом Соединенных Штатов, кандидат должен быть не моложе тридцати пяти лет».

Термин «субъективный» описывает инцидент, содержащий не фактическую информацию в различных формах, например, личное мнение, суждение и прогнозы. Также известные как «частные состояния», упомянутые Quirk et al. В приведенном ниже примере он отражает частное состояние «Мы, американцы». Более того, целевая сущность, прокомментированная мнениями, может принимать несколько форм от материального продукта до нематериальных тематических вопросов, указанных в Liu (2010). Кроме того, Лю (2010) наблюдал три типа отношения: 1) положительное мнение, 2) нейтральное мнение и 3) отрицательное мнение.

  • Пример субъективного предложения: «Нам, американцам, нужно избрать зрелого президента, способного принимать мудрые решения».

Этот анализ представляет собой проблему классификации.

Наборы слов или фраз для каждого класса определены для поиска желаемых шаблонов в неаннотированном тексте. Для субъективного выражения был создан другой список слов. Списки субъективных показателей в словах или фразах были разработаны множеством исследователей в области лингвистики и обработки естественного языка в работе Riloff et al. (2003). Для измерения заданных выражений необходимо создать словарь правил извлечения. На протяжении многих лет при субъективном обнаружении функции извлечения функций прогрессировали от ручного управления функциями в 1999 году до автоматического обучения функций в 2005 году. В настоящее время автоматизированные методы обучения можно разделить на контролируемое и неконтролируемое машинное обучение . Извлечение шаблонов с помощью процесса машинного обучения аннотированного и неаннотированного текста широко изучается академическими исследователями.

Однако исследователи выявили несколько проблем в разработке фиксированных наборов правил для респектабельных выражений. Многие проблемы при разработке правил проистекают из природы текстовой информации. Несколько исследователей признали шесть проблем: 1) метафорические выражения, 2) несоответствия в письмах, 3) контекстно-зависимые, 4) представленные слова с меньшим количеством употреблений, 5) чувствительные ко времени и 6) постоянно растущий объем.

  1. Метафорические выражения. Текст, содержащий метафорическое выражение, может повлиять на производительность при извлечении. Кроме того, метафоры принимают разные формы, что, возможно, способствовало увеличению обнаружения.
  2. Неточности в сочинениях. Для текста, полученного из Интернета, несоответствия в стиле написания целевых текстовых данных связаны с разными жанрами и стилями письма.
  3. Контекстно-зависимый. Классификация может варьироваться в зависимости от субъективности или объективности предыдущих и следующих предложений.
  4. Чувствительный ко времени атрибут. Задача усложняется атрибутом чувствительности ко времени некоторых текстовых данных. Если группа исследователей хочет подтвердить факт в новостях, им требуется больше времени для перекрестной проверки, чем новость устареет.
  5. Ключевые слова с меньшим количеством употреблений.
  6. Постоянно растущий объем. Задача также осложняется огромным объемом текстовых данных. Постоянно растущий характер текстовых данных делает задачу чрезвычайно сложной для исследователей, чтобы выполнить ее вовремя.

Раньше исследования в основном фокусировались на классификации по уровням документов. Однако классификация уровня документа страдает меньшей точностью, поскольку в статье могут использоваться различные типы выражений. Исследования доказательств предполагают набор новостных статей, в которых, как ожидается, будет преобладать объективное выражение, тогда как результаты показывают, что он состоит более чем на 40% из субъективного выражения.

Чтобы преодолеть эти проблемы, исследователи приходят к выводу, что эффективность классификатора зависит от точности обучаемых моделей. Кроме того, обучающиеся получают большие объемы аннотированных обучающих данных, чем те, кто обучен менее комплексным субъективным характеристикам. Однако одним из основных препятствий для выполнения этого типа работы является создание большого набора данных с аннотированными предложениями вручную. Ручной метод аннотации менее предпочтителен, чем автоматическое обучение, по трем причинам:

  1. Вариации в понимании. В задаче ручного аннотирования среди аннотаторов могут возникать разногласия по поводу того, является ли один экземпляр субъективным или объективным из-за двусмысленности языков.
  2. Человеческие ошибки. Ручное аннотирование - это кропотливая задача, для выполнения которой требуется большая концентрация.
  3. Кропотливый. Ручное аннотирование - это кропотливая работа. Рилофф (1996) показывает, что работа одного аннотатора стоит 8 часов для 160 текстов.

Все перечисленные причины могут повлиять на эффективность и результативность субъективной и объективной классификации. Соответственно, были разработаны два метода начальной загрузки для изучения лингвистических паттернов на основе неаннотированных текстовых данных. Оба метода начинаются с нескольких начальных слов и неаннотированных текстовых данных.

  1. Мета-бутстрапирование, разработанное Рилоффом и Джонсом в 1999 году. Уровень первый: создание шаблонов извлечения на основе заранее определенных правил и извлеченных шаблонов по количеству исходных слов, содержащихся в каждом шаблоне. Второй уровень: 5 лучших слов будут отмечены и добавлены в словарь. Повторить.
  2. Василиск ( Б ootstrapping pproach к S emantic L exicon Я nduction с помощью S emantic К nowledge) с помощью Thelen и Riloff. Шаг первый: создание шаблонов извлечения. Шаг второй: перемещение лучших шаблонов из пула образцов в пул слов-кандидатов. Шаг третий: 10 лучших слов будут отмечены и добавлены в словарь. Повторить.

В целом, эти алгоритмы подчеркивают необходимость автоматического распознавания и извлечения образов в субъективных и объективных задачах.

Субъективный и объектный классификаторы могут улучшить сервальные приложения обработки естественного языка. Одним из основных преимуществ классификатора является популяризация процессов принятия решений на основе данных в различных отраслях. По словам Лю, применение субъективной и объективной идентификации было реализовано в бизнесе, рекламе, спорте и социальных науках.

  • Классификация онлайн-обзоров: в сфере бизнеса классификатор помогает компании лучше понимать отзывы о продукте и аргументы, лежащие в основе обзоров.
  • Прогнозирование цен на акции: в финансовой отрасли классификатор помогает модели прогнозирования, обрабатывая вспомогательную информацию из социальных сетей и другую текстовую информацию из Интернета. Предыдущие исследования цен на японские акции, проведенные Dong et.al. указывает, что модель с субъективным и объективным модулем может работать лучше, чем модели без этой части.
  • Анализ социальных сетей.
  • Классификация отзывов студентов.
  • Обобщение документа: классификатор может извлекать целевые комментарии и собирать мнения, сделанные одной конкретной организацией.
  • Сложный ответ на вопрос. Классификатор может анализировать сложные вопросы, классифицируя языковой предмет или объективную и целевую цель. В исследовании Yu et al. (2003) исследователь разработал уровень предложения и документа, сгруппировавший эти части мнения.
  • Доменные приложения.
  • Анализ электронной почты: субъективный и объективный классификатор обнаруживает спам, отслеживая языковые шаблоны с помощью целевых слов.

На основе характеристик / аспектов

Это относится к определению мнений или настроений, выраженных в отношении различных характеристик или аспектов объектов, например сотового телефона, цифровой камеры или банка. Характеристика или аспект - это атрибут или компонент объекта, например экран сотового телефона, услуга ресторана или качество изображения камеры. Преимущество анализа тональности на основе характеристик заключается в возможности улавливать нюансы об объектах, представляющих интерес. Различные функции могут вызывать разные эмоциональные реакции, например, у отеля может быть удобное расположение, но посредственная еда. Эта проблема включает в себя несколько подзадач, например, определение соответствующих сущностей, извлечение их характеристик / аспектов и определение того, является ли мнение, выраженное по каждой характеристике / аспекту, положительным, отрицательным или нейтральным. Автоматическая идентификация функций может выполняться синтаксическими методами, тематическим моделированием или глубоким обучением . Более подробные обсуждения этого уровня анализа настроений можно найти в работе Лю.

Методы и особенности

Существующие подходы к анализу настроений можно разделить на три основные категории: методы, основанные на знаниях, статистические методы и гибридные подходы. Техники, основанные на знаниях, классифицируют текст по категориям аффектов на основе наличия однозначных аффективных слов, таких как счастливый, грустный, испуганный и скучающий. Некоторые базы знаний не только перечисляют слова очевидного аффекта, но также приписывают произвольным словам вероятную «близость» к определенным эмоциям. Статистические методы используют элементы машинного обучения, такие как скрытый семантический анализ , опорные векторные машины , « набор слов », « точечная взаимная информация » для семантической ориентации и глубокое обучение . Более сложные методы пытаются обнаружить носителя сантимента (т. Е. Человека, который поддерживает это аффективное состояние) и цель (т. Е. Сущность, в отношении которой ощущается аффект). Для анализа мнения в контексте и получения характеристики, о которой высказал говорящий, используются грамматические отношения слов. Грамматические отношения зависимости получаются путем глубокого анализа текста. Гибридные подходы используют как машинное обучение, так и элементы представления знаний, такие как онтологии и семантические сети , для выявления семантики, которая выражается тонким образом, например, посредством анализа концепций, которые не передают явным образом релевантную информацию, но которые неявно связаны к другим концепциям, которые это делают.

Программные инструменты с открытым исходным кодом, а также ряд бесплатных и платных инструментов анализа настроений используют машинное обучение , статистику и методы обработки естественного языка для автоматизации анализа настроений в больших коллекциях текстов, включая веб-страницы, онлайн-новости, группы обсуждения в Интернете, онлайн-обзоры и т. Д. веб-блоги и социальные сети. С другой стороны, системы, основанные на знаниях, используют общедоступные ресурсы для извлечения семантической и аффективной информации, связанной с концепциями естественного языка. Система может помочь в аффективном рассуждении на основе здравого смысла . Анализ тональности также может выполняться для визуального контента, например изображений и видео (см. Мультимодальный анализ тональности ). Одним из первых подходов в этом направлении является SentiBank, использующий пару прилагательных существительных для представления визуального контента. Кроме того, подавляющее большинство подходов к классификации настроений опирается на модель набора слов, которая игнорирует контекст, грамматику и даже порядок слов . Подходы, которые анализируют тональность на основе того, как слова составляют значение более длинных фраз, показали лучший результат, но они несут дополнительные накладные расходы на аннотации.

Компонент человеческого анализа необходим в анализе настроений, поскольку автоматизированные системы не могут анализировать исторические тенденции отдельного комментатора или платформы и часто неправильно классифицируются по выраженному ими настроению. Автоматизация влияет примерно на 23% комментариев, которые правильно классифицируются людьми. Однако люди часто не соглашаются, и утверждается, что межчеловеческое соглашение обеспечивает верхнюю границу, которую в конечном итоге могут достичь автоматические классификаторы настроений.

Оценка

В принципе, точность системы анализа настроений зависит от того, насколько хорошо она согласуется с человеческими суждениями. Обычно это измеряется вариативными мерами, основанными на точности и запоминании двух целевых категорий отрицательного и положительного текста. Однако, согласно исследованиям, оценщики-люди обычно соглашаются только в 80% случаев (см. Надежность между оценщиками ). Таким образом, программа, которая достигает 70% точности классификации настроений, работает почти так же хорошо, как и люди, хотя такая точность может показаться не впечатляющей. Если бы программа была «правильной» в 100% случаев, люди все равно не соглашались бы с ней примерно в 20% случаев, поскольку они не согласны с любым ответом.

С другой стороны, компьютерные системы будут делать ошибки, сильно отличающиеся от ошибок, сделанных людьми-оценщиками, и поэтому цифры не совсем сопоставимы. Например, компьютерная система будет иметь проблемы с отрицаниями, преувеличениями, шутками или сарказмом, с которыми обычно легко справиться человеку-читателю: некоторые ошибки, которые делает компьютерная система, будут казаться человеку слишком наивными. В целом, полезность анализа настроений, как это определяется в академических исследованиях, для практических коммерческих задач была поставлена ​​под сомнение, в основном потому, что простая одномерная модель настроения от отрицательного к положительному дает довольно мало действенной информации для клиента, беспокоясь о своих проблемах. влияние публичного дискурса, например, на бренд или корпоративную репутацию.

Чтобы лучше соответствовать потребностям рынка, оценка анализа настроений перешла к более целевым показателям, сформулированным совместно с представителями PR-агентств и профессионалами в области маркетинговых исследований. Например, в наборе оценочных данных RepLab акцент делается не столько на содержании рассматриваемого текста, сколько на его влиянии на репутацию бренда .

Поскольку оценка тональности анализа становится все более и более основанной на задачах, каждая реализация требует отдельной обучающей модели, чтобы получить более точное представление настроения для данного набора данных.

Веб 2.0

Рост социальных сетей, таких как блоги и социальные сети , подогревает интерес к анализу сантиментов. С распространением обзоров, рейтингов, рекомендаций и других форм онлайн-выражения мнения в Интернете превратились в своего рода виртуальную валюту для компаний, которые стремятся продавать свои продукты, выявлять новые возможности и управлять своей репутацией. По мере того, как компании стремятся автоматизировать процесс фильтрации шума, понимания разговоров, определения релевантного контента и соответствующих действий, многие теперь обращаются к анализу настроений. Еще больше усложняет ситуацию рост анонимных социальных сетей, таких как 4chan и Reddit . Если веб 2.0 был направлен на демократизацию публикации, то следующий этап Интернета вполне может быть основан на демократизации интеллектуального анализа данных всего публикуемого контента.

Один шаг к этой цели делается в исследованиях. Несколько исследовательских групп в университетах по всему миру в настоящее время сосредоточены на понимании динамики настроений в электронных сообществах с помощью анализа настроений. Проект CyberEmotions , например, недавно определил роль негативных эмоций в продвижении социальных сетей дискуссии.

Проблема в том, что большинство алгоритмов анализа настроений используют простые термины, чтобы выразить мнение о продукте или услуге. Однако культурные факторы, лингвистические нюансы и разные контексты чрезвычайно затрудняют превращение строки письменного текста в простое за или против. Тот факт, что люди часто расходятся во мнениях относительно тональности текста, показывает, насколько велика задача для компьютеров, чтобы понять это правильно. Чем короче строка текста, тем сложнее она становится.

Несмотря на то, что короткие текстовые строки могут быть проблемой, анализ настроений в рамках микроблогов показал, что Twitter можно рассматривать как действительный онлайн-индикатор политических настроений. Политические настроения твитов демонстрируют близкое соответствие политическим позициям партий и политиков, указывая на то, что содержание сообщений Твиттера достоверно отражает политический ландшафт офлайн. Кроме того, было показано , что анализ настроений в Твиттере отражает общественное настроение, стоящее за репродуктивными циклами человека во всем мире, а также другие проблемы, имеющие значение для общественного здравоохранения, такие как побочные реакции на лекарства.

В то время как анализ настроений был популярен для областей, в которых авторы выражают свое мнение довольно явно («фильм потрясающий»), таких как социальные сети и обзоры продуктов, только недавно были разработаны надежные методы для других областей, где настроения являются явно неявными или косвенными. Например, в новостных статьях - в основном из-за ожидаемой журналистской объективности - журналисты часто описывают действия или события, а не прямо заявляют полярность информации. Ранние подходы с использованием словарей или неглубоких функций машинного обучения страдали от невозможности уловить «смысл между строк», но недавно исследователи предложили подход на основе глубокого обучения и набор данных, чтобы иметь возможность анализировать настроения в новостных статьях.

Применение в рекомендательных системах

Для рекомендательной системы анализ тональности оказался ценным методом. Система рекомендаций направлена ​​на прогнозирование предпочтения элемента целевого пользователя. Основные рекомендательные системы работают с явным набором данных. Например, совместная фильтрация работает с оценочной матрицей, а фильтрация на основе содержимого работает с метаданными элементов.

Во многих социальных сетях или на веб- сайтах электронной коммерции пользователи могут предоставлять текстовый обзор, комментарии или отзывы о товарах. Этот текст, созданный пользователями, является богатым источником мнений пользователей о многочисленных продуктах и ​​предметах. Потенциально для элемента такой текст может раскрыть как связанные функции / аспекты элемента, так и мнения пользователей по каждой функции. Характеристики / аспекты элемента, описанные в тексте, играют ту же роль с метаданными в контентной фильтрации , но первые более ценны для рекомендательной системы. Поскольку эти функции широко упоминаются пользователями в их обзорах, их можно рассматривать как наиболее важные функции, которые могут значительно повлиять на восприятие пользователем товара, в то время как метаданные товара (обычно предоставляемые производителями, а не потребителями) может игнорировать функции, которые беспокоят пользователей. К разным предметам с общими характеристиками пользователь может относиться по-разному. Кроме того, функция одного и того же элемента может получать разные мнения от разных пользователей. Мнение пользователей о функциях можно рассматривать как многомерный рейтинг, отражающий их предпочтения по элементам.

На основе характеристик / аспектов и настроений, извлеченных из пользовательского текста, может быть построена гибридная рекомендательная система. Есть два типа мотивации порекомендовать элемент кандидата пользователю. Первая мотивация состоит в том, что предмет-кандидат имеет множество общих черт с предметами, предпочитаемыми пользователем, а вторая мотивация заключается в том, что предмет-кандидат получает высокую оценку своих характеристик. Для предпочтительного элемента разумно полагать, что элементы с одинаковыми функциями будут иметь аналогичную функцию или полезность. Таким образом, эти предметы также, вероятно, будут предпочтительнее для пользователя. С другой стороны, для общей характеристики двух элементов-кандидатов другие пользователи могут дать положительный отзыв одному из них, а другому - отрицательно. Ясно, что пользователю следует рекомендовать предмет с высокой оценкой. На основе этих двух мотивов для каждого элемента-кандидата может быть построена комбинация рейтингового балла сходства и рейтинга настроений.

За исключением сложности самого анализа настроений, применение анализа настроений к отзывам или отзывам также сталкивается с проблемой спама и предвзятых отзывов. Одно направление работы сосредоточено на оценке полезности каждого обзора. Плохо написанный отзыв или отзыв вряд ли поможет системе рекомендаций. Кроме того, обзор может быть направлен на то, чтобы препятствовать продажам целевого продукта и, таким образом, нанести вред рекомендательной системе, даже если она хорошо написана.

Исследователи также обнаружили, что длинные и короткие формы текста, создаваемого пользователем, следует рассматривать по-разному. Интересный результат показывает, что краткие обзоры иногда более полезны, чем длинные, потому что в кратком тексте легче отфильтровать шум. Для длинного текста увеличивающаяся длина текста не всегда приводит к пропорциональному увеличению количества функций или настроений в тексте.

Ламба и Мадхусудхан представляют новый способ удовлетворить информационные потребности сегодняшних пользователей библиотеки, переупаковывая результаты анализа настроений платформ социальных сетей, таких как Twitter, и предоставляя их в виде консолидированной временной службы в различных форматах. Кроме того, они предлагают новый способ проведения маркетинга в библиотеках с использованием анализа социальных сетей и анализа настроений.

Смотрите также

использованная литература