Восприятие речи - Speech perception

Восприятие речи - это процесс, с помощью которого звуки языка слышатся, интерпретируются и понимаются. Изучение восприятия речи тесно связано с областями фонологии и фонетики в лингвистике и когнитивной психологии и восприятия в психологии . Исследования восприятия речи направлены на то, чтобы понять, как слушатели распознают звуки речи, и использовать эту информацию для понимания устной речи. Исследования восприятия речи находят применение в создании компьютерных систем, способных распознавать речь , в улучшении распознавания речи для слушателей с нарушениями слуха и языка, а также в обучении иностранным языкам.

Процесс восприятия речи начинается на уровне звукового сигнала и процесса прослушивания. (Полное описание процесса прослушивания см . В разделе « Слух» .) После обработки первоначального слухового сигнала звуки речи подвергаются дальнейшей обработке для извлечения акустических сигналов и фонетической информации. Затем эту речевую информацию можно использовать для языковых процессов более высокого уровня, таких как распознавание слов.

Акустические подсказки

Рисунок 1: Спектрограммы слогов «dee» (вверху), «dah» (в центре) и «doo» (внизу), показывающие, как начальные формантные переходы , определяющие перцептивно согласный [d], различаются в зависимости от идентичности следующего гласного. . ( Форманты выделены красными пунктирными линиями; переходы - это изгибные начала траекторий формант.)

Акустические реплики - это сенсорные подсказки, содержащиеся в речевом звуковом сигнале, которые используются при восприятии речи для различения речевых звуков, принадлежащих к разным фонетическим категориям. Например, одним из наиболее изученных сигналов в речи является время начала голоса или VOT. VOT - это основная реплика, показывающая разницу между звонкими и глухими взрывными звуками, такими как «b» и «p». Другие подсказки различают звуки, которые производятся в разных местах артикуляции или манерах артикуляции . Речевая система также должна комбинировать эти реплики, чтобы определить категорию конкретного речевого звука. Об этом часто думают в терминах абстрактных представлений фонем . Затем эти представления могут быть объединены для использования в распознавании слов и других языковых процессах.

Непросто определить, к каким акустическим сигналам чувствительны слушатели при восприятии того или иного звука речи:

На первый взгляд решение проблемы восприятия речи кажется обманчиво простым. Если бы можно было идентифицировать отрезки акустической волны, соответствующие единицам восприятия, тогда путь от звука к значению был бы ясен. Однако это соответствие или сопоставление оказалось чрезвычайно трудно найти даже после 45 лет исследований этой проблемы.

Если конкретный аспект акустической волны указывает на одну лингвистическую единицу, серии тестов с использованием синтезаторов речи будет достаточно для определения такой реплики или реплик. Однако есть два существенных препятствия:

Один акустический аспект речевого сигнала может указывать на разные лингвистически значимые измерения. Например, продолжительность гласной в английском языке может указывать на то, является ли гласная ударной или же она находится в слоге, закрытом звонким или глухим согласным, а в некоторых случаях (например, в американском английском / ɛ / и / æ / ) он может различать тождество гласных. Некоторые эксперты даже утверждают, что продолжительность может помочь в различении того, что традиционно называют короткими и долгими гласными в английском языке.
Одна языковая единица может быть запрограммирована несколькими акустическими свойствами. Например, в классическом эксперименте, Элвин Либермана (1957) показали , что начало формант переходов из / д / различаются в зависимости от последующего гласного (см рисунок 1) , но все они интерпретируются как фонема / д / слушателями.

Линейность и проблема сегментации

Рисунок 2: Спектрограмма фразы «Я должен тебе». Между звуками речи нет четко различимых границ.

Хотя слушатели воспринимают речь как поток дискретных единиц ( фонем , слогов и слов ), эту линейность трудно увидеть в физическом речевом сигнале (см. Пример на рисунке 2). Звуки речи не следуют друг за другом строго, а скорее накладываются друг на друга. На звук речи влияют предшествующие и последующие звуки. Это влияние может проявляться даже на расстоянии двух или более сегментов (и через границы слогов и слов).

Поскольку речевой сигнал не является линейным, возникает проблема сегментации. Трудно выделить отрезок речевого сигнала как принадлежащий одной единице восприятия. Например, акустические свойства фонемы / d / будут зависеть от образования следующей гласной (из-за сращивания ).

Отсутствие инвариантности

Исследование и применение восприятия речи должно иметь дело с несколькими проблемами, возникающими в результате того, что было названо отсутствием инвариантности. Трудно найти надежные постоянные связи между фонемой языка и ее акустическим проявлением в речи. На это есть несколько причин:

Изменения, вызванные контекстом

Фонетическая среда влияет на акустические свойства звуков речи. Например, / u / в английском языке начинается с коронных согласных . Или время начала голоса, обозначающее границу между звонкими и глухими взрывчатыми веществами, различно для губных, альвеолярных и велярных взрывных устройств, и они смещаются при ударении или в зависимости от положения в слоге.

Вариации из-за различных условий речи

Одним из важных факторов, вызывающих вариации, является разная скорость речи. Многие фонематические контрасты состоят из временных характеристик (короткие против долгих гласных или согласных, аффрикаты против фрикативных, взрывные против скользящих, звонкие против глухих и т. Д.), И на них, безусловно, влияют изменения в темпе речи. Другой важный источник вариаций - артикуляционная осторожность и небрежность, типичная для связной речи (артикуляционный «недокус», очевидно, отражается на акустических свойствах производимых звуков).

Вариации из-за различий в личности говорящего

Результирующая акустическая структура конкретной речевой продукции зависит от физических и психологических свойств отдельных говорящих. Мужчины, женщины и дети обычно издают голоса разной высоты. Поскольку у говорящих есть речевые тракты разного размера (особенно в зависимости от пола и возраста), резонансные частоты ( форманты ), которые важны для распознавания звуков речи, будут различаться по своим абсолютным значениям у разных людей (см. Рисунок 3 для иллюстрации этого). . Исследования показывают, что младенцы в возрасте 7,5 месяцев не могут распознавать информацию, представленную носителями разных полов; однако к 10,5 месяцам они могут обнаружить сходство. Диалект и иностранный акцент также могут вызывать вариации, как и социальные характеристики говорящего и слушателя.

Постоянство восприятия и нормализация

Рисунок 3: На левой панели показаны 3 периферийных гласных американского английского / i / , / ɑ / и / u / на стандартном графике F1 на F2 (в Гц). Несоответствие мужских, женских и детских ценностей очевидно. На правой панели формантные расстояния (в Барке ), а не абсолютные значения нанесены на график с использованием процедуры нормализации, предложенной Сырдалом и Гопалом в 1986 году. Формантные значения взяты из Hillenbrand et al. (1995)

Несмотря на большое разнообразие говорящих и разные условия, слушатели воспринимают гласные и согласные как постоянные категории. Было предложено, что это достигается посредством процесса перцепционной нормализации, в котором слушатели отфильтровывают шум (т. Е. Вариации), чтобы достичь основной категории. Различия в размерах голосовых трактов приводят к вариациям формантных частот у динамиков; поэтому слушатель должен приспособить свою систему восприятия к акустическим характеристикам конкретного говорящего. Этого можно достичь, рассматривая отношения формант, а не их абсолютные значения. Этот процесс получил название нормализации голосового тракта (см. Пример на Рисунке 3). Точно так же считается, что слушатели корректируют восприятие продолжительности в соответствии с текущим темпом речи, которую они слушают - это называется нормализацией скорости речи.

Происходит ли нормализация на самом деле и какова ее точная природа, является предметом теоретических разногласий (см. Теории ниже). Постоянство восприятия - это явление, характерное не только для восприятия речи; он существует и в других типах восприятия.

Категорическое восприятие

Рисунок 4: Пример функций идентификации (красный) и дискриминации (синий)

Категориальное восприятие участвует в процессах дифференциации восприятия. Люди воспринимают звуки речи категорично, то есть они с большей вероятностью заметят различия между категориями (фонемами), чем внутри категорий. Таким образом, пространство восприятия между категориями искажается, центры категорий (или «прототипы») работают как сито или как магниты для входящих звуков речи.

В искусственном континууме между глухим и звонким двугубным взрывом каждый новый шаг отличается от предыдущего количеством VOT . Первый звук - это предварительно озвученный [b] , т. Е. Он имеет отрицательный VOT. Затем, увеличивая VOT, он достигает нуля, т. Е. Взрывное устройство представляет собой простой бездыхательный безмолвный звук [p] . Постепенно, добавляя одно и то же количество VOT за раз, взрывное вещество в конечном итоге становится глухим двухгубным голосом с сильным придыханием [pʰ] . (Такой континуум использовался в эксперименте Лискера и Абрамсона в 1970 году. Звуки, которые они использовали, доступны в Интернете .) В этом континууме, например, из семи звуков, слушатели, носящие английский язык, будут идентифицировать первые три звука как / b / и последние три звучат как / p / с четкой границей между двумя категориями. Тест на двухальтернативную идентификацию (или категоризацию) приведет к прерывистой функции категоризации (см. Красную кривую на рисунке 4).

В тестах на способность различать два звука с различными значениями VOT, но имеющими постоянное расстояние VOT друг от друга (например, 20 мс), слушатели, вероятно, будут выступать на случайном уровне, если оба звука попадают в одну категорию и почти на 100 %, если каждый звук попадает в другую категорию (см. синюю кривую дискриминации на рисунке 4).

Вывод, который следует сделать из теста на идентификацию и дискриминацию, заключается в том, что слушатели будут иметь разную чувствительность к одному и тому же относительному увеличению VOT в зависимости от того, была ли пересечена граница между категориями. Подобная перцепционная корректировка подтверждается и для других акустических сигналов.

Влияния сверху вниз

В классическом эксперименте Ричард М. Уоррен (1970) заменил одну фонему слова на звук, напоминающий кашель. С точки зрения восприятия испытуемые без труда восстанавливали отсутствующий звук речи и не могли точно определить, какая фонема была нарушена. Это явление известно как эффект восстановления фонемы . Следовательно, процесс восприятия речи не обязательно является однонаправленным.

В другом базовом эксперименте сравнивали распознавание естественно произносимых слов во фразе с теми же словами по отдельности, обнаружив, что точность восприятия обычно падает в последнем случае. Чтобы исследовать влияние семантических знаний на восприятие, Гарнс и Бонд (1976) аналогичным образом использовали предложения-носители, в которых целевые слова отличались только одной фонемой (например, залив / день / гей), качество которой изменялось в зависимости от континуума. Когда они складываются в разные предложения, каждое из которых естественным образом приводит к одной интерпретации, слушатели склонны судить о двусмысленных словах согласно значению всего предложения. То есть языковые процессы более высокого уровня, связанные с морфологией , синтаксисом или семантикой, могут взаимодействовать с основными процессами восприятия речи, чтобы помочь в распознавании звуков речи.

Может случиться так, что для слушателя нет необходимости, а может быть, даже невозможно распознавать фонемы перед распознаванием высших единиц, например слов. Получив по крайней мере фундаментальную информацию о фонематической структуре воспринимаемого объекта из акустического сигнала, слушатели могут компенсировать отсутствующие или замаскированные шумом фонемы, используя свои знания разговорного языка. Компенсационные механизмы могут даже работать на уровне предложения, например, в выученных песнях, фразах и стихах, эффект, подкрепленный паттернами нейронного кодирования , соответствующими пропущенным непрерывным фрагментам речи, несмотря на отсутствие всей соответствующей восходящей сенсорной информации.

Приобретенные языковые нарушения

Первая в истории гипотеза о восприятии речи использовалась с пациентами, у которых развился дефицит слухового восприятия, также известный как рецептивная афазия . С тех пор было классифицировано множество нарушений, что привело к истинному определению «восприятия речи». Термин «восприятие речи» описывает интересующий процесс, который использует сублексические контексты для процесса проверки. Он состоит из множества различных языковых и грамматических функций, таких как: особенности, сегменты (фонемы), слоговая структура (единица произношения), фонологические словоформы (то, как звуки группируются вместе), грамматические особенности, морфема (префиксы и суффиксы) и семантическая информация (значение слов). В первые годы их больше интересовала акустика речи. Например, они изучали различия между / ba / или / da /, но теперь исследования были направлены на реакцию мозга на стимулы. В последние годы была разработана модель, позволяющая понять, как работает восприятие речи; эта модель известна как модель двойного потока. Эта модель радикально изменилась по сравнению с тем, как психологи смотрят на восприятие. Первая часть модели двойного потока - это вентральный путь. Этот путь включает среднюю височную извилину, нижнюю височную борозду и, возможно, нижнюю височную извилину . Вентральный путь показывает фонологические представления лексическим или концептуальным представлениям, что является значением слов. Вторая часть модели двойного потока - дорсальный путь. Этот путь включает сильвиевую теменно-височную, нижнюю лобную извилину, передний островок и премоторную кору. Его основная функция - принимать сенсорные или фонологические стимулы и переводить их в артикуляционно-моторное представление (формирование речи).

Афазия

Афазия - это нарушение обработки речи, вызванное повреждением головного мозга. Различные части речевой обработки подвержены влиянию в зависимости от области мозга, которая повреждена, и афазия дополнительно классифицируется в зависимости от места травмы или совокупности симптомов. Повреждение области мозга Брока часто приводит к экспрессивной афазии, которая проявляется в нарушении речевой деятельности. Повреждение области Вернике часто приводит к рецептивной афазии, при которой нарушается обработка речи.

Афазия с нарушением восприятия речи обычно показывает поражения или повреждения, расположенные в левой височной или теменной доле . Лексические и семантические трудности являются обычными, и понимание может быть нарушено.

Агнозия

Агнозия - это «потеря или уменьшение способности распознавать знакомые объекты или стимулы, обычно в результате повреждения мозга». Существует несколько различных видов агнозии, которые влияют на все наши чувства, но два наиболее распространенных вида агнозии связаны с речью - это речевая агнозия и фонагнозия .

Речевая агнозия : чистая словесная глухота или речевая агнозия - это нарушение, при котором человек сохраняет способность слышать, воспроизводить речь и даже читать речь, но не может понимать или правильно воспринимать речь. Эти пациенты, по-видимому, обладают всеми навыками, необходимыми для правильной обработки речи, но, похоже, у них нет опыта, связанного с речевыми стимулами. Пациенты сообщали: «Я слышу, как вы говорите, но не могу перевести». Даже если они физически получают и обрабатывают речевые стимулы, не имея возможности определять значение речи, они, по сути, вообще не могут воспринимать речь. Нет известных методов лечения, которые были найдены, но из тематических исследований и экспериментов известно, что речевая агнозия связана с поражениями в левом полушарии или обоих, в частности, дисфункцией правой височно-теменной области.

Фонагнозия : Фонагнозия связана с неспособностью узнавать какие-либо знакомые голоса. В этих случаях речевые стимулы можно услышать и даже понять, но связь речи с определенным голосом теряется. Это может быть связано с «ненормальной обработкой сложных вокальных свойств (тембр, артикуляция и просодия - элементы, которые отличают индивидуальный голос»). Лечение не известно; тем не менее, есть отчет о случае женщины, страдающей эпилепсией, которая начала испытывать фонагнозию. Наряду с другими нарушениями. Ее результаты ЭЭГ и МРТ показали "Т2-гиперинтенсивное повреждение правой коры теменного отдела без усиления гадолиния и с дискретным нарушением диффузии молекул воды". Таким образом, хотя лечение не было обнаружено, фонагнозия может быть связана с постиктальной париетальной корковой дисфункцией .

Восприятие речи у младенцев

Младенцы начинают процесс овладения языком с того, что могут обнаруживать очень небольшие различия между звуками речи. Они умеют различать все возможные речевые контрасты (фонемы). Постепенно, когда они знакомятся со своим родным языком, их восприятие становится специфичным для языка, то есть они учатся игнорировать различия внутри фонематических категорий языка (различия, которые вполне могут быть контрастными в других языках - например, в английском языке различаются два голоса. категории взрывчатых веществ , тогда как в тайском есть три категории ; младенцы должны знать, какие различия характерны для их использования на родном языке, а какие нет). По мере того как младенцы учатся сортировать входящие звуки речи по категориям, игнорируя несущественные различия и усиливая контрастные, их восприятие становится категоричным . Младенцы учатся противопоставлять разные гласные фонемы своего родного языка примерно к 6-месячному возрасту. Родные согласные контрасты приобретаются к 11–12-месячному возрасту. Некоторые исследователи предположили, что младенцы могут изучать звуковые категории своего родного языка посредством пассивного слушания, используя процесс, называемый статистическим обучением . Другие даже утверждают, что определенные звуковые категории являются врожденными, то есть они генетически определены (см. Обсуждение врожденной и приобретенной категориальной отличимости ).

Если однодневным детям предъявляется нормальный, ненормальный (монотонный) голос матери и чужой голос, они реагируют только на нормальный голос матери. Когда воспроизводятся человеческие и нечеловеческие звуки, младенцы поворачивают голову только к источнику человеческого звука. Было высказано предположение, что слуховое обучение начинается уже во внутриутробном периоде.

Одним из методов, используемых для изучения того, как младенцы воспринимают речь, помимо упомянутой выше процедуры поворота головы, является измерение скорости их сосания. В таком эксперименте ребенок сосет специальный сосок, когда ему предъявляют звуки. Во-первых, устанавливается нормальная скорость сосания ребенка. Затем стимул воспроизводится повторно. Когда ребенок впервые слышит стимул, скорость сосания увеличивается, но по мере того, как ребенок привыкает к стимуляции, скорость сосания уменьшается и выравнивается. Затем ребенку дается новый стимул. Если ребенок воспринимает вновь введенный стимул как отличный от фонового, скорость сосания возрастет. Скорость сосания и метод поворота головы - одни из наиболее традиционных поведенческих методов изучения восприятия речи. Среди новых методов (см. « Методы исследования» ниже), которые помогают нам изучать восприятие речи, у младенцев широко используется ближняя инфракрасная спектроскопия .

Также было обнаружено, что даже если способность младенцев различать различные фонетические свойства разных языков начинает снижаться примерно в возрасте девяти месяцев, этот процесс можно обратить вспять, достаточно познакомив их с новым языком. В исследовании, проведенном Патрисией К. Куль, Фэн-Мин Цао и Хуэй-Мей Лю, было обнаружено, что если с младенцами разговаривают и с ними общаются носители китайского мандаринского языка, их можно на самом деле научить сохранять свои способности. различать звуки речи в мандаринском диалекте, которые сильно отличаются от звуков речи в английском языке. Таким образом, доказывая, что при правильных условиях можно предотвратить потерю младенцами способности различать звуки речи на языках, отличных от тех, которые присутствуют в родном языке.

Кросс-язык и второй язык

Большое количество исследований изучали , как пользователи языка воспринимают иностранную речь (именуемую межъязыкового восприятия речи) или второго языка- речи (второй язык восприятия речи). Последнее относится к сфере овладения вторым языком .

Языки различаются по своему фонематическому инвентарю. Естественно, это создает трудности при знакомстве с иностранным языком. Например, если два звука иностранного языка отнесены к одной категории родного языка, различие между ними будет очень трудно различить. Классическим примером такой ситуации является наблюдение, что японские изучающие английский язык будут иметь проблемы с идентификацией или различением английских жидких согласных / l / и / r / (см. Восприятие английского языка / r / и / l / носителями японского языка ).

Бест (1995) предложил модель перцептивной ассимиляции, которая описывает возможные модели межъязыковой ассимиляции категорий и предсказывает их последствия. Флеге (1995) сформулировал модель речевого обучения, которая объединяет несколько гипотез о приобретении речи на втором языке (L2) и предсказывает простыми словами, что звук L2, не слишком похожий на звук на родном языке (L1), будет легче усвоить, чем звук L2, который относительно похож на звук L1 (потому что он будет восприниматься учащимся как более явно «другой»).

При нарушении языка или слуха

Исследование того, как люди с нарушением речи или слуха воспринимают речь, предназначено не только для выявления возможных методов лечения. Он может дать представление о принципах, лежащих в основе нормального восприятия речи. Примером могут служить два направления исследований:

Слушатели с афазией

Афазия влияет как на выражение, так и на восприятие языка. Оба наиболее распространенных типа - экспрессивная афазия и рецептивная афазия - в той или иной степени влияют на восприятие речи. Выразительная афазия вызывает умеренные трудности в понимании языка. Воздействие рецептивной афазии на понимание гораздо более сурово. Принято считать, что афазики страдают дефицитом восприятия. Обычно они не могут полностью различить место артикуляции и озвучивания. Что касается других функций, то сложности различаются. Еще не доказано, влияют ли навыки восприятия речи на низком уровне у лиц, страдающих афазией, или же их трудности вызваны только нарушением более высокого уровня.

Слушатели с кохлеарными имплантатами

Кохлеарная имплантация восстанавливает доступ к акустическому сигналу у людей с нейросенсорной тугоухостью. Акустической информации, передаваемой имплантатом, обычно достаточно для пользователей имплантата, чтобы правильно распознавать речь людей, которых они знают, даже без визуальных подсказок. Пользователям кохлеарных имплантатов труднее понимать неизвестные динамики и звуки. Восприятие детей, которым имплантировали после двухлетнего возраста, значительно лучше, чем у детей, которым имплантировали в зрелом возрасте. Было показано, что ряд факторов влияет на характеристики восприятия, в частности: продолжительность глухоты до имплантации, возраст начала глухоты, возраст на момент имплантации (такие возрастные эффекты могут быть связаны с гипотезой критического периода ) и продолжительность использования имплантата. . Есть различия между детьми с врожденной и приобретенной глухотой. Постлингвально глухие дети имеют лучшие результаты, чем доъязычные глухие, и быстрее адаптируются к кохлеарному имплантату. У обоих детей с кохлеарными имплантатами и нормальным слухом время появления гласных и голоса становится преобладающим в развитии до способности различать место артикуляции. Через несколько месяцев после имплантации дети с кохлеарными имплантатами могут нормализовать восприятие речи.

Шум

Одна из фундаментальных проблем в изучении речи - как бороться с шумом. Об этом свидетельствует сложность распознавания человеческой речи в компьютерных системах распознавания. Хотя они могут хорошо распознавать речь, если обучены голосу конкретного говорящего и в тихих условиях, эти системы часто плохо справляются с более реалистичными ситуациями слушания, когда люди понимают речь без относительных трудностей. Для имитации шаблонов обработки, которые будут храниться в мозгу при нормальных условиях, предварительные знания являются ключевым нейронным фактором, поскольку надежная история обучения может до некоторой степени преодолевать экстремальные эффекты маскировки, связанные с полным отсутствием непрерывных речевых сигналов.

Связь музыки и языка

Исследование взаимосвязи между музыкой и познанием - это новая область, связанная с изучением восприятия речи. Первоначально предполагалось, что нейронные сигналы для музыки обрабатываются в специализированном «модуле» в правом полушарии мозга. И наоборот, нейронные сигналы для речи должны были обрабатываться аналогичным «модулем» в левом полушарии. Однако с использованием таких технологий, как фМРТ, исследования показали, что две области мозга, традиционно считающиеся исключительно обрабатывающими речь, области Брока и Вернике, также становятся активными во время музыкальной деятельности, такой как прослушивание последовательности музыкальных аккордов. Другие исследования, например, проведенное Marques et al. в 2006 году показали, что 8-летние дети, которым было предоставлено шесть месяцев музыкального обучения, показали улучшение как в их способности определять высоту звука, так и в их электрофизиологических показателях, когда их заставляли слушать неизвестный иностранный язык.

И наоборот, некоторые исследования показали, что вместо музыки, влияющей на наше восприятие речи, наша родная речь может влиять на наше восприятие музыки. Одним из примеров является парадокс тритона . Парадокс тритона заключается в том, что слушателю представлены два генерируемых компьютером тона (например, C и F-Sharp), которые находятся на расстоянии половины октавы (или тритона), и затем его просят определить, является ли высота тона последовательности нисходящей или по возрастанию. Одно из таких исследований, проведенное г-жой Дайаной Дойч, показало, что интерпретация слушателем восходящей или нисходящей высоты тона зависела от языка или диалекта слушателя, показывая различия между теми, кто вырос на юге Англии, и теми, кто в Калифорнии, или теми, кто во Вьетнаме и те в Калифорнии, чьим родным языком был английский. Второе исследование, проведенное в 2006 году на группе англоговорящих и трех группах студентов из Восточной Азии в Университете Южной Калифорнии, обнаружило, что у носителей английского языка, которые начали музыкальное обучение в возрасте 5 лет или раньше, вероятность иметь совершенный слух составляла 8%.

Речевая феноменология

Опыт речи

Кейси О'Каллаган в своей статье « Опыт речи» анализирует, «отличается ли восприятие от слушания речи феноменальным характером» с точки зрения понимания слышимого языка. Он утверждает, что опыт человека, когда он слышит язык, который он понимает, в отличие от его опыта, когда он слышит язык, которого он не знает, демонстрирует разницу в феноменальных характеристиках, которые он определяет как «аспекты того, на что похож опыт» для человека. .

Если субъекту, который является моноязычным носителем английского языка, представлен стимул речи на немецком языке, последовательность фонем будет выглядеть как простые звуки и вызовет совершенно другой опыт, чем если бы точно такой же стимул был представлен субъекту, говорящему на немецком языке. .

Он также исследует, как меняется восприятие речи при изучении языка. Если субъекту, не знающему японского языка, был предъявлен стимул японской речи, а затем он получил те же самые стимулы после обучения японскому языку , у этого же человека был бы совершенно другой опыт.

Методы исследования

Методы, используемые в исследовании восприятия речи, можно условно разделить на три группы: поведенческие, вычислительные и, в последнее время, нейрофизиологические методы.

Поведенческие методы

Поведенческие эксперименты основаны на активной роли участника, т.е. испытуемым предъявляются стимулы и просят принять в отношении них осознанное решение. Это может быть идентификационный тест, тест на различение , рейтинг сходства и т. Д. Эти типы экспериментов помогают дать базовое описание того, как слушатели воспринимают и классифицируют звуки речи.

Синусоидальная речь

Восприятие речи также было проанализировано с помощью синусоидальной речи, формы синтетической речи, в которой человеческий голос заменен синусоидальными волнами, имитирующими частоты и амплитуды, присутствующие в исходной речи. Когда испытуемым впервые представлена эта речь, синусоидальная речь интерпретируется как случайные шумы. Но когда испытуемых информируют, что стимулы на самом деле являются речью, и им рассказывают, что они говорят, «характерный, почти мгновенный сдвиг происходит» в том, как воспринимается синусоидальная речь.

Вычислительные методы

Вычислительное моделирование также использовалось для моделирования того, как мозг может обрабатывать речь для создания наблюдаемого поведения. Компьютерные модели использовались для решения нескольких вопросов восприятия речи, в том числе того, как обрабатывается сам звуковой сигнал для извлечения акустических сигналов, используемых в речи, и как речевая информация используется для процессов более высокого уровня, таких как распознавание слов.

Нейрофизиологические методы

Нейрофизиологические методы основаны на использовании информации, полученной в результате более прямых и необязательно сознательных (предварительных) процессов. Испытуемым предъявляются речевые стимулы в различных типах задач, и измеряется реакция мозга. Сам мозг может быть более чувствительным, чем кажется, благодаря поведенческим реакциям. Например, субъект может не проявлять чувствительность к разнице между двумя звуками речи в тесте на различение, но реакции мозга могут выявить чувствительность к этим различиям. Методы, используемые для измерения нейронных реакций на речь, включают связанные с событием потенциалы , магнитоэнцефалографию и ближнюю инфракрасную спектроскопию . Одной из важных реакций, используемых с потенциалами, связанными с событием, является негативность несоответствия , которая возникает, когда речевые стимулы акустически отличаются от стимула, который субъект слышал ранее.

Нейрофизиологические методы были внедрены в исследование восприятия речи по нескольким причинам:

Поведенческие реакции могут отражать поздние сознательные процессы и зависеть от других систем, таких как орфография, и, таким образом, они могут маскировать способность говорящего распознавать звуки на основе акустических распределений более низкого уровня.

Без необходимости принимать активное участие в тестировании, даже младенцы могут пройти тестирование; эта функция имеет решающее значение при исследовании процессов приобретения. Возможность наблюдать слуховые процессы низкого уровня независимо от них более высокого уровня позволяет адрес давнее теоретические вопросы , такие как , обладают ли или не люди специализированного модуля для восприятия речи или или нет какой - то сложной акустической инвариантности (см отсутствия инвариантности выше) лежит в основе распознавания звука речи.

Теории

Теория мотора

Некоторые из самых ранних работ по изучению того, как люди воспринимают звуки речи, были проведены Элвином Либерманом и его коллегами из Haskins Laboratories . Используя синтезатор речи, они сконструировали звуки речи, которые изменялись в месте артикуляции по континууму от / bɑ / до / dɑ / до / ɡɑ / . Слушателей попросили определить, какой звук они слышали, и различить два разных звука. Результаты эксперимента показали, что слушатели сгруппировали звуки по дискретным категориям, хотя звуки, которые они слышали, постоянно менялись. Основываясь на этих результатах, они предложили понятие категориального восприятия как механизма, с помощью которого люди могут идентифицировать звуки речи.

Более поздние исследования с использованием различных задач и методов показывают, что слушатели очень чувствительны к акустическим различиям в пределах одной фонетической категории, в отличие от строгого категориального подхода к восприятию речи.

Чтобы теоретически обосновать данные категориального восприятия , Либерман и его коллеги разработали моторную теорию восприятия речи, в которой «предполагалось, что сложное артикуляционное кодирование декодируется в восприятии речи теми же процессами, которые участвуют в производстве» ( это называется анализом путем синтеза). Например, английский согласный / d / может различаться по своим акустическим характеристикам в разных фонетических контекстах (см. Выше ), но все / d / в восприятии слушателя попадают в одну категорию (звонко-альвеолярный взрывной), и это потому, что " лингвистические представления - это абстрактные, канонические, фонетические сегменты или жесты, лежащие в основе этих сегментов ". При описании единиц восприятия Либерман позже отказался от артикуляционных движений и перешел к нейронным командам артикуляторам и даже позже к намеченным артикуляционным жестам, таким образом, «нейронное представление высказывания, которое определяет продукцию говорящего, является дистальным объектом, который воспринимает слушатель». Теория тесно связана с гипотезой модульности , которая предполагает существование модуля специального назначения, который должен быть врожденным и, вероятно, специфичным для человека.

Теорию критиковали за то, что она не могла «дать отчет о том, как акустические сигналы переводятся в намеченные жесты» слушателями. Кроме того, неясно, как индексированная информация (например, идентичность говорящего) кодируется / декодируется вместе с лингвистически релевантной информацией.

Образцовая теория

Образцовые модели восприятия речи отличаются от четырех упомянутых выше теорий, которые предполагают, что нет связи между распознаванием слова и говорящего и что различия между говорящими - это «шум», который необходимо отфильтровать.

Подходы, основанные на образцах, требуют, чтобы слушатели сохраняли информацию как для распознавания слов, так и для распознавания говорящего. Согласно этой теории, отдельные экземпляры звуков речи сохраняются в памяти слушателя. В процессе восприятия речи запомненные экземпляры, например, слога, хранящиеся в памяти слушателя, сравниваются с входящим стимулом, чтобы стимулы можно было классифицировать. Точно так же при распознавании говорящего активируются все следы в памяти высказываний, произведенных этим говорящим, и определяется личность говорящего. Эту теорию подтверждают несколько экспериментов, описанных Джонсоном, которые предполагают, что наша идентификация сигнала более точна, когда мы знакомы с говорящим или когда у нас есть визуальное представление о его поле. Когда говорящий непредсказуем или неверно определен пол, частота ошибок при распознавании слов намного выше.

Образцы моделей сталкиваются с рядом возражений, два из которых: (1) недостаточный объем памяти для хранения каждого когда-либо услышанного высказывания и (2) в отношении способности воспроизводить то, что было услышано, (2) сохраняются или вычисляются также собственные артикуляционные жесты говорящего. при произнесении высказываний, которые звучали бы как слуховые воспоминания.

Акустические ориентиры и отличительные особенности

Кеннет Н. Стивенс предложил акустические ориентиры и отличительные особенности как связь между фонологическими характеристиками и слуховыми свойствами. Согласно этой точке зрения, слушатели проверяют входящий сигнал на предмет так называемых акустических ориентиров, которые представляют собой определенные события в спектре, несущие информацию о жестах, которые их производили. Поскольку эти жесты ограничены возможностями артикуляторов человека, а слушатели чувствительны к их слуховым коррелятам, отсутствие инвариантности просто не существует в этой модели. Акустические свойства ориентиров составляют основу для установления отличительных черт. Их связки однозначно определяют фонетические сегменты (фонемы, слоги, слова).

В этой модели считается, что входящий акустический сигнал сначала обрабатывается для определения так называемых ориентиров, которые являются особыми спектральными событиями в сигнале; например, гласные обычно обозначаются более высокой частотой первой форманты, согласные могут быть указаны как разрывы в сигнале и имеют более низкие амплитуды в нижней и средней областях спектра. Эти акустические особенности являются результатом артикуляции. Фактически, вторичные артикуляционные движения могут использоваться, когда требуется улучшение ориентиров из-за внешних условий, таких как шум. Стивенс утверждает, что коартикуляция вызывает только ограниченное и, более того, систематическое и, следовательно, предсказуемое изменение сигнала, с которым может иметь дело слушатель. Таким образом, в рамках этой модели просто утверждается, что не существует того, что называется отсутствием инвариантности .

Ориентиры анализируются для определения определенных артикуляционных событий (жестов), которые с ними связаны. На следующем этапе акустические подсказки извлекаются из сигнала вблизи ориентиров посредством мысленного измерения определенных параметров, таких как частоты спектральных пиков, амплитуды в низкочастотной области или время.

Следующий этап обработки - закрепление акустических сигналов и выделение отличительных признаков. Это бинарные категории, относящиеся к артикуляции (например, [+/- высокий], [+/- назад], [+/- круглые губы] для гласных; [+/- сонорный], [+/- латеральный] или [ +/- назальный] для согласных.

Связки этих функций однозначно идентифицируют речевые сегменты (фонемы, слоги, слова). Эти сегменты являются частью лексики, хранящейся в памяти слушателя. Его единицы активируются в процессе лексического доступа и отображаются на исходном сигнале, чтобы узнать, совпадают ли они. Если нет, делается еще одна попытка с другим подходящим шаблоном. Таким итеративным способом слушатели реконструируют артикуляционные события, необходимые для создания воспринимаемого речевого сигнала. Поэтому это можно охарактеризовать как анализ путем синтеза.

Таким образом, эта теория утверждает, что дистальным объектом восприятия речи являются артикуляционные жесты, лежащие в основе речи. Слушатели понимают речевой сигнал, обращаясь к ним. Модель относится к так называемым «анализ путем синтеза».

Нечетко-логическая модель

Нечеткая логическая теория восприятия речи, разработанная Домиником Массаро, предполагает, что люди запоминают звуки речи вероятностным или градуированным способом. Это предполагает, что люди запоминают описания единиц восприятия языка, называемых прототипами. В каждом прототипе могут сочетаться различные функции. Однако функции не являются просто двоичными (истинными или ложными), существует нечеткое значение, соответствующее тому, насколько вероятно, что звук принадлежит к определенной речевой категории. Таким образом, при восприятии речевого сигнала наше решение о том, что мы на самом деле слышим, основано на относительной степени соответствия между информацией стимула и значениями конкретных прототипов. Окончательное решение основывается на нескольких характеристиках или источниках информации, даже на визуальной информации (это объясняет эффект Мак-Герка ). Компьютерные модели теории нечеткой логики использовались, чтобы продемонстрировать, что предсказания теории о том, как классифицируются звуки речи, соответствуют поведению слушателей-людей.

Гипотеза речевого режима

Гипотеза речевого режима - это идея о том, что восприятие речи требует использования специальной умственной обработки. Гипотеза речевого режима является ответвлением теории модульности Фодора (см. Модульность мышления ). Он использует механизм вертикальной обработки, при котором ограниченные стимулы обрабатываются специальными областями мозга, которые являются специфическими для стимулов.

Две версии гипотезы речевого режима:

Слабая версия - прослушивание речи требует ранее знания языка.
Сильная версия - слушание речи задействует специализированные речевые механизмы для восприятия речи.

В поисках доказательств гипотезы речевого режима возникли три важные экспериментальные парадигмы. Это дихотическое слушание , категориальное восприятие и дуплексное восприятие . Благодаря исследованиям в этих категориях было обнаружено, что может не быть определенного речевого режима, а вместо этого может быть один для слуховых кодов, требующих сложной слуховой обработки. Также кажется, что модульность изучается в системах восприятия. Несмотря на это, доказательства и контрдоказательства в пользу гипотезы речевого режима все еще неясны и нуждаются в дальнейших исследованиях.

Теория прямого реализма

Прямая реалистическая теория восприятия речи ( в основном , связанное с Кэролом Fowler ) является частью более общей теории прямого реализма , который предполагает , что восприятие позволяет нам иметь непосредственное понимание мира , потому что она включает в себя прямое восстановление дистального источника из событие, которое воспринимается. Что касается восприятия речи, теория утверждает, что объекты восприятия являются действительными движениями или жестами голосового тракта, а не абстрактными фонемами или (как в моторной теории) событиями, которые причинно предшествуют этим движениям, то есть предполагаемым жестам. Слушатели воспринимают жесты не с помощью специального декодера (как в теории мотора), а потому, что информация в акустическом сигнале определяет жесты, которые его формируют. Утверждая, что собственно артикуляционные жесты, производящие различные звуки речи, сами являются единицами восприятия речи, теория обходит проблему отсутствия инвариантности .

Смотрите также

Относится к тематическому исследованию Джини (одичавший ребенок)
Нейрокомпьютерная обработка речи
Мультисенсорная интеграция
Происхождение речи
Патология речи и языка
Двигательная теория восприятия речи

использованная литература

внешние ссылки

Специальный выпуск Philosophical Transactions B о восприятии речи. Некоторые статьи находятся в свободном доступе.

Languages

In other projects