Локендо - Loquendo

Локендо
Тип	Частный
Промышленность	Приложения для повышения производительности
Основан	Семидесятые в качестве исследовательской группы в рамках CSELT; 2001 (как независимая компания)
Штаб-квартира	Турин , Италия
Ключевые люди	Председатель и генеральный директор: Давиде Франко
Продукты	синтез речи , распознавание речи , верификация говора , консалтинг
Доход	15 миллионов евро (2010 г.)
Чистый доход	1,5 миллиона евро (2010 г.)
Количество работников	103 (2011)
Веб-сайт	локендо .com

Loquendo - это многонациональная корпорация в области компьютерного программного обеспечения со штаб-квартирой в Турине , Италия, которая предоставляет приложения для распознавания речи, синтеза речи, проверки говорящего и идентификации. Loquendo, основанная в 2001 году в рамках Telecom Italia Lab (ранее CSELT ), также имела офисы в Великобритании, Испании, Германии, Франции и США.

Текущие бизнес-продукты можно найти в портативных и автомобильных навигационных устройствах , вспомогательных устройствах для людей с ограниченными возможностями, смартфонах , устройствах для чтения электронных книг , говорящих банкоматах , компьютерных играх , бытовой технике с голосовым управлением и т. Д. Системы синтеза и распознавания речи используются в новом приложении электронного здравоохранения как часть виртуального помощника государственной службы здравоохранения Испании Хунта де Андалусия.

Продукция Loquendo была удостоена нескольких наград, в том числе звания «Лидер речевого механизма Speech Technologies» в 2007, 2008 и 2009 годах. Компания Speech Technologies оценила ее как «Лидер рынка» в 2009 и 2010 годах.

30 сентября 2011 года Nuance объявила о приобретении Loquendo.

История

Изначально Loquendo была исследовательской группой, созданной в середине семидесятых менеджерами IRI - STET в лабораториях CSELT в Турине, а затем в 2001 году стала самостоятельной компанией.

Синтез речи

Рекорд 45 оборотов в минуту с песней "Frère Jacques" в исполнении MUSA в 1978 году.

Основываясь на рекомендациях Университета Падуи , применяя технику так называемых дифонов (объединение согласной и гласной, в итальянском языке всего 150), группа голосовых технологий во главе с Джулио Модена создала первую речь. синтезатор с высокой разборчивостью, способный говорить (и петь) по-итальянски в 1975 году. Он назывался MUSA (MUltichannel Speaking Automaton) , что продемонстрировало возможности технологий того времени. Достигнутые в те годы результаты были сведены в аудиодиск со скоростью 45 об / мин, изданный в 1978 году и распространенный тысячами экземпляров через средства массовой информации. Автодорожка, после короткой устной презентации системы, содержала забавную итальянскую версию песни Frère Jacques, исполненную в полифонии ( а капелла ) с большим количеством певческих голосов (MUSA могла управлять до 8 каналов синтеза параллельно).

Эволюция этого прототипа с увеличением количества дифонов (около 1000), усовершенствованием инструментов языкового анализа и улучшенным управлением формой волны также привело к заметному улучшению синтетического голоса. Это привело к созданию первой интегральной схемы «речевой синтезатор» , разработанной внутри в CSELT , который был изготовлен по SGS (каталог как Zilog «s Z80 микропроцессор периферийных (с кодом M8950).

Позднее, в девяностых годах, родился " ELOQUENS ", многоплатформенный программный синтезатор речи, предназначенный для различных операционных систем, включая DOS , Windows , System 7 , Unix , OS / 2 ) и телефонных плат с очень большим количеством каналов, таких как используется итальянским оператором телефонной связи для создания информационной службы для абонентов обратной телефонной связи (используется для получения личности и адреса абонента по их телефонному номеру).

К концу 1990-х гг. Синтез речи принял новый подход, вместо прохождения дифонов он использовал бы выбор и объединение акустических единиц переменной длины, подход, который стал возможен благодаря возросшей мощности компьютеров и, особенно, увеличению емкости запоминающих устройств. системы. В результате появился «АКТЕР» - «Голос, звучащий как человеческий», который стал пользоваться большой аудиторией из-за большого количества телефонных услуг и приложений, созданных компаниями, связанными с Loquendo.

В 2000 году синтезатор был выпущен исследовательскими лабораториями как коммерческий продукт, включающий ряд инструментов редактирования для создания синтетического звука, обогащенного эмоциями, а также был выпущен как библиотека программного обеспечения для использования в различных продуктах, от небольших портативных устройств. от устройств, таких как мобильные телефоны, навигаторы и карманные компьютеры, до многоканальных / многоязычных телефонных серверов для (полу) автоматических центров обработки вызовов.

Синтез речи Локендо стал интернет-мемом на YouTube , хотя он чаще встречается в видео на испанском языке. Он часто используется в крипипастах и пародийных дубляжах (часто с вульгарным языком).

Распознавание речи

Вскоре после начала исследований в области синтеза речи они начали исследования в области распознавания речи и в начале восьмидесятых годов создали первый прототип, способный распознавать десять цифр и несколько простых команд.

Применение скрытых моделей Маркова в 1984 году привело к разработке распознавателя речи, который может распознавать связанные слова и предложения, созданного в сотрудничестве с ELSAG , другой компанией в группе IRI - STET . Даже в сотрудничестве с ELSAG в 1986 году был представлен RIPAC (RIconoscimento PArlato Connesso) , ранний микропроцессор, предназначенный для распознавания связанной речи . Этот процессор имел уровни интеграции СБИС и состоял из 70 000 транзисторов .

Потребность в создании независимых телефонных приложений для распознавания речи привела к созданию речевых баз данных с записанными голосами сотен разных людей, а в 1987 году появилась первая большая база данных, полученная путем записи голосов более 1000 человек, звонящих со всей Италии, с помощью автоматическая процедура, была использована при создании специально созданного телефонного сервера в лабораториях CSELT.

Этот сохраненный материал позволил обучить модели Маркова и, используя сложные алгоритмы, привел к разработке «AURIS», первого коммерческого распознавателя, который мог «превращаться» в различные устройства с процессорами цифровых сигналов (DSP).

В девяностых годах началось крупное межъевропейское сотрудничество, и вместе с дюжиной других компаний и университетов по всей Европе была собрана очень большая база данных речи по всей Европе, с голосами более 65000 человек.

Этот материал в сочетании с новым смешанным подходом скрытых марковских моделей и нейронных сетей привел к созданию «FLEXUS», первого распознавателя речи с гибким словарным запасом, который позволил многим различным телефонным службам использовать автоматическое распознавание речи в своих человеческих интерфейсах.

Объединение «FLEXUS» и «ACTOR» в единую систему создало «Диалоги», позволяющее создавать самые современные телефонные услуги.

Рождение Loquendo как компании привело к развитию многих языков и выпуску распознавателя в виде библиотечного программного обеспечения для создания различных приложений телефонии.

Они также представили несколько систем для написания грамматик с конечным числом состояний и систем моделей естественного языка.

Кампании по записи речевых баз данных продолжают двигаться из Европы в страны Средиземноморья, на Юг, Центр и Северную Америку и, наконец, в страны Дальнего Востока. В общей сложности было записано бесчисленное количество часов выступления, связанного с сотнями тысяч людей в перечисленных регионах. Записи собирались как для фиксированных телефонных сетей, так и в движущихся транспортных средствах для мобильных телефонов, а также с использованием высококачественных микрофонов в домашних условиях для потребительских приложений, таких как видеоигры, бытовая техника и домашняя автоматизация в целом.

Распознавание спикера

Распознаватель независимых говорящих Прототип CSELT, встроенный в мобильный телефон (проект ARS) в девяностые годы.

Исследования по распознаванию говорящих были начаты в начале восьмидесятых. Позже, в середине двухтысячного периода, стали доступны речевые базы данных, специально предназначенные для этой задачи. В сотрудничестве с Туринским политехническим институтом они начали эксперименты по двум различным направлениям: «идентификация» говорящего и «проверка» .

Успех исследования также подтолкнул компанию к переходу к разработке продуктов специально для этих задач с помощью вспомогательных платформ, описанных ниже.

Кодирование речи

Исследования в области кодирования речи начались даже раньше, чем в области распознавания и синтеза речи, с целью создания оборудования, такого как кодек и эхоподавитель, чтобы иметь возможность максимально увеличить количество телефонных разговоров, которые могут проходить через один кабель (или спутниковая связь) без потери разборчивости речи.

В конце семидесятых годов исследования и эксперименты привели к созданию алгоритмов для кодирования телефонного речевого сигнала и установлению европейского регламента CCITT, известного как кодирование A-law ( закон кодирования 8-битного логарифма «A» для аудиосигнала в диапазоне 8 кГц. ограничено). Затем этот стандарт был использован в кодеке для телефонных линий ISDN 64 кбит / с .

В последующие годы они создали более надежные кодеки (использовали телефонные станции) и в рамках консорциума PAN-Europe GSM , кодек для использования в мобильных телефонах второго поколения.

В то же время они создали кодек для передачи высококачественных сигналов, несмотря на ограничение полосы частот телефонных кабелей 8 кГц, что было полезно для приложений аудио и видеоконференций.

Обеспечение платформ

В конце девяностых развитие Интернета в известной сегодня форме (гипертекст, размещенный на разных серверах, охватывающих всю планету в одной большой сети) привело к необходимости сделать эти тексты доступными для передачи голоса по телефону.

В то же время IVR ( интерактивный голосовой ответ) становится все более популярным и использует аппаратные и программные инструменты для быстрой разработки новых приложений телефонии. Стало очевидно, что предыдущие модели разработки, которые привели к разработке сложных систем, таких как автоматизация справочной службы каталогов или автоматических информационных станций, были слишком жесткими и не позволяли легко разрабатывать новые приложения.

Поэтому было сочтено, что существует потребность во вспомогательных платформах для автоматических голосовых телефонных систем, которые были бы масштабируемыми и легко программируемыми. С этой целью была создана специальная рабочая группа по разработке прототипа голосового браузера , который будет показан публике на SMAU 2000 под названием « VoxNauta ». Это был такой успех, что Telecom Italia решила закрыть свои первоначальные исследовательские лаборатории и создать Loquendo 1 февраля 2001 года.

За прошедшие годы VoxNauta получила развитие в различных масштабируемых формах: от небольших серверов до крупных корпоративных систем с тысячами линий и была установлена в сотнях компаний по всему миру.

Рождение стандартов для написания телефонных услуг для подключения сервера, на котором размещены речевые технологии, к серверам, на которых размещены телефонные платы, подтолкнуло к развитию индивидуального ПО.

Появление стандартов в написании телефонных служб ( VoiceXML ) и протоколов ( MRCP ) для подключения серверов, на которых размещены речевые технологии, к серверам, на которых размещены телефонные платы, привело к созданию программного обеспечения Speech Server , обеспечивающего преобразование текста в речь и распознавание речи. двигатели от Локендо

Эти постоянные исследования и разработки привели к тому, что Loquendo стал одним из самых известных брендов в области синтеза и распознавания голоса.

Бренд

Название Loquendo было придумано женой основателя компании Сильвано Джорджелли, а логотип был создан графическим отделом Telecom Italia . При отображении в виде анимированного изображения три ряби над буквой «O» последовательно включаются, создавая ощущение излучения звука.

Бренд не защищен компанией, есть и другие итальянские компании, название которых напрямую происходит от Loquendo, и это способствовало его широкому использованию, даже за счет конкурирующих брендов.

Продажа компании

На протяжении многих лет ходили слухи о продаже Loquendo другим компаниям.

Последнее произошло летом 2011 года, когда было объявлено, что две транснациональные компании в США, Nuance и Avaya , рассматривают возможность поглощения.

Поскольку Nuance была прямым конкурентом итальянской компании, работники Loquendo беспокоились о возможном расчленении исследований и разработок и исчезновении из Италии отличного бренда с сорокалетним опытом.

Покупка компанией Avaya казалась более желательной, поскольку ее деятельность дополняла деятельность Локендо; Фактически Avaya не владела какими-либо речевыми технологиями и поэтому могла быть очень заинтересована в возможности собственной разработки, а не в приобретении их у сторонних компаний.

Эти доклады вызвали большой интерес у рабочих, местных властей Турина и Пьемонта и всего международного научного сообщества.

13 августа 2011 года Telecom Italia публично объявила о продаже всей своей доли в Loquendo компании Nuance за 53 миллиона евро.

Продукты

Библиография

(it) Луиджи Бонаволья, "CSELT trent'anni" , Под ред. CSELT, 1994 [1]
(it) Роберто Билли (куратор) со следующими авторами CSELT: Агостино Аппендино, Джанкарио Бабини, Паоло Баджия, Роберто Билли, Альфредо Биокка, Пьер Джорджо Боско, Франко Канавесио, Джузеппе Кастагнери, Альберто Чьярамелла, Морена Даниэли, Фульвио Лучано Фиссоре, Роберто Джемелло, Элизабетта Гербино, Эджидио Джачин, Джорджо Микка, Роберто Монтанья, Лучано Неббиа, Сильвия Квацца, Даниэле Роффинелла, Лучано Росбох, Клаудио Руллент, Пьер Луиджи Сальца, Стефано Лакнологинэ, вокалистка . Nuovi servizi a portata di voce " , Под ред. Telecom Lab 1995, ISBN 88-85404-09-X , ISBN 978-88-85404-09-0
(ru) Пирани, Джанкарло, изд. Продвинутые алгоритмы и архитектуры для понимания речи. Vol. 1. Springer Science & Business Media, 2013. ISBN 978-3-540-53402-0.
(it) Quarant'anni d'innovazione , изд. Millennium srl, (дополнение к al num 224 di Media Duemila, 2005 г.)
(это) torinowireless.it
(это) smau.it
(это) corriere.it
(это) isticom.it
(это) deputatids.it
(это) h-care.eu
(it) Forum PA 17–20 maggio 2010 - Cartella Stampa AVAYA

Languages

In other projects