Второй выпуск альманаха «Искусственный интеллект». «Обработка естественного языка, распознавание и синтез речи»

Второй выпуск альманаха «Искусственный интеллект». «Обработка естественного языка, распознавание и синтез речи»

Альманах подготовлен Центром компетенций НТИ на базе МФТИ по направлению «Искусственный интеллект». В альманахе описаны ключевые технологии, примеры их применения, ключевые компании, университеты и люди, а также тренды и прогнозы в отрасли обработки естественного языка, диалоговых систем, распознавания и синтеза речи.

Авторы альманаха представили краткую сводку истории NLP (обработки естественного языка) и речевых технологий. Согласно исследованию, способность и обучение машин пониманию естественного человеческого языка остаётся в фокусе последующих разработок, связанных с ИИ. Этому посвящена его первая часть — авторы рассматривают уровень развития технологий обработки естественного языка, поиска и извлечения информации из текстов.

Сейчас машинам всё еще трудно воспринимать естественную речь. Им недостаточно понимать смысл отдельных слов — необходимо построение языковых моделей и механизмов внимания, которые помогают ИИ определить вероятность следующего слова в предложении и улучшить качество ответов на запросы пользователей. Так, можно сделать вывод, что естественный разговор с роботом остаётся пока далёкой перспективой. Машинам необходимо более глубокое понимание различных логических связей, человеческой эмпатии и поведения собеседника.

Системы распознавания и синтеза речи также развиваются довольно быстро. Из самых успешных примеров в альманахе выделены Siri от Apple, Cortana от Microsoft и Google Assistant. Экспертами рассматриваются процент ошибки машин в понимании речи и определены самые удобные инструменты для обучения искусственного интеллекта разговору.

Исследователи выявили, что машинам на сегодняшний день удаётся почти без ошибок распознавать человеческую речь, но проблемы возникают в ситуациях, когда речь не подготовлена и не записана специально, а происходит в неформальной обстановке. Проблемы в синтезе речи включают в себя имитирование эмоциональности речи и синтез редких языков, которые обладают недостаточным объёмом данных для моделирования.

Далее исследователи измерили качество машинного перевода и генерации текстов. Одним из ключевых нововведений является использование доменно-адаптивного машинного перевода, который позволяет “дообучать” системы перевода на собственных данных и повысить качество перевода исходя из задач конкретного заказчика. В генерации текста стоит проблема обучения машин генерировать речь не слово за словом, а в соответствии с целостным планом диалога.

Предиктивные модели — мощное средство машинного обучения языку. Подобная языковая модель (language model) должна уметь предсказывать возможное продолжение отрывка текста и уметь генерировать целостный, осмысленный текст.

Были также рассмотрены сервисы анализа тональности (определение отношения или реакции говорящего или пишущего субъекта к какому-либо объекту, действию или событию). На данный момент машины с большой точностью способны определить, каков характер высказывания — негативный или позитивный — и даже меру его субъективности.

По прогнозам экспертов, в период с 2019 по 2024 гг. глобальные расходы на диалоговые сервисы будут увеличиваться на 34,75% ежегодно и достигнут своего значения $7,59 млрд к концу периода.

Так в Альманахе оценивается перспектива развития рынка диалоговых систем (чат-ботов). Особое внимание было уделено методам оценки качества виртуальных ассистентом. Чат-боты уже используются в различных секторах бизнеса, включая туристическую и финансовую индустрии, HR и недвижимость и становятся всё более распространённым инструментом коммуникации между бизнесом и клиентами. Перед разработчиками стоит важная задача сделать чат-ботов максимально эффективными, удобными и приятными для разговора.

В топ-15 компаний в России в области NLP, по мнению авторов, вошли Яндекс, ЦРТ, ABBYY, Just AI, Наносемантика и ряд других разработчиков. Среди выдающихся разработок были выделены голосовой помощник Яндекс Алиса, инновационные технологии голосовой биометрии, обработки и анализа аудио- и видеоинформации группы ЦРТ, Just AI Conversational Platform — платформа для разработки разговорных чат-ботов, понимающих естественный язык.

В альманахе можно ознакомиться с интересными случаями применения ИИ-технологий и трендами развития отдельных отраслей — логистики и промышленности, финансов и страхования, медицины и юридической сферы. Из проведённого анализа видно, что системы искусственного интеллекта усиленно обучаются “вести себя” естественно и лучше понимать человека. Количество голосовых роботов будет расти, так же как и их повсеместное внедрение в устройства и системы – именно так можно сформулировать общую тенденцию развития технологии ИИ в обозримом будущем.

Скачать альманах можно на официальном сайте: https://aireport.ru/nlp

Источник: Наносемантика, Новости, 17 сентября 2019, Наносемантика в ТОП-15 российских компаний в области обработки естественного языка, распознавания и синтеза речи