VUI (Voice User Interface)

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 00:44, 26 мая 2019.
Версия от 00:44, 26 мая 2019; n.ochirov (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Voice User Interface (VUI) делает возможным разговорное общение человека с компьютерами, используя распознавание речи для понимания голосовых команд и вопросов, и, как правило, преобразование текста в речь для воспроизведения ответа. Voice Command Device (VCD) - это устройство, управляемое с помощью голосового пользовательского интерфейса.

Голосовые пользовательские интерфейсы были добавлены к автомобилям, системам домашней автоматизации, компьютерным операционным системам, бытовым приборам, таким как стиральные машины и микроволновые печи, и телевизионным пультам дистанционного управления. Они являются основным способом взаимодействия с виртуальными помощниками на смартфонах и интеллектуальных колонках.

Более новые VCD независимы от динамиков, поэтому они могут отвечать на несколько голосов, независимо от акцентного или диалектного влияния. Они также способны реагировать на несколько команд одновременно, разделять голосовые сообщения и обеспечивать соответствующую обратную связь, точно имитируя естественный разговор.

Обзор

VUI - это интерфейс для любого речевого приложения. До недавнего времени эта область считалась искусственным интеллектом. Однако достижения в таких технологиях, как преобразование текста в речь, преобразование речи в текст, обработка естественного языка и облачные сервисы, в целом способствовали массовому внедрению этих типов интерфейсов. VUI стали более распространенным явлением, и люди пользуются преимуществами, которые эти громкоговорящие интерфейсы предоставляют во многих ситуациях.

VUI должны отвечать на входные данные надежно, иначе они будут отклонены. Создание хорошего VUI требует междисциплинарных талантов в области компьютерных наук, лингвистики и психологии человеческого фактора - все это дорогостоящие и труднодоступные навыки. Даже с использованием передовых инструментов разработки, создание эффективного VUI требует глубокого понимания как задач, которые необходимо выполнить, так и целевой аудитории, которая будет использовать конечную систему. Чем ближе VUI соответствует ментальной модели задачи пользователя, тем проще будет использовать его практически без обучения, что приведет к повышению эффективности и удовлетворенности пользователей.

VUI, разработанный для широкой публики, должен подчеркивать простоту использования и предоставлять много помощи и рекомендаций для начинающих абонентов. В отличие от этого, VUI, предназначенный для небольшой группы опытных пользователей (включая работников на местах), должен уделять больше внимания производительности, а не помощи и руководству. Такие приложения должны оптимизировать потоки вызовов, минимизировать запросы, исключать ненужные итерации и позволять разрабатывать «смешанные диалоговые окна инициативы», которые позволяют вызывающим абонентам вводить несколько фрагментов информации в одном высказывании и в любом порядке или комбинации. Короче говоря, речевые приложения должны быть тщательно разработаны для конкретного автоматизируемого бизнес-процесса.

Не все бизнес-процессы одинаково хороши для автоматизации речи. В целом, чем сложнее запросы и транзакции, тем сложнее их автоматизировать и тем больше вероятность, что они потерпят неудачу с широкой публикой. В некоторых сценариях автоматизация просто не применима, поэтому помощь агента в реальном времени - единственный вариант. Например, горячую линию юридической консультации было бы очень сложно автоматизировать. С другой стороны, речь идеально подходит для обработки быстрых и рутинных транзакций, таких как изменение статуса рабочего задания, завершение ввода времени или затрат или перевод средств между счетами.

История

Ранние приложения для VUI включали голосовой набор телефонов, напрямую или через (обычно Bluetooth) гарнитуру или автомобильную аудиосистему.

В 2007 году в деловой статье CNN сообщалось, что голосовая команда была индустрией стоимостью более миллиарда долларов и что такие компании, как Google и Apple, пытались создать функции распознавания речи. Прошли годы с момента публикации статьи, и с тех пор мир стал свидетелем множества устройств голосового управления. Кроме того, Google создала механизм распознавания речи под названием Pico TTS, а Apple выпустила Siri. Устройства голосовых команд становятся все более доступными, и всегда создаются инновационные способы использования человеческого голоса.

Программные продукты голосовых команд

И Apple Mac, и Windows PC предоставляют встроенные функции распознавания речи для своих последних операционных систем.

Microsoft Windows

Две операционные системы Microsoft, Windows 7 и Windows Vista, предоставляют возможности распознавания речи. Microsoft интегрировала голосовые команды в свои операционные системы, чтобы предоставить механизм людям, которые хотят ограничить использование мыши и клавиатуры, но при этом хотят сохранить или повысить общую производительность.

Windows Vista

С помощью голосового управления Windows Vista пользователь может диктовать документы и электронную почту в основных приложениях, запускать и переключаться между приложениями, управлять операционной системой, форматировать документы, сохранять документы, редактировать файлы, эффективно исправлять ошибки и заполнять формы в Интернете. Программное обеспечение для распознавания речи распознает автоматически каждый раз, когда пользователь использует его, и распознавание речи доступно на английском (США), английском (Великобритания), немецком (Германия), французском (Франция), испанском (Испания), японском, китайском (традиционный) и китайский (упрощенный). Кроме того, программное обеспечение поставляется с интерактивным учебным пособием, которое можно использовать для обучения как пользователя, так и механизма распознавания речи.

Windows 7

В дополнение ко всем функциям Windows Vista в Windows 7 есть мастер настройки микрофона и учебное пособие по использованию этой функции.

Mac OS X

Все компьютеры Mac OS X предустановлены с программным обеспечением для распознавания речи. Программное обеспечение не зависит от пользователя и позволяет пользователю «перемещаться по меню и вводить сочетания клавиш; произносить имена флажков, имена переключателей, элементы списка и имена кнопок, а также открывать, закрывать, контролировать и переключаться между приложениями». Тем не менее, сайт Apple рекомендует пользователю купить коммерческий продукт под названием Dictate.

Коммерческие продукты

Если пользователь не удовлетворен встроенным программным обеспечением для распознавания речи или у него нет встроенного программного обеспечения для распознавания речи для его ОС, то пользователь может поэкспериментировать с коммерческим продуктом, таким как Braina Pro или DragonNaturallySpeaking для ПК с Windows, и Dictate, название того же программного обеспечения для Mac OS.

Голосовые команды мобильных устройств

Любое мобильное устройство под управлением ОС Android, Microsoft Windows Phone, iOS 5 или более поздней версии или Blackberry OS предоставляет возможности голосовых команд. В дополнение к встроенному программному обеспечению для распознавания речи для каждой операционной системы мобильного телефона пользователь может загружать сторонние приложения голосовых команд из магазина приложений каждой операционной системы: Apple App Store, Google Play, Windows Phone Marketplace (изначально Windows Marketplace для мобильных устройств) или Мир приложений BlackBerry.

ОС Android Google разработал операционную систему с открытым исходным кодом под названием Android, которая позволяет пользователю выполнять голосовые команды, такие как: отправлять текстовые сообщения, слушать музыку, получать указания, звонить в компании, звонить контактам, отправлять электронную почту, просматривать карту, посещать веб-сайты, напишите заметку и выполните поиск в Google. Google позволяет пользователю изменять язык, и пользователю предлагается, когда он впервые использует функцию распознавания речи, если он или она хочет, чтобы их голосовые данные были присоединены к его учетной записи Google. Если пользователь решает выбрать этот сервис, он позволяет Google обучать программное обеспечение голосу пользователя.

Microsoft Windows Windows Phone - это операционная система мобильного устройства Microsoft. На Windows Phone речевое приложение не зависит от пользователя и может использоваться для: вызова кого-либо из вашего списка контактов, вызова любого номера телефона, повторного набора последнего номера, отправки текстового сообщения, вызова голосовой почты, открытия приложения, чтения встреч, запросить статус телефона и поиск в Интернете. Кроме того, речь может также использоваться во время телефонного звонка, и во время телефонного звонка возможны следующие действия: нажмите номер, включите громкую связь или позвоните кому-нибудь, что переводит текущий вызов в режим удержания.

Windows 10 представляет Cortana, систему голосового управления, которая заменяет ранее использовавшийся голосовой контроль на телефонах с Windows.

iOS Голосовое управление iOS все еще можно включить через меню «Настройки». Siri - это независимая от пользователя встроенная функция распознавания речи, которая позволяет пользователю давать голосовые команды. С помощью Siri пользователь может отправлять такие команды, как, отправлять текстовые сообщения, проверять погоду, устанавливать напоминания, находить информацию, планировать встречи, отправлять электронную почту, находить контакты, устанавливать будильник, получать указания, отслеживать свои акции, установить таймер и запросить примеры запросов голосовых команд. Кроме того, Siri работает с Bluetooth и проводными наушниками.

Примечания

  1. Voice Control, the End of the TV Remote?" Business Week. Retrieved 1 May 2012.
  2. "Speech Recognition Set Up" Microsoft.
  3. "Physical and Motor Skills" Apple.
  4. "DragonNaturallySpeaking PC" Nuance.
  5. DragonNaturallySpeaking Mac" Nuance.
  6. "Voice Actions" Google.
  7. "Google Voice Search For Android Can Now Be "Trained" To Your Voice" Retrieved 24 April 2012.
  8. "Using Voice Command" Microsoft. Retrieved 24 April 2012.

Ссылки