Ограничения для детей (18+)
Новые ведомости
 Понедельник, 11 12 2017
Home / НОВОСТИ / При помощи приложения от «Яндекс» можно будет переводить речь в текст

При помощи приложения от «Яндекс» можно будет переводить речь в текст

«Яндекс» представил 30 октября на ежегодной конференции для разработчиков технологию по распознаванию и синтезу речи. Она уже была доступна сторонним разработчикам: теперь ей могут пользоваться в мобильном приложении «Яндекс.Диктовка» обычные пользователи.

Технология называется Yandex SpeechKit, с ее помощью можно, в частности, активировать разные команды голосом, переводить речь в текст и наоборот –озвучивать тексты, причем выбирая интонацию, управлять устройством с помощью голоса.

Кроме того, технология умеет выделять смысловые объекты, то есть выделить в распознанном тексте стандартные понятия, например, дату, время, фамилию или адрес. Это используется, чтобы управлять устройствами простыми фразами, которые не нужно заучивать. Например, для сервиса автоматизированного заказа такси: пользователь голосом заказывает такси, технология переводит речь в текст и выделяет такие объекты, как адрес и время подачи, дальше идет оформление заказа.

Пока система распознает русский и турецкий языки, в планах – английский. Она встроена в мобильное приложение «Яндекс.Диктовка». Это только демо-версия: распознавать спонтанную речь оно не может, только тексты произвольной тематики от одного человека.

Затраты на собственную разработку «Яндекс» не раскрывает. Представители компании утверждают, что создали продукт своими силами – без привлечения сторонних специалистов.

Подобные технологии есть и у других интернет-компаний: у Apple есть несколько приложений (разработчик – Nuance). Например, программа Dragon Dictation распознает текст и позволяет скопировать и вставить его в другое приложение, а также сразу отослать в электронном письме или SMS, отправить в Twitter или Facebook, а Dragon Search – это голосовой поиск. Dragon Dictation и Dragon Search используют облачные технологии, а база голосовых данных для распознавания речи находится на серверах Nuance, пишет Apple Insider, поэтому их работа зависит от скорости интернета.

В устройствах с операционной системой Android (разработчик – Google) есть голосовой поиск, возможность перевода речи в текст. С 2013 года функция распознавания речи появилась и в браузере Google Chrome: система умеет переводить устную речь в печатный текст. Разработчики благодаря Web Speech API могут встраивать функции, связанные с распознаванием речи и выполнением голосовых команд, в свои приложения.

Технологии обеих компаний умеют распознавать русский язык.
Свою технологию распознавания речи Yandex SpeechKit российская компания представила в прошлом году. Она основана на исследовании больших массивов данных, обучении нейронных сетей и вычислительных мощностях «Яндекса», поясняют разработчики. Они уверяют, что система верно распознает 88% слов по коротким запросам, 95% слов – по геозапросам.

Сторонние разработчики получают технологии «Яндекса», подписавшись на библиотеку Yandex SpeechKit Mobile SDK: она позволяет встраивать речевые технологии в приложения для Android, iOS и Windows Phone. «Яндекс» гарантирует работу только тех приложений, которым нужно до 10 тыс. головых запросов в сутки. Все данные компания обрабатывает на своих серверах.

Yandex SpeechKit работает примерно в 500 мобильных приложениях, в том числе самой компании («Яндекс.Навигатор», «Яндекс.Браузер», «Яндекс.Город»,«Яндекс.Карты» и «Яндекс.Поиск»). Услуга заинтересовала разработчиков из разных сфер, утверждают в пресс-службе. «Это приложения совершенно различных тематик: от игр до специализированных корпоративных приложений», – сказала РБК представитель компании Юлия Бабикова.

Кроме мобильного сервиса, в августе 2014 года «Яндекс» запустил облачный. SpeechKit Cloud позволяет добавить функцию распознавания речи в разные программы и устройства – от компьютерной игры до робота. Эта технология, уверяют в компании, уже используется в колл-центрах для автоматизации обращений, с большим количеством партнеров из разных сфер ведутся переговоры.

SpeechKit Cloud доступен на коммерческой основе. «Мы выдали 600 ключей компаниям из разных сфер (робототехника, телефония, медицина и других), которые вот прямо сейчас тестируют технологию распознавания речи Yandex SpeechKit в своих продуктах и сервисах», – пояснили РБК в пресс-службе «Яндекса».

Служба информации «НВ»


*Экстремистские и террористические организации, запрещенные в Российской Федерации: «Правый сектор», «Украинская повстанческая армия» (УПА), «ИГИЛ», «Джабхат Фатх аш-Шам» (бывшая «Джабхат ан-Нусра», «Джебхат ан-Нусра»), Национал-Большевистская партия, «Аль-Каида», «УНА-УНСО», «Талибан», «Меджлис крымско-татарского народа», «Свидетели Иеговы», «Мизантропик Дивижн», «Братство» Корчинского.

Рейтинг@Mail.ru