7waysconsult

Amazon представила Nova Sonic: новую модель генеративного ИИ для обработки голоса

09.04.2025

mefdayy

Во вторник компания Amazon представила новую модель генеративного искусственного интеллекта Nova Sonic, способную обрабатывать голос и генерировать естественную речь. Amazon утверждает, что производительность Sonic сопоставима с передовыми моделями обработки голоса от OpenAI и Google по таким показателям, как скорость, распознавание речи и качество общения.

Nova Sonic — это ответ Amazon на новые голосовые модели ИИ, такие как модель, лежащая в основе голосового режима ChatGPT. В отличие от более ранних версий Amazon Alexa, Nova Sonic обеспечивает более естественное общение.

Nova Sonic доступна через Bedrock, платформу Amazon для разработчиков корпоративных приложений на основе ИИ, с помощью нового двунаправленного потокового API. В пресс-релизе Amazon назвала Nova Sonic «самой экономичной» голосовой моделью ИИ на рынке, которая примерно на 80% дешевле, чем GPT-4o от OpenAI.

По словам старшего вице-президента Amazon и главного научного сотрудника AGI Рохита Прасада, компоненты Nova Sonic уже используются в Alexa+, обновлённом цифровом голосовом помощнике Amazon.

В интервью TechCrunch Прасад рассказал, что Nova Sonic опирается на опыт Amazon в «крупных системах управления» — технических платформах, на которых работает Alexa. По словам Прасада, по сравнению с конкурирующими голосовыми моделями ИИ Nova Sonic лучше справляется с маршрутизацией пользовательских запросов к различным API. Эта возможность помогает Nova Sonic «знать», когда ей нужно получать информацию из интернета в режиме реального времени, анализировать собственный источник данных или выполнять действия во внешнем приложении — и использовать для этого подходящий инструмент.

Во время двустороннего диалога Nova Sonic начинает говорить «в подходящий момент», учитывая паузы и перерывы в речи собеседника, сообщает Amazon. Он также генерирует текстовую расшифровку речи пользователя, которую разработчики могут использовать в различных приложениях.

По словам Прасада, Nova Sonic менее подвержена ошибкам распознавания речи, чем другие модели искусственного интеллекта, что означает, что модель относительно хорошо понимает намерения пользователя, даже если он бормочет, искажает речь или находится в шумной обстановке.

В тесте для измерения распознавания речи на разных языках и диалектах Multilingual LibriSpeech, Amazon сообщает, что Nova Sonic достигла показателя ошибок в словах (WER) всего 4,2% при среднем показателе по английскому, французскому, итальянскому, немецкому и испанскому языкам. Это означает, что примерно четыре из каждых 100 слов в модели отличались от человеческой транскрипции на этих языках.

В другом тесте, измеряющем громкие взаимодействия с несколькими участниками, дополненное многопользовательское взаимодействие, Amazon говорит, что Nova Sonic была на 46,7% точнее с точки зрения WER, чем модель OpenAI GPT-4o-transcribe. Nova Sonic также обладает лучшей в отрасли скоростью, со средней предполагаемой задержкой в 1,09 секунды, по данным Amazon. Это делает ее быстрее, чем модель GPT-4o, использующая API реального времени OpenAI, который реагирует за 1,18 секунды на сравнительный анализ с помощью искусственного анализа.

Прасад говорит, что Nova Sonic — это часть более широкой стратегии Amazon по созданию AGI. В будущем, по словам Прасада, Amazon планирует выпустить больше моделей искусственного интеллекта, способных понимать различные форматы, включая изображения, видео и голос, а также «другие сенсорные данные, которые важны, если вы переносите объекты в физический мир».

Подразделение Amazon AGI, которым руководит Прасад, похоже, в наши дни играет более важную роль в продуктовой стратегии компании. Только на прошлой неделе Amazon запустила предварительную версию Nova Act, модели ИИ, использующей браузер, которая, по-видимому, лежит в основе элементов Alexa+ и функции Amazon «Купи для меня». Начиная с Nova Sonic, Прасад говорит, что компания хочет предложить разработчикам больше своих внутренних моделей ИИ.

Источник

Новости