Nvidia представила ИИ-модель Fugatto, которая «понимает и генерирует звук так же, как это делают люди»
Nvidia представила ИИ-модель Fugatto, которая «понимает и генерирует звук так же, как это делают люди»

Nvidia представила ИИ-модель Fugatto, которая «понимает и генерирует звук так же, как это делают люди»

Nvidia представила ИИ-модель Fugatto, которая «понимает и генерирует звук так же, как это делают люди» - Фото 1

Nvidia представила новый экспериментальный генеративный ИИ, который называет «универсальным инструментом для работы со звуком».

Эта модель, известная как Foundational Generative Audio Transformer Opus 1 (или Fugatto), может воспринимать текстовые подсказки и использовать их для создания аудио или изменения существующих музыкальных, голосовых и звуковых файлов. Над разработкой модели работала международная команда исследователей ИИ, что, по словам NVIDIA, сделало ее «многоакцентные и многоязычные возможности» еще сильнее.

Рафаэль Валле, один из исследователей проекта и менеджер прикладных аудиоисследований в NVIDIA, отметил: «Мы хотели создать модель, которая понимает и генерирует звук так же, как это делают люди».

Компания привела несколько примеров, где Fugatto может быть полезна. Например, музыкальные продюсеры смогут быстро создавать прототипы песен, которые затем легко редактировать, изменяя стили, голоса и инструменты.

Люди смогут использовать Fugatto для создания материалов для изучения языков с выбранным голосом. А разработчики видеоигр смогут создавать различные варианты заранее записанных звуков, чтобы они соответствовали изменениям в игре в зависимости от выбора и действий игроков.

Кроме того, исследователи выявили, что модель может выполнять задачи, которым ее не учили, с небольшой дополнительной настройкой. Например, она может сочетать отдельно освоенные команды, чтобы генерировать сердитый голос с определенным акцентом или звук пения птиц во время грозы. Модель также способна создавать звуки, которые меняются со временем, как-то звук приближающегося дождя.

Спецпроекты

NVIDIA не сообщила, будет ли предоставлен публичный доступ к Fugatto. Но эта модель ИИ — не первая генеративная модель, способная создавать звуки из текстовых подсказок. Ранее Meta выпустила открытый ИИ-инструментарий, который может генерировать звуки из текстовых описаний. А Google имеет собственный ИИ под названием MusicLM, который превращает текст в музыку.

Источник: Nvidia, Engadget

Nvidia представила ИИ-модель Fugatto, которая «понимает и генерирует звук так же, как это делают люди» - Фото 2
Источник материала
loader
loader