Nvidia представила ИИ-модель Fugatto, которая «понимает и генерирует звук так же, как это делают люди»

25 ноября, 19:52

Nvidia представила новый экспериментальный генеративный ИИ, который называет «универсальным инструментом для работы со звуком».

Эта модель, известная как Foundational Generative Audio Transformer Opus 1 (или Fugatto), может воспринимать текстовые подсказки и использовать их для создания аудио или изменения существующих музыкальных, голосовых и звуковых файлов. Над разработкой модели работала международная команда исследователей ИИ, что, по словам NVIDIA, сделало ее «многоакцентные и многоязычные возможности» еще сильнее.

Рафаэль Валле, один из исследователей проекта и менеджер прикладных аудиоисследований в NVIDIA, отметил: «Мы хотели создать модель, которая понимает и генерирует звук так же, как это делают люди».

Компания привела несколько примеров, где Fugatto может быть полезна. Например, музыкальные продюсеры смогут быстро создавать прототипы песен, которые затем легко редактировать, изменяя стили, голоса и инструменты.

Люди смогут использовать Fugatto для создания материалов для изучения языков с выбранным голосом. А разработчики видеоигр смогут создавать различные варианты заранее записанных звуков, чтобы они соответствовали изменениям в игре в зависимости от выбора и действий игроков.

Кроме того, исследователи выявили, что модель может выполнять задачи, которым ее не учили, с небольшой дополнительной настройкой. Например, она может сочетать отдельно освоенные команды, чтобы генерировать сердитый голос с определенным акцентом или звук пения птиц во время грозы. Модель также способна создавать звуки, которые меняются со временем, как-то звук приближающегося дождя.

Спецпроекты

NVIDIA не сообщила, будет ли предоставлен публичный доступ к Fugatto. Но эта модель ИИ — не первая генеративная модель, способная создавать звуки из текстовых подсказок. Ранее Meta выпустила открытый ИИ-инструментарий, который может генерировать звуки из текстовых описаний. А Google имеет собственный ИИ под названием MusicLM, который превращает текст в музыку.

Источник: Nvidia, Engadget

Nvidia представила ИИ-модель Fugatto, которая «понимает и генерирует звук так же, как это делают люди» - Фото 2

Источник материала

ITC

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Авторы The Invincible представили антибоевую ролевую игру Dante's Ring — выходит в 2025 году

GameMag

1 день назад

Семейная традиция Комонов: ученые обнаружили следы бальзамирования на телах французских аристократов

Фокус

18 ноября 2024

"Пожалуйста, умри": искусственный интеллект устал от вопросов и нахамил пользователю

Фокус

14 ноября 2024

Замена солнечным панелям и ветрякам: необычные устройства для генерации чистой энергии

Фокус

9 минут назад

Петиции, подарки и голосовые сообщения от родных: мошенники выходят на новый уровень, как распознать обман

Знай

15 минут назад

Лучшие повербанки для смартфонов Samsung: рейтинг актуальных моделей 2024 года

Фокус

45 минут назад

"Космический скунс": астронавты сообщили о вони на российском корабле, прибывшем на МКС

TSN

2 часа назад

Скоро в мире появится "зеленый" интернет: что известно о новаторском проекте

Фокус

2 часа назад

Разговоры левиафанов: нечто в глубинах океана издает странные звуки

ZN UA

2 часа назад