ElevenLabs представила Eleven v3 — свою нову «емоційно найнасиченішу» ШІ-модель для перетворення тексту в мовлення

6 червня, 17:00

Американський стартап ElevenLabs представив свою «емоційно найнасиченішу та найвиразнішу» ШІ-модель для перетворення тексту в мовлення Eleven v3 (alpha) — про це компанія повідомила в LinkedIn. Модель робить аудіо понад 70 мовами та діалоги з кількома голосами.

«Це попередній дослідницький реліз. Для отримання найкращих результатів він вимагає більше prompt engineering, ніж попередні моделі — але результати вражають. Ми продовжуємо тонке налаштування для кращої стабільності та контролю», — пише ElevenLabs.

У компанії кажуть, що нова архітектура Eleven v3 глибше розуміє текст — і це дозволяє досягати набагато більшої емоційної виразності. Тепер можна задавати настрій генерації за допомогою аудіотегів:

Емоції: [sad], [angry], [happily];
Манера подачі: [whispers], [shouts];
Невербальні реакції: [laughs], [clears throat], [sighs].

Eleven v3 (alpha) може створювати динамічні діалоги з інтонаційними переходами, перебиваннями, емоційними відтінками та контекстуальним розумінням.

«Для реального часу та розмовних застосунків наразі краще використовувати v2.5 Turbo або Flash. Real-time версія v3 вже в розробці», — йдеться у блозі.

Публічний API-доступ з’явиться незабаром. А для раннього доступу команда каже звертатися до відділу продажів. Eleven v3 наразі доступний зі знижкою 80% у червні.

Нагадаємо, раніше ElevenLabs представив свою першу модель перетворення аудіо та відео в текст під назвою Scribe, яка, за їхніми заявами, є найточнішою у світі.

Джерело матеріала