OpenAI оновлює свої моделі штучного інтелекту транскрипції та генерування голосу

22 березня, 09:46

OpenAI додає нові моделі штучного інтелекту транскрипції та генерування голосу до свого API, які, як стверджує компанія, вдосконалені в порівнянні з попередніми випусками.

Для OpenAI моделі вписуються в його ширше «агентне» бачення: створення автоматизованих систем, які можуть самостійно виконувати завдання від імені користувачів. Визначення «агента» може бути суперечливим , але керівник відділу продуктів OpenAI Олів’є Годемент описав одну інтерпретацію як чат-бота, який може спілкуватися з клієнтами компанії.

«У найближчі місяці ми побачимо все більше і більше агентів», — сказав Годемент TechCrunch під час брифінгу. «І тому загальна тема полягає в тому, щоб допомогти клієнтам і розробникам використовувати агенти, які є корисними, доступними та точними».

OpenAI стверджує, що його нова модель перетворення тексту в мовлення «gpt-4o-mini-tts» не тільки забезпечує більш тонке та реалістичне звучання мови, але також є більш «керованою», ніж її моделі синтезу мовлення попереднього покоління. Розробники можуть інструктувати gpt-4o-mini-tts про те, як говорити речі природною мовою — наприклад, «говорити як божевільний учений» або «використовувати спокійний голос, як учитель уважності».

Ось «справжній кримінальний стиль», витриманий голос:

А ось зразок жіночого «професійного» голосу:

Джефф Харріс, член відділу продукту в OpenAI, сказав TechCrunch, що мета полягає в тому, щоб дозволити розробникам адаптувати як «досвід» голосу, так і «контекст».

«У різних контекстах вам не потрібен рівний, монотонний голос», — сказав Гарріс. «Якщо ви працюєте зі службою підтримки клієнтів і хочете, щоб ваш голос перепросив, тому що він зробив помилку, ви можете зробити так, щоб у голосі були такі емоції… Ми переконані, що розробники та користувачі хочуть справді контролювати не лише те, що говорять, але й те, як вони говорять».

Що стосується нових моделей перетворення мовлення в текст OpenAI, «gpt-4o-transcribe» і «gpt-4o-mini-transcribe», вони фактично замінюють довгострокову модель транскрипції компанії Whisper . Навчаючись на «різноманітних високоякісних наборах аудіоданих», нові моделі можуть краще вловлювати акцентовану та різноманітну мову, стверджує OpenAI, навіть у хаотичному середовищі.

Вони також менш схильні до галюцинацій, додав Гарріс. Шепіт, як відомо, мав тенденцію до вигадування слів — і навіть цілих уривків — у розмовах, вносячи в стенограми все, від расових коментарів до уявних медичних процедур.

«Ці моделі значно покращені порівняно з Whisper у цьому плані», — сказав Гарріс. «Переконайтеся, що моделі точні, щоб отримати надійний голосовий досвід, і точність [у цьому контексті] означає, що моделі точно чують слова [і] не заповнюють деталі, яких вони не чули».

Однак ваш пробіг може відрізнятися залежно від мови транскрибування.

Відповідно до внутрішніх тестів OpenAI, gpt-4o-transcribe, точніша з двох моделей транскрипції, має «рівень помилок у словах», що наближається до 30% (зі 120%) для індійських і дравідійських мов, таких як тамільська, телугу, малаялам і каннада. Це означає, що три з кожних 10 слів моделі відрізнятимуться від людської транскрипції в цих мовах.

Результати транскрипції OpenAI — Результати порівняльного аналізу транскрипції OpenAI.Авторство зображення: OpenAI

Порушуючи традицію, OpenAI не планує робити свої нові моделі транскрипції відкрито доступними. Раніше компанія випускала нові версії Whisper для комерційного використання за ліцензією MIT.

Гарріс сказав, що gpt-4o-transcribe і gpt-4o-mini-transcribe «набагато більші, ніж Whisper», і тому не є хорошими кандидатами для відкритого випуску.

«Це не та модель, яку можна просто запускати локально на своєму ноутбуці, як Whisper», — продовжив він. "[Ми] хочемо переконатися, що якщо ми випускаємо речі з відкритим вихідним кодом, ми робимо це продумано, і у нас є модель, яка справді відточена для цієї конкретної потреби. І ми вважаємо, що пристрої кінцевих користувачів є одним із найцікавіших випадків для моделей з відкритим кодом".

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Fortnite дозволить творцям заробляти гроші на власному контенті: ось як це працюватиме

24tv

1 хвилину тому

В Україні презентували підводний дрон Toloka: дальність до 2000 км і вантажопідйомність 5 тон

Фокус

25 хвилин тому

Від відстані до погоди. 8 функцій, які зробили б Google Maps ідеальним навігатором

InternetUA

28 хвилин тому

Покриття Венери Місяцем: з'явились перші фото рідкісного явища в Україні

24tv

28 хвилин тому

У мережі поширюють фейкову карту «поділу України» — ЦПД

ZN UA

55 хвилин тому

OpenAI оновлює свої моделі штучного інтелекту транскрипції та генерування голосу

Технології

Fortnite дозволить творцям заробляти гроші на власному контенті: ось як це працюватиме

Вчені знайшли цілу екосистему в бурштині віком 112 мільйонів років

Фотографуємо місяць на iPhone: прості прийоми для ідеального кадру в Instagram

Вийти з хмари: експерти назвали найнадійніший спосіб, як зберегти ваші дані

Поблизу станції «Академік Вернадський» народилися двоє перших тюленят

В Україні презентували підводний дрон Toloka: дальність до 2000 км і вантажопідйомність 5 тон

Від відстані до погоди. 8 функцій, які зробили б Google Maps ідеальним навігатором

Покриття Венери Місяцем: з'явились перші фото рідкісного явища в Україні

У мережі поширюють фейкову карту «поділу України» — ЦПД

Технології

Fortnite дозволить творцям заробляти гроші на власному контенті: ось як це працюватиме

Вчені знайшли цілу екосистему в бурштині віком 112 мільйонів років

Фотографуємо місяць на iPhone: прості прийоми для ідеального кадру в Instagram

Вийти з хмари: експерти назвали найнадійніший спосіб, як зберегти ваші дані

Поблизу станції «Академік Вернадський» народилися двоє перших тюленят

В Україні презентували підводний дрон Toloka: дальність до 2000 км і вантажопідйомність 5 тон

Від відстані до погоди. 8 функцій, які зробили б Google Maps ідеальним навігатором

Покриття Венери Місяцем: з'явились перші фото рідкісного явища в Україні

У мережі поширюють фейкову карту «поділу України» — ЦПД