OpenAI оновлює свої моделі штучного інтелекту транскрипції та генерування голосу
OpenAI оновлює свої моделі штучного інтелекту транскрипції та генерування голосу

OpenAI оновлює свої моделі штучного інтелекту транскрипції та генерування голосу

OpenAI додає нові моделі штучного інтелекту транскрипції та генерування голосу до свого API, які, як стверджує компанія, вдосконалені в порівнянні з попередніми випусками.

Для OpenAI моделі вписуються в його ширше «агентне» бачення: створення автоматизованих систем, які можуть самостійно виконувати завдання від імені користувачів. Визначення «агента» може бути суперечливим , але керівник відділу продуктів OpenAI Олів’є Годемент описав одну інтерпретацію як чат-бота, який може спілкуватися з клієнтами компанії.

«У найближчі місяці ми побачимо все більше і більше агентів», — сказав Годемент TechCrunch під час брифінгу. «І тому загальна тема полягає в тому, щоб допомогти клієнтам і розробникам використовувати агенти, які є корисними, доступними та точними».

OpenAI стверджує, що його нова модель перетворення тексту в мовлення «gpt-4o-mini-tts» не тільки забезпечує більш тонке та реалістичне звучання мови, але також є більш «керованою», ніж її моделі синтезу мовлення попереднього покоління. Розробники можуть інструктувати gpt-4o-mini-tts про те, як говорити речі природною мовою — наприклад, «говорити як божевільний учений» або «використовувати спокійний голос, як учитель уважності».

Ось «справжній кримінальний стиль», витриманий голос:

А ось зразок жіночого «професійного» голосу:

Джефф Харріс, член відділу продукту в OpenAI, сказав TechCrunch, що мета полягає в тому, щоб дозволити розробникам адаптувати як «досвід» голосу, так і «контекст».

«У різних контекстах вам не потрібен рівний, монотонний голос», — сказав Гарріс. «Якщо ви працюєте зі службою підтримки клієнтів і хочете, щоб ваш голос перепросив, тому що він зробив помилку, ви можете зробити так, щоб у голосі були такі емоції… Ми переконані, що розробники та користувачі хочуть справді контролювати не лише те, що говорять, але й те, як вони говорять».

Що стосується нових моделей перетворення мовлення в текст OpenAI, «gpt-4o-transcribe» і «gpt-4o-mini-transcribe», вони фактично замінюють довгострокову модель транскрипції компанії Whisper . Навчаючись на «різноманітних високоякісних наборах аудіоданих», нові моделі можуть краще вловлювати акцентовану та різноманітну мову, стверджує OpenAI, навіть у хаотичному середовищі.

Вони також менш схильні до галюцинацій, додав Гарріс. Шепіт, як відомо, мав тенденцію до вигадування слів — і навіть цілих уривків — у розмовах, вносячи в стенограми все, від расових коментарів до уявних медичних процедур.

«Ці моделі значно покращені порівняно з Whisper у цьому плані», — сказав Гарріс. «Переконайтеся, що моделі точні, щоб отримати надійний голосовий досвід, і точність [у цьому контексті] означає, що моделі точно чують слова [і] не заповнюють деталі, яких вони не чули».

Однак ваш пробіг може відрізнятися залежно від мови транскрибування.

Відповідно до внутрішніх тестів OpenAI, gpt-4o-transcribe, точніша з двох моделей транскрипції, має «рівень помилок у словах», що наближається до 30% (зі 120%) для індійських і дравідійських мов, таких як тамільська, телугу, малаялам і каннада. Це означає, що три з кожних 10 слів моделі відрізнятимуться від людської транскрипції в цих мовах.

Результати транскрипції OpenAI
Результати порівняльного аналізу транскрипції OpenAI.Авторство зображення: OpenAI

Порушуючи традицію, OpenAI не планує робити свої нові моделі транскрипції відкрито доступними. Раніше компанія випускала нові версії Whisper для комерційного використання за ліцензією MIT.

Гарріс сказав, що gpt-4o-transcribe і gpt-4o-mini-transcribe «набагато більші, ніж Whisper», і тому не є хорошими кандидатами для відкритого випуску.

«Це не та модель, яку можна просто запускати локально на своєму ноутбуці, як Whisper», — продовжив він. "[Ми] хочемо переконатися, що якщо ми випускаємо речі з відкритим вихідним кодом, ми робимо це продумано, і у нас є модель, яка справді відточена для цієї конкретної потреби. І ми вважаємо, що пристрої кінцевих користувачів є одним із найцікавіших випадків для моделей з відкритим кодом".

Источник материала
loader
loader