/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2Fa80367a38a629e829e973cd1d04a87df.jpg)
OpenAI оновлює свої моделі штучного інтелекту транскрипції та генерування голосу
OpenAI додає нові моделі штучного інтелекту транскрипції та генерування голосу до свого API, які, як стверджує компанія, вдосконалені в порівнянні з попередніми випусками.
Для OpenAI моделі вписуються в його ширше «агентне» бачення: створення автоматизованих систем, які можуть самостійно виконувати завдання від імені користувачів. Визначення «агента» може бути суперечливим , але керівник відділу продуктів OpenAI Олів’є Годемент описав одну інтерпретацію як чат-бота, який може спілкуватися з клієнтами компанії.
«У найближчі місяці ми побачимо все більше і більше агентів», — сказав Годемент TechCrunch під час брифінгу. «І тому загальна тема полягає в тому, щоб допомогти клієнтам і розробникам використовувати агенти, які є корисними, доступними та точними».
OpenAI стверджує, що його нова модель перетворення тексту в мовлення «gpt-4o-mini-tts» не тільки забезпечує більш тонке та реалістичне звучання мови, але також є більш «керованою», ніж її моделі синтезу мовлення попереднього покоління. Розробники можуть інструктувати gpt-4o-mini-tts про те, як говорити речі природною мовою — наприклад, «говорити як божевільний учений» або «використовувати спокійний голос, як учитель уважності».
Ось «справжній кримінальний стиль», витриманий голос:
А ось зразок жіночого «професійного» голосу:
Джефф Харріс, член відділу продукту в OpenAI, сказав TechCrunch, що мета полягає в тому, щоб дозволити розробникам адаптувати як «досвід» голосу, так і «контекст».
«У різних контекстах вам не потрібен рівний, монотонний голос», — сказав Гарріс. «Якщо ви працюєте зі службою підтримки клієнтів і хочете, щоб ваш голос перепросив, тому що він зробив помилку, ви можете зробити так, щоб у голосі були такі емоції… Ми переконані, що розробники та користувачі хочуть справді контролювати не лише те, що говорять, але й те, як вони говорять».
Що стосується нових моделей перетворення мовлення в текст OpenAI, «gpt-4o-transcribe» і «gpt-4o-mini-transcribe», вони фактично замінюють довгострокову модель транскрипції компанії Whisper . Навчаючись на «різноманітних високоякісних наборах аудіоданих», нові моделі можуть краще вловлювати акцентовану та різноманітну мову, стверджує OpenAI, навіть у хаотичному середовищі.
Вони також менш схильні до галюцинацій, додав Гарріс. Шепіт, як відомо, мав тенденцію до вигадування слів — і навіть цілих уривків — у розмовах, вносячи в стенограми все, від расових коментарів до уявних медичних процедур.
«Ці моделі значно покращені порівняно з Whisper у цьому плані», — сказав Гарріс. «Переконайтеся, що моделі точні, щоб отримати надійний голосовий досвід, і точність [у цьому контексті] означає, що моделі точно чують слова [і] не заповнюють деталі, яких вони не чули».
Однак ваш пробіг може відрізнятися залежно від мови транскрибування.
Відповідно до внутрішніх тестів OpenAI, gpt-4o-transcribe, точніша з двох моделей транскрипції, має «рівень помилок у словах», що наближається до 30% (зі 120%) для індійських і дравідійських мов, таких як тамільська, телугу, малаялам і каннада. Це означає, що три з кожних 10 слів моделі відрізнятимуться від людської транскрипції в цих мовах.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F7efe3316d09bcce73e2623cc864f9b36.png)
Порушуючи традицію, OpenAI не планує робити свої нові моделі транскрипції відкрито доступними. Раніше компанія випускала нові версії Whisper для комерційного використання за ліцензією MIT.
Гарріс сказав, що gpt-4o-transcribe і gpt-4o-mini-transcribe «набагато більші, ніж Whisper», і тому не є хорошими кандидатами для відкритого випуску.
«Це не та модель, яку можна просто запускати локально на своєму ноутбуці, як Whisper», — продовжив він. "[Ми] хочемо переконатися, що якщо ми випускаємо речі з відкритим вихідним кодом, ми робимо це продумано, і у нас є модель, яка справді відточена для цієї конкретної потреби. І ми вважаємо, що пристрої кінцевих користувачів є одним із найцікавіших випадків для моделей з відкритим кодом".

