OpenAI посилює зусилля розробників завдяки потужнішим моделям у своєму API

8 октября, 09:00

OpenAI представила нові оновлення API, представивши GPT-5 Pro, свою останню мовну модель, нову модель генерації відео Sora 2 та меншу та дешевшу голосову модель.

Ці оновлення були частиною серії оголошень , спрямованих на залучення розробників до екосистеми OpenAI, включаючи запуск інструменту для створення агентів та можливість створювати додатки в ChatGPT .

Додавання GPT-5 Pro може зацікавити розробників, які створюють додатки у фінансах, юриспруденції та охороні здоров'я — галузях, яким потрібна «висока точність і глибина міркувань», за словами генерального директора OpenAI Сема Альтмана.

Альтман також зазначив, що голосові можливості будуть важливими в майбутньому, оскільки вони швидко стануть одним із основних способів взаємодії людей зі штучним інтелектом. З цією метою OpenAI запускає «gpt-realtime mini» – меншу та дешевшу голосову модель в API, яка підтримує потокову взаємодію з низькою затримкою для аудіо та мовлення. Нова модель на 70% дешевша за попередню вдосконалену голосову модель OpenAI , але обіцяє «таку ж якість голосу та виразність».

Нарешті, творці, залучені до екосистеми розробників OpenAI, тепер можуть використовувати Sora 2 у режимі попереднього перегляду в API. OpenAI випустила Sora 2, свій новітній генератор аудіо та відео, минулого тижня разом із додатком Sora, конкурентом TikTok , наповненим короткими відео, згенерованими штучним інтелектом. Додаток Sora дозволяє користувачам створювати відео про себе, друзів або будь-що інше на основі підказки та ділитися ними через алгоритмічну стрічку в стилі TikTok.

«[Розробники] тепер мають доступ до тієї ж моделі, яка забезпечує приголомшливі відеовиходи Sora 2, прямо у вашому власному додатку», – сказав Альтман.

Sora 2 базується на попередньому поколінні, пропонуючи більш реалістичні, фізично узгоджені сцени із синхронізованим звуком та більшим творчим контролем — від детального керування камерою до стилізованої візуальної частини.

«Наприклад, ви можете взяти зображення з iPhone і запропонувати Сорі розгорнути його до ширококутного кінематографічного масштабу», – сказав Альтман. «Але одна з найцікавіших речей, над якими ми працювали, – це те, наскільки добре ця нова модель поєднує звук із візуальними ефектами, не лише з мовою, а й з насиченими звуковими пейзажами, навколишнім звуком, синхронізованими ефектами, що базуються на тому, що ви бачите».

Sora 2 позиціонується як інструмент для розробки концепцій, хай то буде візуальна відправна точка для реклами, заснована на загальному настрої продукту, чи дизайнер Mattel, який перетворює ескіз на концепцію іграшки — приклад, який Альтман навів на Dev Day, що проливає світло на угоду OpenAI з виробником Барбі щодо впровадження генеративного ШІ в конвеєр виробництва іграшок.

Источник материала