OpenAI додала в GPT-4o покращену генерацію зображень — тепер в ChatGPT за замовчанням

26 березня, 13:46

OpenAI представила довгоочікуване покращення генерації зображень. Тепер замість окремої моделі, як-от DALL·E, новий удосконалений генератор зображень є частиною GPT-4o.

На ринку існує безліч ШІ-моделей для створення вражаючих візуальних сцен, але вони часто мають труднощі з відображенням тексту, логотипів та інших елементів, які не рідко зустрічаються у повсякденному житті.

OpenAI стверджує, що її нова генерація зображень GPT-4o вирішує ці недоліки. Вона може точно відтворювати текст і краще слідувати інструкціям завдяки своїй базі знань і контексту чату. Крім того, нова модель дозволяє редагувати завантажені зображення або створювати нові, використовуючи завантажене зображення як візуальне натхнення.

Доступність і нові можливості

Оновлений генератор зображень у GPT-4o вже починає розгортатися для всіх користувачів ChatGPT Plus, Pro, Team та Free. Оскільки ця модель стане стандартною для генерації зображень у ChatGPT, користувачам більше не потрібно буде вибирати її вручну перед введенням запиту.

Користувачі можуть налаштовувати зображення, вказуючи співвідношення сторін, точні кольори (HEX-коди) або навіть прозорий фон. У найближчі тижні новий генератор з’явиться і для користувачів ChatGPT Enterprise та Edu.

Нову модель також можна використовувати в Sora для створення зображень або через спеціальний DALL·E GPT. Для розробників підтримка генерації зображень через API GPT-4o з’явиться найближчими тижнями.

Спецпроєкти

Обмеження моделі

Попри численні покращення, у моделі все ще є деякі обмеження:

Час генерації – через підвищену деталізацію створення зображення може займати до однієї хвилини.
Кадрування – довгі зображення, наприклад постери, можуть обрізатися надто щільно, особливо в нижній частині.
Вигадування деталей – у запитах з недостатньою контекстною інформацією модель може «домислювати» деталі.
Обмеження знань – при створенні складних концепцій (наприклад, повної періодичної таблиці) модель може неточно відтворювати більше ніж 10-20 об’єктів одночасно.
Труднощі з нелатинськими мовами – символи можуть відображатися некоректно або спотворюватися.
Редагування частин зображення – виправлення окремих деталей (наприклад, орфографічних помилок) не завжди працює без побічних змін у зображенні.
Проблеми з деталізацією на малих розмірах – модель може некоректно відображати дрібні деталі.

OpenAI планує виправляти ці обмеження у найближчі тижні та місяці.

Усі зображення, створені за допомогою цього генератора, міститимуть C2PA-метадані, а внутрішній інструмент OpenAI зможе перевіряти їхнє походження.

Попри деякі обмеження, новий генератор зображень GPT-4o значно покращує точність і гнучкість створення зображень. OpenAI обіцяє подальші вдосконалення, тож користувачів чекає ще якісніший та зручніший інструмент для роботи із зображеннями.

Нещодавно OpenAI запустила GPT-4.5, але з обмеженим доступом — бо «скінчились GPU».

Спецпроєкти

Джерело: neowin

Джерело матеріала

ITC

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Як захистити Android: 10 помилок, які роблять ваш смартфон вразливим

InternetUA

3 хвилини тому

На популярних смартфонах Google Pixel виявилася дивна помилка: як її виправити

Фокус

5 хвилин тому

Найдавніший пиріг спекли 4200 років тому в Стародавньому Єгипті: які інгредієнти використовували

Фокус

11 хвилин тому

Якщо величезні птахи не вміють літати, як вони розселилися континентами: таємницю нарешті розкрито

Фокус

14 хвилин тому

Zoom запускає крос-застосунок для створення нотаток на основі штучного інтелекту

InternetUA

42 хвилини тому

Сонце відправило "валентинку": на зірці з'явилося серце, і воно в кілька разів більше за Землю

Фокус

56 хвилин тому

OpenAI додала в GPT-4o покращену генерацію зображень — тепер в ChatGPT за замовчанням

Доступність і нові можливості

Обмеження моделі

Технології

Як захистити Android: 10 помилок, які роблять ваш смартфон вразливим

На популярних смартфонах Google Pixel виявилася дивна помилка: як її виправити

Найдавніший пиріг спекли 4200 років тому в Стародавньому Єгипті: які інгредієнти використовували

Якщо величезні птахи не вміють літати, як вони розселилися континентами: таємницю нарешті розкрито

5G в Україні: коли чекати запуск і в яких містах

Google оновлює сторінку Discover, що дозволить показувати контент від авторів

Google розширює ШІ-функції Chrome завдяки інтеграції Gemini

Zoom запускає крос-застосунок для створення нотаток на основі штучного інтелекту

Сонце відправило "валентинку": на зірці з'явилося серце, і воно в кілька разів більше за Землю

Технології

Як захистити Android: 10 помилок, які роблять ваш смартфон вразливим

На популярних смартфонах Google Pixel виявилася дивна помилка: як її виправити

Найдавніший пиріг спекли 4200 років тому в Стародавньому Єгипті: які інгредієнти використовували

Якщо величезні птахи не вміють літати, як вони розселилися континентами: таємницю нарешті розкрито

5G в Україні: коли чекати запуск і в яких містах

Google оновлює сторінку Discover, що дозволить показувати контент від авторів

Google розширює ШІ-функції Chrome завдяки інтеграції Gemini

Zoom запускає крос-застосунок для створення нотаток на основі штучного інтелекту

Сонце відправило "валентинку": на зірці з'явилося серце, і воно в кілька разів більше за Землю