ШІ Chain-of-Zoom збільшує фото у 256 разів без втрати деталей
ШІ Chain-of-Zoom збільшує фото у 256 разів без втрати деталей

ШІ Chain-of-Zoom збільшує фото у 256 разів без втрати деталей

KAIST AI
ШІ Chain-of-Zoom збільшує фото у 256 разів без втрати деталей - Фото 1

Дослідники з Південної Кореї розробили інструмент Chain-of-Zoom на основі штучного інтелекту, здатний у 256 разів збільшити фото із низькою роздільною здатністю, згенерувавши реалістичну деталізацію.

Науковці з KAIST AI під керівництвом Кіма Джечула прагнули вирішити проблему покращення якості фото з низькою роздільною здатністю, зберігаючи чітку та реалістичну деталізацію. Традиційні системи надвисокої роздільної здатності для окремого зображення працюють за принципом вгадування відсутніх деталей у запитах щодо збільшення масштабу зображення. 

Генеративні моделі навчені створювати реалістичні версії фото з низькою роздільною здатністю, передбачаючи ті деталі, яких не вистачає на зображенні. Однак ефективність таких моделей залежить від того, за якою технологією вони навчались. Вони часто стають неефективними за необхідності виходу за звичні межі.

«Сучасні моделі чудові відносно масштабних коефіцієнтів, на яких вони були навчені, але зазнають невдачі, коли їх просять збільшити зображення, що виходить за цей діапазон», — пояснюють розробники з KAIST AI. 

Chain-of-Zoom ефективно долає обмеження, використовуючи покроковий процес масштабування. Цей ШІ не розтягує зображення у 256 разів за один підхід, адже тоді картинка була б розмитою, а деталі вигаданими. Замість цього Chain-of-Zoom покроково масштабує зображення, спирачись на кожен попередній крок, використовуючи модель надвисокої роздільної здатності – наприклад, добре навчену модель дифузії – для уточнення зображення.

До того ж, мовна модель Vision-Language також бере участь, генеруючи мовні підказки, які допомагають Chain-of-Zoom уявити, що має з’явитись у зображенні на наступному етапі. Vision-Language підбирає кілька точних словосполучень, на кшталт: «прожилки листа», «текстура хутра», «цегляна стіна» і тому подібне, які спрямовують ШІ до подальшої деталізації зображення. 

У той час як масштаб збільшується, початкове зображення втрачає чіткість і візуально стає важко розпізнати контекст. У цей момент мовні підказки відіграють вирішальне значення. Однак генерування правильних мовних підказок непроста справа. Стандартні мовні моделі можуть повторюватись, генерувати дивні словосполучення і невірно інтерпретувати вхидні дані.

ШІ Chain-of-Zoom збільшує фото у 256 разів без втрати деталей
KAIST AI

Для оптимізації цього процесу дослідники використали навчання з підкріпленням і зворотнім зв’язком з людиною. Вони навчили свою модель генерації підказок відповідати перевагам людини, використовуючи техніку, яка називається узагальненою оптимізацією політики винагороди. 

Навчання відбувалось з використанням трьох видів зворотнього зв’язку:

  • Людина-критик оцінювала підказки, згенеровані мовною моделлю, на відповідність зображенню;
  • Мовна модель отримувала покарання за заплутані та некоректні фрази;
  •  Спеціальний фільтр відсіював текст, який повторювався.

У процесі навчання підказки ставали більш чіткими, конкретними і корисними. Результати Chain-of-Zoom оцінювалися з використанням кількох безреферентних метрик якості, таких як NIQE та CLIPIQA. На чотирьох рівнях збільшення (4×, 16×, 64×, 256×) CoZ послідовно перевершував альтернативи, особливо у вищих масштабах.

Інші переваги цього інструменту полягають у тому, що базова модель надвисокої роздільної здатності не потребує перенавчання. Chain-of-Zoom буде дуже зручним для застосунків, що потребують швидкого, високоточного масштабування без використання складних обчислювальних потужностей.

Chain-of-Zoom може найти застосування у медицині, де покращена деталізація може розширити можливості діагностики, у сфері відеоспостереження з камер, де необхідна висока деталізація об’єктів, у відновленні старих фото, науковій візуалізації, у сферах мікроскопії та астрономії.

Спецпроєкти

Вагомим недоліком цієї технології є те, що після значного збільшення розміру фото оригінал фактично зникне, а залишиться лише його штучна копія, згенерована ШІ. Отже технологія може використовуватись із метою маніпулювання візуальними даними для створення фейкових зображень.

«Високоякісна генерація на основі вхідних даних з низьким дозволом може спричинити побоювання щодо дезінформації або несанкціонованої реконструкції конфіденційних візуальних даних», — визнають розробники. 

Результати були опубліковані на сервері препринтів arXiv

Джерело: ZMEScience

ШІ Chain-of-Zoom збільшує фото у 256 разів без втрати деталей - Фото 3
Джерело матеріала
loader
loader