ШІ навчився збільшувати зображення у 256 разів без втрат

5 червня, 02:04

Інноваційний метод масштабування зображень Chain-of-Zoom дозволяє штучному інтелекту відтворювати наддеталізовані фото із низької роздільності.

Система Chain-of-Zoom (CoZ), розроблена дослідниками з KAIST AI під керівництвом Кім Джечула, пропонує новий підхід до масштабування зображень у 256 разів без втрати якості. На відміну від традиційних моделей надвисокої роздільності (SISR), які вгадують відсутні пікселі, CoZ застосовує поетапну стратегію. «Сучасні моделі чудово справляються з масштабами, на які вони навчені, але дають збій за межами цього діапазону», — йдеться у статті KAIST, опублікованій на arXiv.

Унікальність CoZ полягає в побудові візуальної «драбини», де кожен крок — окреме обґрунтоване масштабування. На кожному рівні зображення вдосконалюється за допомогою високоточних дифузійних моделей, що вже зарекомендували себе в генеративному ІІ. Водночас до процесу підключається Vision-Language Model (VLM), яка формує описи об’єктів, підказуючи ШІ, що саме очікується на новому рівні деталізації. Це забезпечує максимальну правдоподібність реконструйованих деталей.

Chain-of-Zoom — це не просто цифрове збільшення, а новий рівень комп’ютерного зору, який імітує можливості ідеальної оптики. CoZ уникає звичного розмиття чи спотворення, натомість реконструює деталі, немов би їх зняли найкращою камерою. «Це не просто пікселі — це передбачення, що вкорінене в розумінні зображення», — стверджують автори.

Завдяки поетапному підходу CoZ може знайти застосування у сфері безпеки, медицини, архівування та відновлення зображень. Його здатність до глибокої реконструкції з мінімальними втратами може кардинально змінити уявлення про межі машинного зору.

Джерело матеріала