/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1a5b24e6fb0c09e4d9405831add479f9.png)
ИИ Chain-of-Zoom увеличивает фото в 256 раз без потери деталей
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fbe54b4664d62e3662ac160da2792dd74.png)
Исследователи из Южной Кореи разработали инструмент Chain-of-Zoom на основе искусственного интеллекта, способный в 256 раз увеличить фото с низким разрешением, сгенерировав реалистичную детализацию.
Ученые из KAIST AI под руководством Кима Джечула стремились решить проблему улучшения качества фото с низким разрешением, сохраняя четкую и реалистичную детализацию. Традиционные системы сверхвысокого разрешения для отдельного изображения работают по принципу угадывания недостающих деталей в запросах по увеличению масштаба изображения.
Генеративные модели обучены создавать реалистичные версии фото с низким разрешением, предсказывая те детали, которых не хватает на изображении. Однако эффективность таких моделей зависит от того, по какой технологии они обучались. Они часто становятся неэффективными при необходимости выхода за привычные пределы.
«Современные модели превосходны в отношении масштабных коэффициентов, на которых они были обучены, но терпят неудачу, когда их просят увеличить изображение, выходящее за этот диапазон», — объясняют разработчики из KAIST AI.
Chain-of-Zoom эффективно преодолевает ограничения, используя пошаговый процесс масштабирования. Этот ИИ не растягивает изображение в 256 раз за один подход, ведь тогда картинка была бы размытой, а детали выдуманными. Вместо этого Chain-of-Zoom пошагово масштабирует изображение, опираясь на каждый предыдущий шаг, используя модель сверхвысокого разрешения — например, хорошо обученную модель диффузии — для уточнения изображения.
К тому же, языковая модель Vision-Language также участвует, генерируя языковые подсказки, которые помогают Chain-of-Zoom представить, что должно появиться в изображении на следующем этапе. Vision-Language подбирает несколько точных словосочетаний, вроде: «прожилки листа», «текстура меха», «кирпичная стена» и тому подобное, которые направляют ИИ к дальнейшей детализации изображения.
В то время как масштаб увеличивается, первоначальное изображение теряет четкость и визуально становится трудно распознать контекст. В этот момент речевые подсказки играют решающее значение. Однако генерирование правильных речевых подсказок непростое дело. Стандартные языковые модели могут повторяться, генерировать странные словосочетания и неверно интерпретировать входные данные.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fa1e466ea17279fc704ee3cda2ef61e80.png)
Для оптимизации этого процесса исследователи использовали обучение с подкреплением и обратной связью с человеком. Они научили свою модель генерации подсказок соответствовать предпочтениям человека, используя технику, называемую обобщенной оптимизацией политики вознаграждения.
Обучение происходило с использованием трех видов обратной связи:
- Человек-критик оценивал подсказки, сгенерированные языковой моделью, на соответствие изображению;
- Речевая модель получала наказание за запутанные и некорректные фразы;
- Специальный фильтр отсеивал текст, который повторялся.
В процессе обучения подсказки становились более четкими, конкретными и полезными. Результаты Chain-of-Zoom оценивались с использованием нескольких безреферентных метрик качества, таких как NIQE и CLIPIQA. На четырех уровнях увеличения (4×, 16×, 64×, 256×) CoZ последовательно превосходил альтернативы, особенно в высших масштабах.
Другие преимущества этого инструмента заключаются в том, что базовая модель сверхвысокого разрешения не требует переобучения. Chain-of-Zoom будет очень удобным для приложений, требующих быстрого, высокоточного масштабирования без использования сложных вычислительных мощностей.
Chain-of-Zoom может найти применение в медицине, где улучшенная детализация может расширить возможности диагностики, в сфере видеонаблюдения с камер, где необходима высокая детализация объектов, в восстановлении старых фото, научной визуализации, в сферах микроскопии и астрономии.
Весомым недостатком этой технологии является то, что после значительного увеличения размера фото оригинал фактически исчезнет, а останется только его искусственная копия, сгенерированная ИИ. Таким образом, технология может использоваться с целью манипулирования визуальными данными для создания фейковых изображений.
«Высококачественная генерация на основе входных данных с низким разрешением может вызвать опасения относительно дезинформации или несанкционированной реконструкции конфиденциальных визуальных данных», — признают разработчики.
Результаты были опубликованы на сервере препринтов arXiv
Источник: ZMEScience
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fbe54b4664d62e3662ac160da2792dd74.png)

