Дослідники Apple розробили нову модель штучного інтелекту, яка дозволяє користувачам простою мовою описувати те, що вони хочуть змінити на фотографії. При цьому коригувати зображення можна навіть не торкаючись програмного забезпечення для редагування фотографій.
Модель MGIE (MLLM-Guided Image Editing), над якою Apple працювала спільно з Каліфорнійським університетом у Санта-Барбарі, дозволяє обрізати, змінювати розмір, перевертати та додавати фільтри до зображень за допомогою текстових підказок. Ця модель також може бути використана для більш складних завдань редагування зображень, таких як зміна певних об’єктів на фотографії, щоб надати їм іншу форму або зробити їх яскравішими.
MGIE поєднує два різних типи використання мультимодальних мовних моделей. По-перше, вона вчиться інтерпретувати підказки користувача. Потім вона «уявляє», як виглядатиме редагування (наприклад, запит на більш синє небо на фотографії призводить до збільшення яскравості частини зображення з небом).
Під час редагування фотографії за допомогою MGIE користувачам потрібно просто надрукувати те, що вони хочуть змінити в зображенні. Наприклад, при редагуванні зображення піци пепероні можна набрати підказку «зроби її здоровішою», і модель додасть овочеві начинки. Фотографія тигрів у Сахарі виглядає темною, але після того, як моделі сказали «додати більше контрасту, щоб імітувати більше світла», зображення стало яскравішим.
«Замість коротких, але двозначних вказівок MGIE виявляє явні візуальні наміри і призводить до розумного редагування зображень», – йдеться у статті дослідників.
Apple надала MGIE для завантаження через GitHub, а також випустила веб-демонстрацію Hugging Face Spaces. У компанії не уточнили своїх подальших планів щодо цієї моделі.
Джерело: The Verge