Новая ИИ-система от Nvidia переводит текст в изображения пейзажей

27 листопада, 08:01, 2021

Компания Nvidia представила новую систему на базе технологий искусственного интеллекта GauGAN2 (преемник первой модели GauGAN), позволяющую создавать правдоподобные фотографии несуществующих пейзажей. С помощью таких техник, как сегментированное картирование, ретушь и преобразование текста в изображение, GauGAN2 способна создавать реалистичные изображения на основе текста и набросков от руки.

"По сравнению с другими передовыми моделями, в особенности для преобразования текста в изображение или сегментов карт в изображение, лежащая в основе GauGAN2 нейронная сеть производит более разнообразные и качественные изображения. Вместо прорисовки каждого элемента воображаемого изображения, пользователи могут просто ввести короткую фразу и сгенерировать его ключевые особенности и сюжет наподобие заснеженного горного хребта. Эту стартовую заготовку потом можно дорисовать, сделав ту или иную гору выше и добавив деревья на заднем плане или облака в небе", - сообщила участница команды Nvidia Иша Салиан (Isha Salian).

GauGAN2 является улучшенной версией системы GauGAN, созданной в 2019 году и обученной на более миллиона открытых изображений с платформы Flickr. Как и GauGAN, GauGAN2 понимает взаимосвязи между объектами, такими как снег, деревья, вода, цветы, кусты, холмы и горы и "осознает", что тип осадков меняется в зависимости от времени года.

И GauGAN, и GauGAN2 представляют собой генеративно-состязательную сеть (generative adversarial network, GAN), состоящую из генератора и дискриминатора. Генератор берет образцы (изображения с сопроводительным текстом) и предполагает, какие данные (слова) соответствуют другим данных (элементам пейзажа). Генератор обучен путем обмана дискриминатора, который оценивает, соответствуют ли эти предположения истине. Хотя переходы GAN обычно имеют низкое качество, они улучшаются с помощью ответной реакции дискриминатора.

В отличие от GauGAN, GauGAN2 обучена на 10 млн изображений и способна переводить речевые описания в изображения пейзажей. Если ввести текст наподобие "закат на пляже", сеть сгенерирует соответствующее изображение, а если расширить фразу до "закат на каменистом пляже" или заменить "закат" на "полдень" или "дождливый день", в изображении появятся соответствующие изменения.

С помощью GauGAN2 пользователи могут генерировать сегментированные карты - высокоуровневые эскизы, показывающие расположение объектов на изображении. Этот эскиз затем можно превратить в рисунок, добавив в него грубые наброски с помощью маркировки "небо", "дерево", "камень" и "река" или дорисовки вручную с помощью инструмента "кисть".

Как заявляет Nvidia, первая версия GauGAN уже используется для создания концепт-арта для кинофильмов и видеоигр. Как и в случае с GauGAN, компания планирует выложить код GauGAN2 на GitHub вместе с интерактивной демонстрацией на Playground - web-хабе для исследований искусственного интеллекта Nvidia и глубокого обучения.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

5 смарт-годинників, які можна купити замість Samsung Galaxy Watch Ultra 2, щоб зекономити

24tv

8 хвилин тому

Секретний лайфхак: як без доплат користуватись Wi-Fi в будь-якому аеропорту світу

InternetUA

26 хвилин тому

Що зробити, щоб смартфон Samsung ніколи не гальмував: терміново вимкніть 5 функцій

Фокус

32 хвилини тому

Кривава казка на 10 годин – Rubinite підкорює Steam неймовірною складністю та піксельним стилем

24tv

2 години тому

Microsoft створює Copilot Super App, який об'єднає чат, програмування та автономних агентів

24tv

2 години тому

У App Store стрімко набирає популярність застосунок, який шукає розумні окуляри поблизу

24tv

2 години тому

Новая ИИ-система от Nvidia переводит текст в изображения пейзажей

Технології

5 смарт-годинників, які можна купити замість Samsung Galaxy Watch Ultra 2, щоб зекономити

Секретний лайфхак: як без доплат користуватись Wi-Fi в будь-якому аеропорту світу

Що зробити, щоб смартфон Samsung ніколи не гальмував: терміново вимкніть 5 функцій

Революційний пасажирський літак без вікон може розпочати польоти у 2030 році

Ударить чи мине — науковці дали прогноз магнітних бур на 2–3 серпня

Чи шкодить телефону швидка зарядка: відповідь вчених

Кривава казка на 10 годин – Rubinite підкорює Steam неймовірною складністю та піксельним стилем

Microsoft створює Copilot Super App, який об'єднає чат, програмування та автономних агентів

У App Store стрімко набирає популярність застосунок, який шукає розумні окуляри поблизу

Технології

5 смарт-годинників, які можна купити замість Samsung Galaxy Watch Ultra 2, щоб зекономити

Секретний лайфхак: як без доплат користуватись Wi-Fi в будь-якому аеропорту світу

Що зробити, щоб смартфон Samsung ніколи не гальмував: терміново вимкніть 5 функцій

Революційний пасажирський літак без вікон може розпочати польоти у 2030 році

Ударить чи мине — науковці дали прогноз магнітних бур на 2–3 серпня

Чи шкодить телефону швидка зарядка: відповідь вчених

Кривава казка на 10 годин – Rubinite підкорює Steam неймовірною складністю та піксельним стилем

Microsoft створює Copilot Super App, який об'єднає чат, програмування та автономних агентів

У App Store стрімко набирає популярність застосунок, який шукає розумні окуляри поблизу