Совсем недавно OpenAI представила второе поколение нейросети DALL-E, предназначенной для создания изображений на основе текстового описания. А теперь и Google анонсировала свой подобный проект — Imagen.
Представители поискового гиганта рассказали, что для распознавания текстового запроса нейросеть использует большие языковые модели. При этом алгоритмы нейронной сети улучшают получившуюся схематичную картинку размером 64×64 сначала до 256х256, затем до 1024×1024.
Всё это время модель не просто апскейлит изображение, а именно что дорисовывает имеющиеся детали на картинке.
Разработчики Imagen сравнили своё детище с DALL-E 2 от OpenAI. По их словам, тестировщики чаще выбирали изображения, полученные их технологией, когда их просили отдать предпочтение более точной и достоверной работе.