Китайський ШІ перетворить ваші пам'ятні фотографії на 3D-світи, якими можна прогулятися
Китайський ШІ перетворить ваші пам'ятні фотографії на 3D-світи, якими можна прогулятися

Китайський ШІ перетворить ваші пам'ятні фотографії на 3D-світи, якими можна прогулятися

Компанія Tencent представила нову модель штучного інтелекту HunyuanWorld-Voyager з відкритим початковим кодом. Вона здатна генерувати послідовні тривимірні відеоряди на основі всього лише одного статичного зображення, перетворюючи його на світ, який можна досліджувати. Технологія є потужною, але має суттєві обмеження та високі вимоги до обладнання.

Як працює ця технологія та які її обмеження?

Нова розробка, опублікована на GitHub, є частиною великої екосистеми штучного інтелекту Tencent під назвою "Hunyuan", до якої також входять моделі для перетворення тексту на 3D-об'єкти (Hunyuan3D2) та створення відео (HunyuanVideo). Voyager є вдосконаленою версією попередньої моделі HunyuanWorld 1.0, випущеної в липні.

Суть розробки полягає в тому, що ви спочатку показуєте штучному інтелекту якусь фотографію, а він потім перетворює її на віртуальний 3D-світ, у якому можна прогулятися, наче з будь-якій відеогрі від першої особи. Ви можете завантажити, наприклад, фото вулиці, де ви виросли, чи міста, в якому колись побували. Технологія перетворить знімок на сцену у вашому комп'ютері й дозволить пройтися знайомими локаціями. Результат може виводитися в різних стилях – від схожого на мультфільми до вельми реалістичного, який імітує реальну зйомку.

Демонстрація можливостей технології: відео

Для навчання Voyager дослідники створили програмне забезпечення, яке автоматично аналізує існуючі відео, щоб зрозуміти рухи камери та оцінити глибину кожного кадру. Це усунуло потребу в ручній роботі людей для маркування тисяч годин відеоматеріалу. Система проаналізувала понад 100 тисяч відеокліпів, що складалися як з реальних записів, так і з графіки, створеної на рушії Unreal Engine.

Це далеко не для всіх

Одним із головних недоліків моделі є її значні вимоги до обчислювальних ресурсів. Для роботи з роздільною здатністю 540p потрібен графічний процесор зі щонайменше 60 гігабайтами відеопам'яті, хоча для кращої продуктивності Tencent рекомендує використовувати 80 гігабайтів.

Попри те, що файли моделі доступні для всіх на платформі Hugging Face, такі високі вимоги роблять її недоступною для більшості користувачів. Для прискорення обробки система підтримує паралельну роботу на кількох графічних процесорах: вісім таких пристроїв можуть прискорити процес у 6,69 раза порівняно з одним.

Продуктивність

Згідно з тестами, проведеними за допомогою бенчмарку WorldScore від Стенфордського університету, Voyager досяг найвищого загального балу (81,62), перевершивши конкурентів. Модель продемонструвала відмінні результати в контролі об'єктів, стилі та якості, хоча дещо поступилася в управлінні камерою.

Ліцензія

  • Крім технічних, існують і значні ліцензійні обмеження. Як і інші продукти Hunyuan, ліцензія забороняє використання моделі на території Європейського Союзу, США та Кореї.
  • Крім того, будь-яке комерційне застосування з аудиторією понад 100 мільйонів активних користувачів на місяць потребує отримання окремої ліцензії від Tencent.

Источник материала
loader
loader