Компанія Amazon розкрила свій мультимодальний ШІ Nova для тексту, зображень та відео
Компанія Amazon розкрила свій мультимодальний ШІ Nova для тексту, зображень та відео

Компанія Amazon розкрила свій мультимодальний ШІ Nova для тексту, зображень та відео

Новинки представили в рамках конференції re:Invent у вівторок. Працюватиме все, звісно ж, у рамках Amazon Web Services (AWS), сервісі хмарних обчислень Amazon, який надає послуги серверів компаніям та розробникам програмного забезпечення. Всього є чотири моделі генерації тексту: Micro, Lite, Pro та Premier. Крім того, існує модель генерації зображень Nova Canvas і модель генерації відео Nova Reel, повідомляє 24 Канал з посиланням на TechCrunch.

Детальніше про Nova

Моделі Nova, що генерують текст, найкраще оптимізовані для 15 мов (але насамперед різних варіантів англійської) та мають різні розміри й можливості. Української мови в списку найкраще підтримуваних поки немає, але компанія зазначає, що її ШІ загалом розуміє понад 200 мов. Тож ви також зможете спробувати модель українською, але не факт, що результат вас влаштує.

  • Amazon Nova Micro – виключно текстова модель з найнижчою затримкою відгуку, тобто вона обробляє текст і генерує відповіді найшвидше. Модель має контекстне вікно у 128 000 токенів або приблизно 100 000 слів на один запит. Nova Micro надає тонкі налаштування, щоб ви могли отримати саме ту відповідь, на яку очікуєте. Цей варіант доступний вже сьогодні.

Що таке контекстне вікно?

Контекстне вікно означає здатність моделі обробляти запити певного розміру й переглядати інформацію одночасно. Уявіть, що запитуєте ШІ про зміст навчального відеокурсу, щоб не переглядати його самостійно. Маленьке контекстне вікно дозволить нейромережі аналізувати одночасно, наприклад, одне відео чи один документ. Тому відповідь на питання, яке ви поставите, буде шукатися лише в ньому. Потім вам потрібно буде завантажити наступну порцію даних для пошуку в них. Це зменшує імовірність швидкого знаходження правильної відповіді. Але якщо контекстне вікно велике, то ШІ може обробити більше відео чи документів – 5, 10, 100 чи більше. Чим більше це вікно, тим кращий ШІ у відповідях на питання.
  • Amazon Nova Lite – дуже недорога мультимодальна модель, яка вже може обробляти не лише текстові дані, а й зображення та відео, для створення текстового результату. Вона підтримує вхідні дані довжиною до 300 тисяч токенів і може аналізувати зображення або відео тривалістю до 30 хвилин за один запит. Модель підтримує тонкі налаштування. Доступно вже сьогодні.
  • Amazon Nova Pro – високопродуктивна мультимодальна модель, яка може обробляти до 300 тисяч вхідних токенів. Amazon стверджує, що ця нова модель досягає найсучасніших показників у ключових тестах. Контекстні вікна Lite і Pro відповідають приблизно 225 000 слів і 15 000 рядків комп’ютерного коду. Доступно також сьогодні.
  • Amazon Nova Premier – майбутня найпотужніша мультимодальна модель Amazon для складних завдань на міркування, яка все ще перебуває на стадії розробки. Очікується, що вона стане загальнодоступною на початку 2025 року. Як і Lite та Pro, вона добре підходять для таких завдань, як перегляд документів, узагальнення діаграм, зустрічей та інше, але робитиме це значно ефективніше. Точні можливості поки невідомі, але ця модель ШІ також подається як "вчитель", який може бути інструментом для створення власних кастомних варіантів Nova Micro і Lite, навчених на ваших власних наборах даних.
  • Amazon Nova Canvas – модель генерації зображень, яка може створювати зображення з текстового опису або інших зображень, наданих у запиті. Вона також підтримує редагування зображень за допомогою введення тексту та елементів керування для налаштування колірної схеми та макета. Ви також можете ефективно видаляти фон. Доступно сьогодні.
  • Amazon Nova Reel – модель генерації відео, яка може створювати високоякісні, але поки що дуже короткі відео на основі вашого опису. Наразі тривалість обмежена лише 6 секундами, але у 2025 році час збільшиться до 2 хвилин. Nova Reel підтримуватиме можливість керувати візуальним стилем і темпом, включаючи керування рухом камери за допомогою текстових підказок – регулювати кути нахилу, робити панорамування, обертати на 360 градусів, масштабувати тощо. Також доступно вже сьогодні.

На початку 2025 року контекстні вікна деяких моделей Nova будуть розширені для підтримки понад 2 мільйонів токенів, повідомляє компанія.

Усі вищезгадані моделі Amazon Nova доступні вже або будуть доступні у майбутньому в рамках послуги Amazon Bedrock, платформи Amazon для розробки штучного інтелекту, де їх можна точно налаштувати на тексті, зображеннях і відео та "дистилювати" від зайвого багажу для покращення швидкості та підвищення ефективності. Зазначається, що моделі Nova є одними з найшвидших у своєму класі й одними з найдешевших у експлуатації.

Поки що доступність обмежена. Скористатися ними можуть користувачі у східному регіоні США. Варіації Micro, Lite і Pro також доступні в західному і східному регіонах США. Коли моделі поширяться на інші країни, невідомо.

Теги по теме
Техно
Источник материала
loader
loader