OpenAI випустила дві нові моделі ШІ, але GPT-5 серед них усе ще немає
OpenAI випустила дві нові моделі ШІ, але GPT-5 серед них усе ще немає

OpenAI випустила дві нові моделі ШІ, але GPT-5 серед них усе ще немає

Що пропонують нові моделі OpenAI?

Нові моделі gpt-oss-120b та gpt-oss-20b є так званими трансформерами з конфігурованим ланцюгом міркувань (CoT), підтримуючи низькі, середні та високі налаштування. Це дозволяє самостійно налаштовувати швидкість та використання обчислювальних ресурсів, де найвищі налаштування CoT забезпечують найкращі результати. Моделі підтримують імітацію міркувань, глибоку кастомізацію та демонструють високу продуктивність у використанні інструментів, пише 24 Канал з посиланням на OpenAI.

Технічні характеристики та вимоги до обладнання:

  • Модель gpt-oss-20b має 21 мільярд параметрів, які завдяки архітектурі MoE (Mixture-of-Experts) зменшуються до 3,6 мільярда параметрів на токен. Ця менша версія може працювати на пристроях з 16 гігабайтами оперативної пам'яті або більше.
  • Модель gpt-oss-120b містить 117 мільярдів параметрів, які зменшуються до 5,1 мільярда параметрів на токен завдяки MoE. Для її запуску потрібно 80 гігабайтів оперативної пам'яті, що перевищує можливості середнього споживчого комп'ютера, але вона може вміститися на одному прискорювачі ШІ, як-от Nvidia H100.
  • Обидві моделі мають контекстне вікно на 128 000 токенів.

OpenAI стверджує, що gpt-oss забезпечують високу продуктивність, подібну до її провідних хмарних моделей. Більша модель gpt-oss-120b за більшістю тестів знаходиться між моделями o3 та o4-mini, а менша версія трохи відстає. Найкращі результати вони показують у математичних та кодувальних завданнях.

  • Наприклад, у змагальному тесті з кодування Codeforces (з інструментами) gpt-oss-120b та gpt-oss-20b отримали 2622 та 2516 балів відповідно, перевершивши DeepSeek R1. Однак вони поступаються o3 та o4-mini.
  • У тесті Humanity's Last Exam (з інструментами) gpt-oss-120b та gpt-oss-20b набрали 19% та 17,3% відповідно, що також нижче, ніж o3 (24,9%) та Google Gemini Deep Think (34,8%), але вище, ніж у провідних відкритих моделей від DeepSeek та Qwen.

Нові моделі gpt-oss є лише текстовими і не підтримують мультимодальність "з коробки". OpenAI не планує, щоб ці відкриті моделі замінили її пропрієтарні хмарні розробки. Натомість вони розроблені для інтеграції з існуючими моделями GPT, дозволяючи компаніям використовувати різні продукти OpenAI, у тому числі й для випадків, коли частину даних потрібно обробляти локально.

Локально керований ШІ забезпечує меншу затримку, більше можливостей для кастомізації та може зберігати конфіденційні дані на місці. Це відповідає бажанню OpenAI відповідати закликам адміністрації США щодо ширшого відкритого доступу до технологій ШІ. Сем Альтман, CEO OpenAI, раніше заявляв, що компанія була "на неправильному боці історії" щодо відкритого початкового коду.

Питання безпеки

OpenAI приділила значну увагу безпеці, тестуючи моделі на "зловмисні" сценарії та потенційне використання для кібератак або створення біологічної/хімічної зброї. Компанія стверджує, що навіть після спроб налаштувати моделі на зловмисну поведінку, вони не досягли високого рівня якості у виконанні "злих" завдань, що свідчить про ефективність їхніх механізмів вирівнювання та ієрархії інструкцій.

Як отримати

Моделі доступні для завантаження на HuggingFace та в репозиторіях GitHub. OpenAI також розміщує стокові версії моделей на власній інфраструктурі для тестування. Ці моделі оптимізовані для роботи з різними апаратними платформами від NVIDIA, AMD, Cerebras та Groq. Microsoft Azure тим часом оголосила про GPU-оптимізовані версії gpt-oss-20b для ПК з Windows.

Теги за темою
Техно
Джерело матеріала
loader
loader