Компанія каже, що на прикладі Orca 2 їй вдалося показати, що поліпшені методи навчання можуть забезпечити кращі результати меншим моделям і допомогти їм досягнути "вищих розумових здібностей, які зазвичай присутні тільки у більших мовних моделях".
Деталі
Microsoft уже відкрила доступ до обох розробок, щоб перші тестувальники могли їх оцінити та досліджувати їхні можливості. Для підприємств з обмеженими ресурсами такі системи можуть виявитися найкращим рішенням.
Для того, щоб навчити невелику модель міркувати так само добре, як велика, розробники вирішили налаштувати базову Llama 2 від Meta за допомогою спеціальним чином зібраного набору даних. Замість того щоб навчати її повторювати поведінку більш здібних моделей — метод імітації — дослідники змушували її обирати інші стратегії вирішення завдань. Наприклад, щоб відповісти на комплексне запитання, малій мовній моделі зручніше спочатку розбити його на складові частини, а не відповідати безпосередньо, як це робить GPT-4.
У випробуваннях на 15 еталонних тестах, що охоплюють завдання на розуміння мови, здоровий глузд, багатоетапне міркування, розв'язування математичних задач, розуміння прочитаного, узагальнення та правдивість, обидві моделі Orca 2 показали чудові результати – кращі, або мінімум не гірші, ніж моделі, розмір яких більший у 5-10 разів.
У середньому за результатами всіх тестів Orca 2 перевершила Llama-2-Chat з 13 і 70 мільярдами параметрів, а також WizardLM з 13 і 70 мільярдами параметрів. Лише в задачах на математику WizardLM з 70 мільярдами параметрів виявився значно кращим.
За словами розробників, метод, який вони використовували для навчання Llama-2, можна застосовувати і для поліпшення інших базових моделей.
Попри те, що Orca 2 має ряд обмежень, потенціал для майбутніх удосконалень очевидний, особливо в покращенні міркувань, спеціалізації, контролю та безпеки менших моделей. Використання ретельно відфільтрованих синтетичних даних для посттренування стає ключовою стратегією в цих удосконаленнях. Оскільки більші моделі продовжують удосконалюватися, наша робота з Orca 2 знаменує собою значний крок у диверсифікації застосувань і варіантів розгортання мовних моделей,
– написала дослідницька група.
З випуском моделей Orca 2 з відкритим вихідним кодом і постійними дослідженнями в цьому напрямку можна з упевненістю сказати, що в найближчому майбутньому з'явиться більше високопродуктивних малих мовних моделей.