ByteDance, известная как материнская компания TikTok, представила GR-3 - новую модель VLA (Vision-Language-Action), которая сочетает визуальные, речевые и двигательные навыки для решения долгосрочных и сложных задач в реальном мире. По словам ByteDance, GR-3 способна на высокоточное манипулирование объектами в условиях, которые не были предварительно заданы в обучении, и демонстрирует чрезвычайную эффективность при работе с минимальными данными о человеческом поведении.
GR-3 создана как универсальная модель, которую можно быстро адаптировать к новым условиям с минимальными затратами. Ключевыми элементами ее подготовки стали совместное обучение на крупномасштабных визуально-языковых наборах данных, имитационное обучение на основе данных движений роботов и few-shot обучение, то есть обучение с использованием очень малого количества данных, на основе человеческих траекторий, собранных с помощью VR-устройств. Это позволило достичь высоких результатов при низких затратах на сбор новых данных.
Отдельную роль в обучении сыграло использование шлемов виртуальной реальности PICO 4 Ultra Enterprise для сбора данных движений человека. Согласно отчету, такой подход обеспечивает до 450 различных траекторий движения в час, что существенно превышает скорость сбора данных при работе обычных роботов - около 250/час. Благодаря этому GR-3 демонстрирует стабильное повышение эффективности даже в незнакомых условиях. Например, использование 10 человеческих траекторий на новый объект позволяет повысить успешность выполненной задачи с 57,8% до 86,7%.
На практике GR-3 показала способность работать с объектами, инструкциями и средами, отсутствующими в учебном наборе. В частности, модель успешно выполняла задачи "выбери и размести" в незнакомых пространствах, оперировала абстрактными инструкциями и работала с 45 неизвестными ранее объектами. Ключевым фактором стало сочетание различных источников обучения - изъятие любого из них, например, языково-визуального компонента, приводит к существенному падению точности.
В реальных сценариях GR-3 эффективно выполняла сложные действия: например, убирала стол по единственной команде "убрать обеденный стол" или выполняла дальнейшие инструкции последовательно. Все манипуляции выполнялись автономно, без дополнительных подсказок.
Еще одна сложная задача - развешивание одежды предполагало вставление вешалки в футболку и ее размещение на сушилке. GR-3 успешно выполнила эту задачу даже на объектах, которые не входили в учебный набор, например, футболки вместо рубашек. Это свидетельствует о способности модели адаптироваться не только к различным средам или командам, но и к форме объектов.
Все действия искусственный интеллект GR-3 выполнял "в теле" ByteMini - двуручного мобильного робота. Для точного управления движениями использован комплаенс-контроль - проверка на соответствие и соблюдение правил в реальном времени, что позволяет превращать движения человека с VR в допустимые движения робота с учетом всех физических ограничений. Такой подход позволяет уменьшать рывки и обеспечивать плавность действий.
Несмотря на успешные результаты, исследователи отмечают ряд ограничений. GR-3 может допустить ошибки в ситуациях с совершенно новыми понятиями или формами объектов, с которыми она не имела предыдущего опыта. Кроме того, как и все модели, основанные на имитационном обучении, она уязвима к так называемым "out-of-distribution" состояниям - ситуациям, которых не было в учебных данных, и из которых она не всегда может самостоятельно выйти.
ByteDance планирует масштабировать модель и обучающие наборы, а также добавить элементы обучения с подкреплением (reinforcement learning), чтобы повысить устойчивость и производительность GR-3 в сложных, новых и нестабильных сценариях. В итоге GR-3 с ByteMini позиционируется как шаг к созданию универсального роботизированного помощника, способного выполнять широкий спектр задач в реальном мире - от бытовых дел до сложных производственных или логистических операций.
Недавно сообщалось о другом достижении в области робототехники - искусственном интеллекте, способном адаптировать походку четверолапого робота к незнакомой местности. Британские исследователи из Университета Лидса и UCL создали автономную систему, которая, в отличие от классических алгоритмов, самостоятельно выбирает стиль движения без предварительной настройки или визуальных сенсоров. Технология протестирована в сложных условиях и рассматривается как потенциальная база для роботов, работающих в зонах стихийных бедствий, на космических объектах или в отдаленных регионах.