Google представила Gemini 2.5: ШІ, який може користуватися браузером як людина
Google представила Gemini 2.5: ШІ, який може користуватися браузером як людина

Google представила Gemini 2.5: ШІ, який може користуватися браузером як людина

Google представила попередню версію своєї нової ШІ-моделі Gemini 2.5 із функцією Computer Use, яка може взаємодіяти з вебсайтами через браузер, імітуючи дії людини. Система використовує візуальне сприйняття та логічне мислення для виконання завдань на кшталт заповнення або надсилання форм без потреби в API чи іншому програмному інтерфейсі.

Як зазначає The Verge, Gemini 2.5 Computer Use створена для роботи саме з інтерфейсами, орієнтованими на людей, а не на автоматизовані системи. За словами Google, технологія вже застосовувалася у функціях AI Mode та в дослідницькому проєкті Project Mariner, де ШІ-агенти могли самостійно виконувати дії у браузері, наприклад додавати товари до кошика, орієнтуючись на список інгредієнтів.

Презентація Gemini 2.5 відбулася лише через день після того, як OpenAI представила нові можливості ChatGPT на заході Dev Day, де було продемонстровано функцію ChatGPT Agent, здатну виконувати складні завдання за користувача. Тим часом компанія Anthropic ще торік представила версію Claude із подібною функцією Computer Use. Однак Google стверджує, що її розробка перевершує конкурентів за результатами тестів у веб- та мобільних сценаріях.

На відміну від ChatGPT Agent або рішення від Anthropic, Gemini 2.5 Computer Use має доступ лише до браузера, а не до всієї операційної системи. Google підкреслює, що технологія ще не оптимізована для повноцінного управління настільною ОС, проте вже підтримує 13 типів дій, серед яких відкриття браузера, введення тексту та перетягування елементів. Модель доступна розробникам через Google AI Studio та Vertex AI, а публічну демонстрацію можна переглянути у віртуальному браузері BrowserBase, де ШІ виконує такі завдання, як гра у 2048 або пошук популярних тем на Hacker News.

Джерело матеріала
loader