Компанія DeepMind каже, що її новий ШІ працює краще, ніж золоті медалісти олімпіад

10 лютого, 12:33

Значний прогрес

У нещодавно опублікованому дослідженні вчені DeepMind, які стоять за AlphaGeometry2, стверджують, що їхній ШІ може розв'язати 84% всіх задач з геометрії за останні 25 років на Міжнародній математичній олімпіаді (IMO), математичному конкурсі для старшокласників. Чому DeepMind цікавить математична олімпіада для старшокласників? У лабораторії вважають, що ключ до створення більш здібного штучного інтелекту може лежати у відкритті нових способів розв'язування складних геометричних задач, зокрема задач з евклідової геометрії, повідомляє 24 Канал з посиланням на звіт, опублікований на сайті препринтів arxiv.org.

Доведення математичних теорем або логічне пояснення того, чому теорема (наприклад, теорема Піфагора) є істиною, вимагає як міркувань, так і здатності вибирати можливі шляхи розв'язання з низки варіантів. Ці навички вирішення проблем є дуже корисними для потужнішого штучного інтелекту. Тому, створюючи модель, яка зможе розв'язувати математичні рівняння, вчені одночасно наближаються до універсального ШІ, який є мрією всієї галузі й зможе зрівнятися або й перевершити людину.

AlphaGeometry2 має кілька основних елементів, включаючи мовну модель з сімейства моделей штучного інтелекту Gemini від Google і "символьний рушій". Модель Gemini допомагає рушієві, котрий використовує математичні правила для виведення розв'язків задач, знаходити обґрунтовані доведення для заданої геометричної теореми.

Олімпіадні задачі з геометрії базуються на діаграмах, які потребують додавання "конструкцій", таких як точки, лінії або кола, перш ніж їх можна буде розв'язати. Модель Gemini в AlphaGeometry2 передбачає, які конструкції можуть бути корисними для додавання до діаграми, на які посилається движок, щоб зробити висновки.

Фактично модель Gemini в AlphaGeometry2 пропонує кроки та конструкції формальною математичною мовою для символьного рушія, котрий, дотримуючись певних правил, перевіряє ці кроки на логічну послідовність. Алгоритм пошуку дозволяє AlphaGeometry2 паралельно проводити декілька пошуків рішень і зберігати можливі корисні результати в загальній базі знань.

AlphaGeometry2 вважає задачу "розв'язаною", коли отримує доведення, яке поєднує пропозиції моделі Gemini з відомими принципами символьного рушія.

Через складність перекладу доведень у формат, зрозумілий ШІ, існує дефіцит придатних для використання навчальних даних з геометрії. Тому DeepMind створив власні синтетичні дані для навчання мовної моделі AlphaGeometry2, згенерувавши понад 300 мільйонів теорем і доведень різної складності.

Результати нового ШІ

Команда DeepMind відібрала 45 геометричних задач з олімпіад IMO за останні 25 років (з 2000 по 2024 рік), включаючи лінійні рівняння та рівняння, що вимагають переміщення геометричних об'єктів по площині. Потім вони "переклали" їх у більший набір з 50 задач. З технічних причин деякі задачі довелося розділити на дві.

Звичайно, є обмеження:

Технічна особливість не дозволяє AlphaGeometry2 розв'язувати задачі зі змінною кількістю точок, нелінійні рівняння та нерівності.
AlphaGeometry2 технічно не є першою ШІ-системою, яка досягла рівня золотої медалі в геометрії, хоча вона є першою, яка досягла цього з набором задач такого розміру.
AlphaGeometry2 також показала гірші результати на іншому наборі складніших задач IMO. Для додаткового випробування команда DeepMind відібрала задачі – загалом 29 – які були номіновані математичними експертами для іспитів IMO, але ще не з'являлися на змаганнях. AlphaGeometry2 зміг розв'язати лише 20 з них.

Теги за темою

Google Техно

Джерело матеріала