Исследователи отмечают, что им только предстоит выяснить механизмы, которые позволяют животным учиться с помощи системы вознаграждения.
Ученые надеются, что если имитировать поведение в рамках развития искусственного интеллекта, то они смогут более детально выяснить и механизмы мозга человека.
Mind, дочерняя компания Alphabet’s, предложила новую теорию о механизмах вознаграждения в нашем мозгу.
Эта гипотеза, подкрепленная первоначальными экспериментальными выводами, могла бы не только улучшить наше понимание психического здоровья и мотивации, ученые отмечают, что она также могла бы подтвердить нынешнее направление исследований ИИ для создания интеллекта, похожего на человеческий.
Усиливающее обучение учит комплексным, новым задачам через положительные и отрицательные обратные связи.
Алгоритм начинает усваивать задание, случайным образом предсказывая, какое действие может принести ему вознаграждение.
Затем он совершает действие, наблюдает за реальной наградой и корректирует свое предсказание, основываясь на пределе погрешности.
Шахматы позади: ИИ Alpha.
Zero сможет управлять квантовым компьютером.
После миллиарда предположений алгоритм сводит ошибки предсказания к нулю, и в этот момент он точно знает, какие действия нужно предпринять, чтобы максимизировать свою награду и тем самым может эффективно выполнять задания.