Об этом сообщает ScienceDaily, передает Укринформ.
«Мы разработали метод на основе машинного обучения, который позволяет нам определять, когда отдельный аппарат делает вклад для достижения командной цели. Если смотреть на это в спортивной отрасли, то один футболист может забить гол, но мы также хотим знать о действиях других его партнеров по команде, которые привели к голу, например, кто сделал голевую передачу», - отметил исследователь Хью Тран.
Алгоритм обучения с подкреплением также может определить, когда робот делает что-то, что не способствует достижению цели.
По словам Трана, этот тип алгоритма применим ко многим реальным ситуациям, таким как военное наблюдение, работа на складах, управление светофорами, автономные транспортные средства, координирующие доставку, или контроль электросети.
Обучение с подкреплением – это отрасль машинного обучения, вдохновленная бихевиористской психологией, которая изучает вопрос о том, какие действия должны выполнять программы в определенной среде для максимизации некоторого представления о совокупном вознаграждении.