Исследователи поставили цель выяснить механизмы, которые помогают животным учиться с помощью системы вознаграждения. Для этого специалисты имитируют такой тип поведения в рамках развития искусственного интеллекта.
Такой тип обучения через положительные и отрицательные обратные связи учит новым задачам. ИИ усваивает задание и предсказывает случайным образом, какое действие принесет ему вознаграждение.
После совершенного действия искусственный интеллект наблюдает за полученной наградой и корректирует свое предсказание. После миллиарда предположений ошибки предсказания сводятся к нулю. К этому моменту ИИ точно знает, какое действие совершить, чтобы выполнить задание и получить максимальную награду.