AIDive
Назад к глоссарию

Что такое методы актор-критик

ГлоссарийМашинное обучение

Класс методов обучения с подкреплением, где один компонент выбирает действия, а другой оценивает их пользу.

Определение

В методах актор-критик есть две роли. Актор предлагает действие в среде, а критик оценивает ожидаемую выгоду и помогает актору учиться быстрее. Такой подход часто используют там, где агент должен принимать последовательные решения: в робототехнике, играх, управлении ресурсами или оптимизации маршрутов.

Пример

Робот учится ходить: актор выбирает движение ноги, а критик оценивает, помогло ли оно удержать равновесие и приблизиться к цели.

Почему важно

Термин важен для понимания автономных агентов и систем, которые не просто классифицируют данные, а учатся действовать в изменяющейся среде.

Как работает

Агент получает состояние среды, выбирает действие, получает награду и обновляет две части модели: стратегию действий и функцию оценки.

Где применяется

  • обучение с подкреплением
  • робототехника
  • автономные агенты и игры

Ограничения

Методы могут быть нестабильными, требовать много симуляций и чувствительно зависеть от награды. Неправильно заданная награда приводит к неожиданному поведению агента.