AdaDelta — что это за оптимизатор

Определение

AdaDelta — адаптивный оптимизатор: разные параметры модели получают разные шаги обновления в зависимости от истории градиентов. Алгоритм был предложен как способ сделать обучение устойчивее без постоянного подбора скорости обучения вручную. Сейчас его чаще встречают в учебных материалах и экспериментах, чем как стандартный выбор для новых больших моделей.

Пример

Если нейросеть учится слишком резко и качество скачет, адаптивный оптимизатор может менять величину обновлений для разных параметров.

Почему это важно

Термин помогает понимать, что обучение моделей — это не только архитектура и данные, но и способ обновления весов.

Как работает

Во время обучения AdaDelta хранит скользящие средние величин градиентов и обновлений. На их основе он масштабирует следующий шаг, чтобы не делать его слишком большим или слишком маленьким.

Где применяется

обучение нейросетей
эксперименты с оптимизаторами
учебные проекты по глубокому обучению

Ограничения

Алгоритм не является универсально лучшим. В современных задачах обычно сравнивают несколько оптимизаторов, включая Adam и стохастический градиентный спуск.

Что такое AdaDelta