Что такое AdaDelta
Алгоритм оптимизации, который автоматически подстраивает шаг обучения нейросети и уменьшает зависимость от ручного выбора скорости обучения.
Определение
AdaDelta — адаптивный оптимизатор: разные параметры модели получают разные шаги обновления в зависимости от истории градиентов. Алгоритм был предложен как способ сделать обучение устойчивее без постоянного подбора скорости обучения вручную. Сейчас его чаще встречают в учебных материалах и экспериментах, чем как стандартный выбор для новых больших моделей.
Пример
Если нейросеть учится слишком резко и качество скачет, адаптивный оптимизатор может менять величину обновлений для разных параметров.
Почему важно
Термин помогает понимать, что обучение моделей — это не только архитектура и данные, но и способ обновления весов.
Как работает
Во время обучения AdaDelta хранит скользящие средние величин градиентов и обновлений. На их основе он масштабирует следующий шаг, чтобы не делать его слишком большим или слишком маленьким.
Где применяется
- обучение нейросетей
- эксперименты с оптимизаторами
- учебные проекты по глубокому обучению
Ограничения
Алгоритм не является универсально лучшим. В современных задачах обычно сравнивают несколько оптимизаторов, включая Adam и стохастический градиентный спуск.
