AIDive
Назад к глоссарию

Что такое AdaDelta

ГлоссарийМашинное обучение

Алгоритм оптимизации, который автоматически подстраивает шаг обучения нейросети и уменьшает зависимость от ручного выбора скорости обучения.

Определение

AdaDelta — адаптивный оптимизатор: разные параметры модели получают разные шаги обновления в зависимости от истории градиентов. Алгоритм был предложен как способ сделать обучение устойчивее без постоянного подбора скорости обучения вручную. Сейчас его чаще встречают в учебных материалах и экспериментах, чем как стандартный выбор для новых больших моделей.

Пример

Если нейросеть учится слишком резко и качество скачет, адаптивный оптимизатор может менять величину обновлений для разных параметров.

Почему важно

Термин помогает понимать, что обучение моделей — это не только архитектура и данные, но и способ обновления весов.

Как работает

Во время обучения AdaDelta хранит скользящие средние величин градиентов и обновлений. На их основе он масштабирует следующий шаг, чтобы не делать его слишком большим или слишком маленьким.

Где применяется

  • обучение нейросетей
  • эксперименты с оптимизаторами
  • учебные проекты по глубокому обучению

Ограничения

Алгоритм не является универсально лучшим. В современных задачах обычно сравнивают несколько оптимизаторов, включая Adam и стохастический градиентный спуск.