Что такое оптимизация предпочтений напрямую (DPO)
Метод донастройки языковых моделей по парам ответов, где один ответ предпочтительнее другого
Определение
Оптимизация предпочтений напрямую (DPO) — это метод донастройки языковых моделей по парам ответов, где один ответ предпочтительнее другого. Проще говоря, модель учится чаще выбирать ответ, который люди считают более полезным, безопасным или уместным, без отдельной модели награды и сложного цикла обучения с подкреплением.
Пример
Команда обучает помощника выбирать более полезные и безопасные ответы на обращения клиентов
Почему важно
Помогает сделать ассистента ближе к ожиданиям людей без отдельной модели награды и сложного обучения с подкреплением по обратной связи людей
Как работает
Команда собирает пары ответов: предпочтительный и менее удачный. Алгоритм обновляет модель так, чтобы вероятность хорошего ответа росла, а вероятность худшего снижалась относительно базовой модели. Качество зависит не от названия метода, а от качества сравнений.
Где применяется
Используется при обучении, настройке, сравнении и оценке моделей, особенно в классификации, прогнозировании, кластеризации и автоматизации решений.
Ограничения
DPO не исправляет плохие данные и не гарантирует безопасность. Если пары предпочтений спорные, узкие или предвзятые, модель может перенять нежелательный стиль и хуже работать в новых сценариях.
