直接偏好优化(DPO):Bradley-Terry模型 & 对数概率(深度学习)
直接偏好优化(Direct Preference Optimization
,DPO
)是一种用于微调大型语言模型(LLMs
)以符合人类偏好的新方法。DPO
旨在通过人类偏好数据来优化语言模型的输出,使其更符合人类期望,而无需使用强化学习或显式的奖励模型。DPO
利用了奖励函数和最优策略之间的映射关系;它直接在策略(语言模型)上优化,而不是先学习奖励模型再优化策略;DPO
将问题转化为一个简单的分类任务,在人类偏好数据上进行训练。