DPO 算法
大模型偏好学习--DPO系列 - 知乎