DPO Preference Loss — Belgavi.AI Lab

Advertisement

β 0.1 preferred logp -1.0 rejected logp -3.0

loss = -log σ(β · (log π(A) - log π(B)) - β · (log π_ref(A) - log π_ref(B)))

DPO: use preference pairs directly. No reward model. No PPO.

★ KEY TAKEAWAY

DPO: skip the reward model — use preference pairs to directly optimize. The math is a closed-form derivation of PPO + KL constraint.

▶ WHAT TO TRY