UNA: 通过广义隐式奖励函数统一RLHF/PPO、DPO和KTO的对齐
- A+
:王智超(美国湾区Salesforce公司)
:2024-09-21 10:00
:腾讯会议ID:160-251-740(无密码)
报告人:王智超(美国湾区Salesforce公司)
时 间:2024年9月21日10:00
地 点:腾讯会议ID:160-251-740(无密码)
内容摘要:
一个大型语言模型(LLM)经过了数万亿个词向量(tokens)的预训练,但预训练的LLM仍可能生成不理想的响应(undesired response)。为了解决这个问题,提出了对齐技术,例如RLHF、DPO和KTO。然而,这些对齐技术也存在局限性。例如,RLHF需要分别训练奖励模型(reward model)和策略(policy),这个过程复杂、耗时、内存占用大且在训练过程中不稳定。DPO提出了一种在最优策略和奖励之间的映射,极大地简化了RLHF的训练过程。然而,它无法充分利用奖励模型,并且仅限于成对偏好数据。
在本文中,我们提出了统一对齐(UNA),它统一了RLHF/PPO、DPO和KTO。首先,我们在数学上证明了,给定经典的RLHF目标函数,最优策略是由一个广义的隐式奖励函数引导的。通过这种新颖的奖励模型和最优策略之间的映射,UNA可以:
1. 将RLHF/PPO、DPO和KTO统一为一种通过最小化隐式奖励和显式奖励之间差异的监督学习;
2. 在简化、稳定、加速并减少RL微调过程的内存负担的同时,超越RLHF/PPO;
3. 兼容包括成对、二进制和标量反馈在内的不同反馈类型。
实验表明,UNA的表现优于DPO、KTO和RLHF。
个人简介:
王智超,厦门大学土木工程和金融专业本科毕业,后赴美国佐治亚理工获得土木工程和计算机硕士学位及机械工程博士学位。现任职于美国湾区Salesforce公司机器学习研究员。
联系人:黄灿