大模型LLM

  |   0 评论   |   0 浏览

背景

col1col2col3
DeepMindSparrow
DeepMindGopherCite
OpenAIChatGPT
GoogleLaMDA
GoogleBard AI
MetaBlenderBot3

术语

  • RLHF: Reinforcement Learning from Human Feedback
  • CAI: Constitutional AI
  • RLAIF: RL from AI Feedback
  • CoT: Chain of Though
  • SFT: Supervised Fine-Tuning

二者在效果上也有很大差异。 一个强大的 AI 助手需要在有用性 (Helpfulness) 和无害性 (Harmlessness) 上做好权衡 。RLAIF 算法可以提供模型中显著更强的无害性能力。此外,它在有用性上牺牲很小。整体来看,性价比很高。

上图是不同训练方法中模型效果的对比(52B)。评估方式是人工对开放对话中的模型输出进行偏好打分,模型越靠右表示结果越有效,越靠上表示结果越无害。4 条不同颜色的线分别代表不同的强化训练方法,线上从左到右的点代表不同训练阶段(checkpoint),可以看出 RLAIF 相对于 RLHF 而言,在接近的有效性水平下,表现出显著更强的无害性。

  • 蓝色线(Helpful RLHF) :仅用有效性数据训练,以人类反馈来强化学习。有效性最强,但是无害性很差;
  • 橙色线(HH RLHF) :同时用有效性(Helpful)和无害性(Harmless)数据训练,以人类反馈来强化学习。有效性减弱,无害性不足;
  • 浅灰色线(RLAIF) :通过 AI 反馈的强化学习,有效性减弱,无害性最强;
  • 深灰色线(RLAIF w/ CoT) :通过 AI 反馈的强化学习 + 思维链(Chain-of-Thought, CoT),有效性略弱,无害性显著强。

这里提到的 Chain-of-Thought 也叫思维链( CoT )。通过类似增加 Let's think step by step 的鼓励提示文字,来提升 AI 的推理性能。

值得注意的是,因为有效性(helpful)数据标注时,同时覆盖了有效性(helpful)和可靠(honest)标准,因此Helpful RLHF覆盖 helpful & honest ,HH RLHF覆盖helpful & honest & harmless。Helpful RLHF 在训练监督模型和打分模型的无害化数据生成阶段都有用到。

参考

  1. 对标ChatGPT,新AI助手Claude来了