DeepSpeed-Chat 打造类ChatGPT全流程 笔记二之监督指令微调 2023-08-22 08:37:14 浏览数 (3) 0x0. 前言在 DeepSpeed-Chat 打造类ChatGPT全流程 笔记一 中跑通了DeepSpeed Chat的训练和推理流程,DeepSpeed Chat的训练流程包含监督指令微调(SFT),Reward模型微调,基于人类反馈的强化学习(RLHF)三个步骤。接着上面文章的todo,这篇文章主要是解析一下监督指令微调(SFT)阶段的代码实现。 chat chatgpt 笔记 函数 模型 0 人点赞 上一篇:分享雷军22年前编写的代码