DeepSpeed-Chat 打造类ChatGPT全流程 笔记二之监督指令微调

2023-08-22 08:37:14 浏览数 (1)

0x0. 前言

DeepSpeed-Chat 打造类ChatGPT全流程 笔记一 中跑通了DeepSpeed Chat的训练和推理流程,DeepSpeed Chat的训练流程包含监督指令微调(SFT),Reward模型微调,基于人类反馈的强化学习(RLHF)三个步骤。接着上面文章的todo,这篇文章主要是解析一下监督指令微调(SFT)阶段的代码实现。

0 人点赞