从0开始训练一个大模型,跑通chatgpt所有流程

2024-08-19 12:04:17 浏览数 (2)

今天介绍一个我的开源项目:Zero-Chatgpt(https://github.com/AI-Study-Han/Zero-Chatgpt)。

这个项目包含从1、数据收集 -> 2、数据清洗和去重 -> 3、词表训练 -> 4、语言模型预训练 -> 5、指令微调 -> 6、强化学习(rlhf,ppo)所有需要的数据(环境)介绍、运行脚本和代码,并且兼容huggingface格式。如果需要的话可以直接联系作者,运行的镜像也可以直接提供。根据这个项目,你只需要收集自己的数据就可以直接跑一个你自己的大模型,可以根据你自己手边的计算资源自由的缩放模型和数据大小。

LLM

0 人点赞