本文将分享 HybridFlow 编程框架,该框架基于 Ray 构建,旨在提供一个灵活且高效的 RLHF(Reinforcement Learning from Human Feedback)解决方案。 借用 Andrej Karpathy 在 Microsoft build 2023 上的大语言模型训练的图。 模型训练总体上分为四个阶段:预训练(Pre-training)、微调(Fine ...