此外,您还可以在本专场演讲录播上线后,下载演讲嘉宾授权分享的独家讲义。 Megatron-Core 是 NVIDIA 开发的用于训练超大规模 Transformer 模型的分布式框架,具有出色的分布式性能,是训练具有数千亿或更多参数的大语言模型的必备工具。 PAI-Megatron-patch 是阿里云 ...
详情请看 indexing/README.md。 OneFlow 深度学习框架中基于 cuda 做的优化工作,动态更新中。 学习了oneflow的softmax kernel实现以及Faster Transformer softmax kernel的实现,并以个人的角度分别解析了原理和代码实现,最后对性能做一个对比方便大家直观的感受到oneflow softmax ...
本仓库为大模型面试相关概念,由本人参考网络资源整理,欢迎阅读,如果对你有用,麻烦点一下 🌟 star,谢谢! 为了在低资源情况下,学习大模型,进行动手实践,创建 tiny-llm-zh仓库,旨在构建一个小参数量的中文大语言模型,该项目已部署,可以在如下 ...
在Transformer架构中,MoE层替换Transformer的FFN层,核心思想是将FFN密集模型切割成多个部分,重新训练它,并且在给定时间内只激活一组专家。DeepSeek在 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果