摩尔线程在近日宣布,他们已经成功完成了对DeepSeek开源周所有项目的全面支持,这一成果在短时间内实现,展示了MUSA架构和全功能GPU在生态兼容与快速适配方面的卓越能力。此次支持涵盖了FlashMLA、DeepEP、DeepGEMM、DualPipe以及Fire-Flyer文件系统(3FS)等多个开源项目。
DeepSeek这三天的发布都与算法有关,偏技术向。大模型生态社区OpenCSG(开放传神)创始人陈冉对第一财经举例表示,“相当于以前DeepSeek是直接给一辆车,告诉大家这辆车续航900公里,但是现在DeepSeek在深挖,用什么方式能够开到90 ...
DeepGEMM的核心代码仅300行,但在GPU上可实现高达每秒1350 + FP8 万亿次浮点运算性能。在大多数矩阵规模下性能超过了专家调优的内核,同时支持密集布局和两种 MoE 布局,适配不同的运算场景。
DeepSeek 开源活动来到了第三天,新项目如约而至。此次开源库名为 DeepGEMM,GitHub 地址在文末。DeepSeek 表示,这是一个支持密集和混合专家(MoE,Mixture of ...
牛津大学与光计算初创公司Lumai的研究团队首次突破了光学神经网络训练的核心瓶颈,提出了“端到端”的光学反向传播方法。通过光学 MVM 实现线性层计算,并巧妙结合光强控制,使得全光学神经网络的训练与推理成为可能,且在收敛速度和分类精度上均表现优异。
作为一个基于 Transformer 架构的解码器,LLaMA 3 在计算效率和可扩展性方面进行了创新。而复现大模型有多难?在最新的技术探索中,开发者 Saurabh 利用纯 JAX 成功实现了 LLaMA 3 ...