经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。。
红板报 on MSN13 小时
月之暗面 Kimi 开源 MoE 模型
品玩2月24日讯,Kimi 上周末发布技术报告,宣布开源 MoE 模型 Moonlight-16B-A3B。 报告表示,Kimi通过深度改造 Muon 优化器,并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW ...