Moe - 搜索 News

3 小时

经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。。

红板报 on MSN13 小时

品玩2月24日讯，Kimi 上周末发布技术报告，宣布开源 MoE 模型 Moonlight-16B-A3B。报告表示，Kimi通过深度改造 Muon 优化器，并将其运用于实际训练，证明了 Muon 在更大规模训练中的有效性，是 AdamW ...

一些您可能无法访问的结果已被隐去。

今日热点