Scheduler - 搜索 News

腾讯网1 天

PyTorch内存优化的10种策略总结：在有限资源环境下高效训练模型

混合精度训练通过结合16位 ( FP16 )和32位 ( FP32)浮点格式来保持计算准确性。使用16位精度计算梯度可显著加快计算速度并减少内存消耗，同时维持与32位分辨率相当的结果质量。这种方法在计算资源受限的环境中尤为有效。

6 天

一文看懂 DeepSeek 刚刚开源的 FlashMLA，这些细节值得注意

听起来很复杂，但简单来说，它就像是一个超级高效的「翻译器」，能让计算机更快地处理语言信息。它能让计算机处理各种长度的语言信息，而且速度特别快。

搜狐6 天

DeepSeek代码库开源进度1/5：为Hopper GPU优化的高效MLA解码内核

IT之家 2 月 24 日消息，DeepSeek 今日启动“开源周”，首个开源的代码库为 FlashMLA—— 针对 Hopper GPU 优化的高效 MLA 解码内核，专为处理可变长度序列而设计。据介绍，FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。使用 CUDA 12.6，H800 SXM5 在内存受限配置下可达 ...

腾讯网4 天

DeepSeek开源第三弹：惊人的300行代码驱动R1和V3的训练与推理

DeepSeek开源周第三弹！DeepSeek-AI 重磅发布高效FP8 GEMM库 DeepGEMM：极致性能，代码精简，助力V3/R1模型训练与推理！简单来说这是由 DeepSeek-AI 团队精心打造的 FP8 通用矩阵乘法 (GEMM) ...

6 天

DeepSeek 代码库开源进度 1/5：为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA

IT之家 2 月 24 日消息，DeepSeek 今日启动“开源周”，首个开源的代码库为 FlashMLA—— 针对 Hopper GPU 优化的高效 MLA 解码内核，专为处理可变长度序列而设计。据介绍，FlashMLA 的灵感来自 ...

6 天

刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

北京时间周一上午 9 点，刚一上班（同时是硅谷即将下班的时候），DeepSeek 兑现了自己的诺言，开源了一款用于 Hopper GPU 的高效型 MLA 解码核：FlashMLA。众所周知，MLA是 ...

IT之家6 天

DeepSeek 代码库开源进度 1/5：为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA

用法： from flash_mla import get_mla_metadata flash_mla_with_kvcache tile_scheduler_metadata num_splits = get_mla_metadata(cache_seqlens s_q * h_q // h_kv h_kv) for i in range(num_layers): o_i lse_i = ...

12 天

为什么有了 K8s，还需要 K3s？

随着容器化技术的普及和微服务架构的广泛应用，K8s逐渐成为行业标准的容器编排平台，然而，K8s 的复杂性和资源消耗在某些场景下也成为了一个很重要的限制因素。为了解决这些问题，Rancher Labs 推出了K3s。

6 天

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。。

爱范儿6 天

一文看懂 DeepSeek 刚刚开源的 FlashMLA，这些细节值得注意

使用微信扫码将网页分享到微信今天开始，我们正式进入 DeepSeek 开源周。 DeepSeek 开源项目第一弹 FlashMLA，已经在极短的时间内发酵到全网了，短短 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果