如果说传统的 AI 训练中,GPU 跑了 10 个小时,4 个小时在等数据、等同步,实际工作时间只有 6 小时。那么 DeepEP,能够把等待时间压缩到 1 小时,GPU 干活 9 小时,相当于多了 3 小时算力, 真正「榨干」每一块 GPU。
DeepSeek并没有完全跳出英伟达的CUDA框架,而是选择绕过了CUDA的高层API,直接操作PTX指令集,进行更细粒度的硬件优化。这种做法本质上是在原有框架内寻求突破,而非彻底脱离英伟达的生态系统。为什么选择PTX?这到底是突破,还是妥协?为什么 ...
DeepSeek今天正式启动为期五天的开源成果发布计划,首个亮相的项目是FlashMLA。这一开源项目将先进的MLA算法与GPU优化技术相结合,为大模型推理提供了一套高性能、低延迟的解码方案。FlashMLA是一款专门为Hopper ...
近日,Imagination Technologies宣布推出其最新的GPU IP——Imagination ...
在AI领域的最新动态中,DeepSeek开源周的第二波发布引发了广泛关注。此次发布的核心是一个专为混合专家(MoE)模型和专家并行(EP)通信设计的开源库——DeepEP。该库发布后不到一小时,就在GitHub上收获了上千颗星标。
【市场消息:国产 GPU 厂商壁仞科技考虑港股 IPO】,壁仞科技正与中金公司、中银国际和平安证券合作,就潜在 IPO 交易拟募资 3 亿美元,或于今年在港上市,不过 IPO 规模和时间等细节或有变,也可能搁置。壁仞科技成立于 2019 ...
据悉,Imagination对D系列GPU进行了多项改进,使其在处理计算任务方面表现更加卓越,包括扩展了支持的数字格式范围,并将工作组项目的设置速率提升了16倍。与DXT相比, DXTP每个USC(Imagination的GPU计算单元)的带宽额外提高了50% ,这有助于提升那些带宽受限层的网络性能。
2月22日,英伟达(NVIDIA)已确认,因缺少光栅单元(ROP)问题,影响了约0.5%的 GeForce RTX 5090和RTX 5070 Ti 显卡,并且生产异常已经修复。 据媒体报道,近日,其论坛上一位名叫“Wuxi ...
据介绍,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能。”DeepSeek说。
物理学家 Luis Batalha 在 x 上表示,2025 年的普特南竞赛上,即使是前 500 名的顶尖选手,也无人能完整攻克下面这道难题。 而 Grok 3(Think)仅用了约 8 分钟就找到了答案 。
智东西 作者|程茜 编辑|心缘 智东西2月25日报道,刚刚,DeepSeek开源周第二弹发布,第一个用于MoE模型训练和推理的开源EP通信库,发布不到一小时,GitHub Star数已上千。
英国GPU公司Imagination Technologies宣布推出其最新的GPU IP(GPU设计方案的知识产权)——Imagination ...