megatron - 搜索 News

4 小时

文｜蛇眼财经v2023年生成式AI以ChatGPT为标志席卷全球，大模型技术从实验室走向产业应用，催生了人工智能的“大爆发”。这场技术革命的核心驱动力是算力——大模型的训练与推理需要海量计算资源，而AI芯片作为算力的“引擎”，成为产业链的必争之地。寒 ...

虎嗅网5 小时

DeepSeek没有冲击英伟达，黄仁勋还大赞R1

当DeepSeek-V3和R1模型在硅谷掀起惊涛骇浪时，人们认为如果低成本都能打造高性能模型，那么依靠昂贵GPU堆砌算力的效果将大打折扣。

4 小时

AI大模型席卷，寒武纪遇到了黄金时代？

随着全球AI大模型的爆发，沉寂已久的AI圈彻底被引爆。身为国内AI芯片代表的寒武纪也终于被产业界关注到，股价随之水涨船高（涨了十多倍），直接让外界看傻了眼，而寒武纪能够大爆发，也是受多方因素影响。

19 小时

AI大模型引爆寒武纪，国产芯片迎来新机遇

2023年，全球范围内的人工智能浪潮愈演愈烈，特别是以ChatGPT为代表的生成式AI的崛起，掀起了一场针对大模型技术的革命。这场技术进步的核心动力是算力的需求，而作为算力引擎的AI芯片，显然成为了市场争夺的焦点。在这场浪潮中，寒武纪作为中国AI芯片 ...

腾讯网23 小时

🤖小佩顿：巴特勒喜欢说自己是威震天把球丢给他&他都会搞定

球员: 吉米就是吉米——他很有侵略性，也很爱沟通。他喜欢说自己是“Megatron（威震天 ...

GitHub20 天

DeepSpeed Ulysses: 训练极长序列Transformer模型的系统优化

值得注意的是，当N和P成比例增加时，这个通信量是恒定的。相比之下，现有的方法，如Megatron-LM，在N线性增长的情况下会导致通信量线性增加，而与P无关，从而导致O(N)的通信复杂度。例如，Megatron-LM对每个Transformer模型层都执行两个大小为Nh的all-gather操作 ...

3 天

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

（注：帕累托前沿是一个经济学和管理学中的概念，描述的是在多目标决策问题中所有可能的最优解的集合，这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点，都意味着一个目标的改善必然以牺牲另一个目标为代价，因此它代表了在多个目标之间实现的最佳权衡。

腾讯网3 天

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

GitHub17 天

DeepSpeed ZeRO++：降低4倍网络通信，显著提高大模型及类ChatGPT模型训练 ...

然而，训练这些大型模型需要在数百甚至数千个 GPU 设备上使用大量内存和计算资源。例如，训练 Megatron-Turing NLG 530B模型需要使用超过 4,000 个 NVidia A100 GPU。有效地利用这些资源需要一个复杂的优化系统，以将模型合理分配到各个设备的内存中，并有效地并行化 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果