distilation - 搜索 News

2 天

DeepSeek R1 的技术报告验证了知识蒸馏+SFT的方法能够让小模型获得优越的推理能力。这种看似极具性价比的方案引发了大量关注和剖析。由于业界对蒸馏的工艺和上限尚未形成共识，因此也带来了对该技术更为系统的探索工作。

2 天

2月10日至11日，巴黎举办了人工智能（AI）行动峰会。《纽约时报》称，与过去一个月的所有AI活动一样， ...

在汽车行业，人工智能（AI）已不再是一个附加元素。随着电动汽车时代的开启，以软件为核心的车辆备受关注，如今 AI 在汽车各个领域的应用趋势正不断加速。在这样的变化中，中国的 AI 模型 “深度求索（DeepSeek）” ...

csdn13 天

您是否听说过SDXL Turbo？这是SDXL文生图模型的对抗性扩展蒸馏版本，可以在文本提示词的基础上实时生成各种图像。在高通Cloud AI 100 Ultra平台（热设计功耗150瓦）上，我们大约每250毫秒即可针对4条不同的提示词生成4张图像。请继续阅读，以了解更多有关现有方法 ...

财联社 on MSN2 天

上周末，社交媒体X上有一条关于“未来AI竞争趋势”的推文引起了马斯克的兴趣，并获得了其“手动点赞”。而且，马斯克旗下的xAI也刚好在上周正式发布了Grok 3大模型。这篇推文是由美国著名TMT（科技、媒体和通信）投资人Gavin ...

1 天

具体而言，Baker指出，从2022年夏季到2024年春季，OpenAI一直处于领先地位，但后来谷歌和Anthropic赶上了GPT-4。由于其先发优势，以及积极押注传统的预训练“缩放定律”（Scaling ...

这篇论文是DeepSeek-AI团队发表的，标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement ...

4 天

DeepSeek R1 可能是推动本地 AI 领域飞速发展的最大功臣。这款来自中国的 AI 模型免费、开源且功能强大，是任何想要尝试新 AI 应用的人的完美工具。从基本的聊天搜索（例如“如何去除棉质 T 恤上的污渍”），到处理税务问题或其他个人事务 ...

10 天

近日，上海AI实验室（上海AI Lab）在数学推理领域取得重大突破，通过强化学习（Reinforcement Learning，简称RL）技术，成功在数学推理能力上超越了DeepSeek，这一成果引发了广泛关注。上海AI ...

华尔街见闻 on MSN8 天

苹果和牛津大学的研究人员引入了一种蒸馏缩放定律，该定律可以根据计算预算分布预测蒸馏模型的性能，对蒸馏进行了广泛的对照研究，学生和教师模型的参数范围从1.43亿到126亿，训练数据从几十亿token到5120亿token不等。

4 天

2025年以来，中国人工智能初创企业深度求索（DeepSeek）迅速崛起，引发全球科技界、投资界与政策界热议——DeepSeek于2025年前后分别推出开源通用模型DeepSeek-V3与推理模型DeepSeek-R1，其在数学、编码、推理等方面的表 ...

机器之心报道机器之心编辑部蒸馏模型的性能可以量化估算了。众所周知，知识蒸馏技术当前正被大模型领域广泛使用，它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度，与此同时还能对知识域进行集成和迁移。近日，苹果研究人员提出了一种蒸馏扩 ...

一些您可能无法访问的结果已被隐去。