新浪科技讯 2月17日上午消息,月之暗面研究员Flood Sung近日分享了k1.5 模型背后的完整思考过程,并透露称,2024年9月 12 号OpenAI o1 发布带来的震撼效果,令自己陷入了Long-CoT的有效性反思中。因为 Long-CoT ...
2月17日上午,月之暗面研究员Flood Sung分享了k1.5模型背后的思考过程,并表示2024年OpenAI o1发布的效果让他思考了Long-CoT的有效性。月之暗面Kimi联合创始人Tim周昕宇在一年多前验证过,通过训练小模型做运算并合成长的CoT数据,可以获得良好效果。公司意识到Long Context的重要性,开始考虑将Context搞长。尽管Long-CoT成本较高且速度慢,但Flo ...
对此,钛媒体AGI从知情人士从了解到,该动作核心原因在于DeepSeek热潮,带动近期 Kimi 智能助手“自然新增用户量猛涨”。这意味着,月之暗面对推广动作进行了相应调整。
2月17日消息,上个月Kimi 发布的多模态推理模型k1.5,今日月之暗面官方分享了k1.5模型诞生的过程。 月之暗面研究员Flood Sung表示,去年9月12号OpenAI o1发布,长思维链(推理模型背后的关键技术)的有效让他陷入反思。
2月17日,人工智能初创公司月之暗面在其官方微信公众号分享了其前段时间刚刚发布的Kimi ...
近日,月之暗面的研究员FloodSung分享了K1.5模型背后的完整思考过程,揭示了公司在AI模型开发中的重要突破。FloodSung表示,早在2024年9月,OpenAI的o1模型带来的震撼效果,促使他们重新审视Long-CoT(长思维链)技术的有效性。
DeepSeek R1 主要分为两大类别,共计 8 个版本,但性能与 GPT - o1 抗衡的版本只有 671B 满血版本。其他蒸馏版模型虽经过了调优,但性能仍与满血版有差距。然而,根据传统的私有化部署方案,运行 671B 参数的大模型需组建H100 ...
总的来说,K1.5模型的背后不仅是数字与数据的深邃思考,更是对未来可能的畅想与实用技术的整合。在这一迅猛发展的技术时代,谁能更好地掌握长文本生成的钥匙,谁就能在未来的AI竞争中赢得先机。随着对Long-CoT的重视与投入,月之暗面正铆足干劲,致力于将这些新技术落到实处,开创一个全新的智能时代。 返回搜狐,查看更多 ...
然而,受限于成本考虑,月之暗面此前将重点放在了Long Context(长文本输入)的优化上。Flood Sung解释道,Long Context主要处理输入端,借助Prefill预填充和Mooncake技术,可以较好地控制成本和速度。相比之下,Long-CoT侧重输出端,需要更高的成本和更长的处理时间。
月之暗面的研究员Flood Sung回顾了k1.5模型的研发历程,特别提到了去年9月12日OpenAI发布的o1模型对其产生的深远影响。o1模型中的长思维链技术,让Flood Sung深感震撼,因为这项技术早在一年多前,就被月之暗面的联合创始人Tim周昕宇所验证。当时,他们通过小型模型训练,实现了数十位的加减乘除运算,将精细的运算步骤串联成长长的思维链数据,进行监督微调,取得了显著成效。
“Long Context 主要做的是长文本输入,有 Prefill 预填充,有 Mooncake 加持,成本速度可控,而 Long-CoT 是长文本输出,成本高很多,速度也要慢很多,在这种情况下,把输出搞长就没有成为一个高优选项。” Flood Sung 反思道,“但还有什么比 Performance (性能)更重要呢 ...