在科技界风起云涌的浪潮中,一项新兴的研究成果犹如一股清流,迅速吸引了业界的广泛关注。近日,DeepSeek研究团队携其最新力作——一种名为NSA的全新注意力机制,强势回归,与马斯克发布的Grok 3形成了鲜明的对比,两者热度不相上下。
当晚的电话会上,阿里巴巴集团CEO吴泳铭表示,未来三年在云和AI的基础设施投入,将超过去十年的总和。其平均每月资本开支,已超100个亿。 一周前,苹果与阿里的AI合作也已确认。年初至今,浓浓AI味的阿里,股价涨幅近6成,市值突破2.6万亿港元。
在科技发展的浪潮中,商汤科技又一次引领了风潮!2月24日,商汤科技悄然在其公众号上发布消息:旗下的大装置万象平台正式推出了DeepSeek-R1与DeepSeek-V3等多款新模型。值得一提的是,商汤还为使用免费版的客户提供了长达三个月的千万Token优惠,真是一波操作震撼业界!
今天要为大家隆重介绍一款在语音合成领域取得重大突破的新型 TTS 模型—— Llasa 8B。 这款模型由香港科技大学(HKUST)倾力打造,基于强大的 LLaMA 8B 大语言模型进行微调,专注于实现极致的语音克隆效果,并支持令人惊艳的中英双语生成能力。Llasa 8B 并非横空出世,它巧妙地选择了 Meta 公司开源的 LLaMA 8B ...
2月18日,DeepSeek团队发布了一篇新论文,介绍了一种改进的稀疏注意力机制NSA,适用于超快速的长上下文训练与推理。NSA以性价比极高的方式在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。
智慧途灵科技 (成都)有限公司创始人徐梦曦认为DeepSeek为整个行业带来的变化,从Center for AI Safety(人工智能安全中心)最新发起的“Humanity’s Last Exam”测试中,虽然不如OpenAI最新的O3但也位于前列。“Humanity’s Last ...
Token Statistics Transformer (ToST) 提出了一种新的注意力机制,它的时间复杂度是线性的。通过对序列特征的统计建模,ToST 提高了序列处理任务中的效率。文章探讨了基于变分编码率缩减(Variational Rate ...
在《哪吒2》票房突破100亿元、跻身全球动画影史前三之际,听力熊旗下AI虚拟伙伴“哪吒”同步缔造行业里程碑——上线首日角色对话量飙升至28亿token,刷新国内AI交互终端单日调用量纪录。这一数据不仅印证了产品强大的用户吸引力,更彰显了其在多模态情感 ...
近年来,随着大型语言模型(LLMs)的快速发展,自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景,展现了强大的能力。然而,传统的 “下一个 token 预测” 范式存在一定局限性,尤其是在处理复杂推理和长期任务时,模型需要经历大量训练才能掌握深层次的概念理解。
近日,谷歌的两位传奇人物,现任首席科学家Jeff Dean和Transformer的作者Noam Shazeer,与播客主持人Dwarkesh Patel进行了一场引人入胜的对话。回顾从1998年至今的AI历程,他们在视频上线几个小时内便吸引了20万+网友在线收看。这场持续两个多小时的访谈,生动地展示了一段从MapReduce到AGI的科技探索之路。
比如,拉丁字母的「e」(U+0065)和西里尔字母的「е」(U+0435)在外观上几乎一模一样,但它们的Unicode编码是不同的。这类易混淆字符,就被称为Confusables。
IT之家 2 月 12 日消息,AI 搜索引擎企业 Perplexity 当地时间昨日宣布推出其开发的新版 Sonar 搜索模型。该模型 由 Llama 3.3 70B 进一步训练而来,对搜索应用进行了优化 ,运行在 Cerebras 推理基础设施上。