M-RoPE在定位目标图像上有效,但在多选问题中表现不佳,因为它主要通过垂直位置编码来定位图像,而非时间特征,导致时间维度未能捕捉长距离依赖关系,关注局部信息。相比之下,空间维度则捕捉长距离语义信息,导致M-RoPE在频率分配设计上表现较差。
近期,复旦大学、华东师范大学及上海AILab联合推出了一项颇具创新意义的研究成果——DeepSeek-R1。该项研究由复旦教授邱锡鹏领导,提出了一种名为MHA2MLA的微调方法,使得基于多头注意力(MHA)的语言模型能够无缝迁移至多头潜在注意力(ML ...
近年来,随着短视频和长视频的广泛传播,视频理解和检索已成为人工智能领域的热门话题。复旦大学与上海AI实验室等科研团队近日推出了一项开创性的技术——VideoRoPE,标志着旋转位置嵌入(RoPE)在视频领域的突破性扩展,广泛应用于视频检索、理解和幻觉生成等任务,为长视频的理解和检索带来了革命性的进步。这项新技术不仅优化了信息处理的效率,更为未来的智能视频分析奠定了坚实的基础。
另一个关键架构增强是 Multimodal Rotary Position Embedding(M-ROPE)。通过将 original rotary embedding 分解为代表时间和空间(高度和宽度)信息的三个部分 ...