其次,反思能力的引入显著提升了 CoT 质量,所有具备反思能力的 LMM 都实现了较高的 CoT 质量表现。例如 QVQ 达到了 62.0% 的 F1 分数,大幅超过 Qwen2-VL-72B 6.8%。而 Kimi k1.5 更是超越 GPT-4o 达到最佳质量。 在鲁棒性方面,团队发现大多数早期模型在感知任务中都受到 ...