但当前的大部分评测基准仍然具有以下几个缺陷: 多注重于短视频,视频长度或视频镜头数不足,难以考察到模型的长时序理解能力; 对模型的考察局限在部分较为简单的任务,更多细粒度的能力未被大部分基准所涉及到; 现有的基准仍可以仅凭单帧图像以 ...