1 小时
知乎 on MSN如何评价阿里 Qwen 新发布的推理模型 QwQ-Max-Preview,以及后续的开源 ...基本上可视为阿里版的R1,响应的行为和R1十分类似,R1答不对的QwQ也答不对。 用五道题测了一遍新版QwQ,五题全错,表现和R1类似。(好吧,我只跑了一遍,看评论区又跑了几次,前两题QwQ正确率明显高于R1) 注:样本5是针对o3 ...
18 小时on MSN
字节跳动旗下AI助手豆包正在小范围测试深度思考模型,据豆包相关负责人对极客公园表示,当前测试的是自家深度思考模型的不同实验版本。 另外有报道称,豆包正在测试的深度思考模型是基于豆包1.5基座模型研发。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果