基本上可视为阿里版的R1,响应的行为和R1十分类似,R1答不对的QwQ也答不对。 用五道题测了一遍新版QwQ,五题全错,表现和R1类似。(好吧,我只跑了一遍,看评论区又跑了几次,前两题QwQ正确率明显高于R1) 注:样本5是针对o3 ...
字节跳动旗下AI助手豆包正在小范围测试深度思考模型,据豆包相关负责人对极客公园表示,当前测试的是自家深度思考模型的不同实验版本。 另外有报道称,豆包正在测试的深度思考模型是基于豆包1.5基座模型研发。