Scaling - 搜索 News

知乎 on MSN1 小时

基本上可视为阿里版的R1，响应的行为和R1十分类似，R1答不对的QwQ也答不对。用五道题测了一遍新版QwQ，五题全错，表现和R1类似。（好吧，我只跑了一遍，看评论区又跑了几次，前两题QwQ正确率明显高于R1）注：样本5是针对o3 ...

18 小时on MSN

字节跳动旗下AI助手豆包正在小范围测试深度思考模型，据豆包相关负责人对极客公园表示，当前测试的是自家深度思考模型的不同实验版本。另外有报道称，豆包正在测试的深度思考模型是基于豆包1.5基座模型研发。

一些您可能无法访问的结果已被隐去。

今日热点