一位AI初创CEO更是直言:在自己心目中最实用评估基准Aider Polyglot上, OpenAI的「镇国之宝」GPT-4.5,比DeepSeek-V3贵了500倍,但表现反而更差。
GPT-4.5令人失望的表现,再次印证了Ilya这句话的含金量:预训练已经达到极限,推理Scaling才是未来有希望的范式。 GPT-4.5在基准测试上并没有提升,推理没有增强,只是变成了一个更易于合作、更有创造性、幻觉更少的模型。