这个新基准名为 SnakeBench ,是一个 1v1 的对抗性基准。其思路很简单:将两个 LLM 放在一起进行贪吃蛇比赛。如下展示了一局 o3-mini 与 DeepSeek-R1 的对抗。
日前,《世界作为参考答案》新书分享会在国家图书馆总馆北区一层学津堂举行。此次活动由世纪文景携手国家图书馆共同举办,吸引了众多读者参与。资深媒体人陈鲁豫担任嘉宾主持,华东师范大学紫江特聘教授刘擎、清华大学社会学系副教授严飞、青年作家蒋方舟作为对谈嘉宾,共同深入探讨书中话题,带领读者在时代浪潮中探寻生活与精神世界的答案。 陈鲁豫、刘擎、严飞、蒋方舟对谈。 思想的邂逅与碰撞:《世界作为参考答案》成书缘起 ...