“预测下一个 token”(NTP,Next Token Prediction),最早由美国数学家克劳德·艾尔伍德·香农(Claude Elwood Shannon)于 1948 年在《通信的数学理论》一书中提出。图 | ...
但对于这些 token 的构成大众知之甚少 ... 大型、高质量的英语 Common Crawl 数据集,支持在短标记和长标记范围内预训练高度准确的 LLM。