与传统Tranformer相比,DIFF Transformer保持宏观架构不变,主要区别在于用差分注意力替换传统softmax注意力。 此外还采用了LLaMA系列中的一些改进,如pre ...