详情请看 indexing/README.md。 OneFlow 深度学习框架中基于 cuda 做的优化工作,动态更新中。 学习了oneflow的softmax kernel实现以及Faster Transformer softmax kernel的实现,并以个人的角度分别解析了原理和代码实现,最后对性能做一个对比方便大家直观的感受到oneflow softmax ...