一、引言:Transformer 架构的崛起与影响
Transformer 架构是深度学习领域近年来最具革命性的创新之一,自 2017 年由 Google Brain 团队在《Attention Is All You Need》论文中提出以来,已经彻底改变了自然语言处理 (NLP)、计算机视觉 (CV) 和…
Transformer Linear Attention
Attention计算时间复杂度
在之前的讨论中,我们探讨了如何通过稀疏化技术来减少自注意力机制的计算负担。除此之外,如果能够将计算复杂度从平方级别降低到线性级别,那么就能彻底解决随着输入长度增加而急剧上升的…