“当然,Transformer架构引入了自注意力机制,它能使模型同时考虑输入序列中的所有位置,而不是像循环神经网络或卷积神经网络那样逐步处理,而且自注意力机制允许模型根据输入序列中的不同部分来赋予不同...