在Transformer模型中,Multi-head Attention机制的主要目的是什么?( )
选项:
A:减少模型的训练时间
B:增加模型处理长序列的能力
C:允许模型同时从不同的表示子空间获取信息
D:替代传统的RNN和LSTM结构
发布时间:2024-06-21 22:55:16