23
2020/11

Self-Attention中Dot-Product为什么要Scale(为什么要除以根号d)

在自注意力机制(Self-Attention)中,缩放点积(Scaled Dot-Product Attention)用于计算查询(Query)和键(Key)之间的相似性得分。缩放点积的公式如下: 其 ...