23
2020/11
Self-Attention中Dot-Product为什么要Scale(为什么要除以根号d)
在自注意力机制(Self-Attention)中,缩放点积(Scaled Dot-Product Attention)用于计算查询(Query)和键(Key)之间的相似性得分。缩放点积的公式如下:
其
...