其它2
告别Python中的循环,欢迎向量化!
循环对我们来说是自然而然的,我们在几乎所有的编程语言中都会学习循环。所以,默认情况下,我们在遇到重复操作时就开始实现循环。但是,当我们处理大量的迭代(百万/十
...
self-attention中dot-product操作为什么要被缩放
在Transformer模型中,self-attention机制是其中的核心部分,使用了点积(dot-product)来计算keys和queries之间的关系。具体地,我们对queries和keys进
...