其它2

告别Python中的循环,欢迎向量化!

循环对我们来说是自然而然的,我们在几乎所有的编程语言中都会学习循环。所以,默认情况下,我们在遇到重复操作时就开始实现循环。但是,当我们处理大量的迭代(百万/十 ...

self-attention中dot-product操作为什么要被缩放

在Transformer模型中,self-attention机制是其中的核心部分,使用了点积(dot-product)来计算keys和queries之间的关系。具体地,我们对queries和keys进 ...