2023 年 11 月 - 机器学习POD

LLaMA2模型代码详解

Llama2 是 Meta 最近推出的大语言模型，它的训练数据集达到了两万亿个token。与前代产品 Llama 的 2048 的上下文长度相比，Llama2 的上下文长度扩展至 4096，使其能够理 ...

3 年前

8,055 15

旋转式位置编码（Rotary Position Embedding，RoPE），这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码”的设计。建议先阅读《大模型基础之Sinu ...

3 年前

5,341 5

近期，笔者深入研究了大模型中的位置编码工作。其中，Sinusoidal位置编码作为一篇基石性的研究，在"Attention Is All You Need"中首次被提出，为深度学习领域带来了革命性的T ...

3 年前

3,420 9