状态 - Machine Learning Pod

广义优势估计

广义优势估计（Generalized Advantage Estimation, GAE）是强化学习中特别是在策略优化算法中使用的一种技术，用于估计优势函数。优势函数（Advantage Functi ...

2周前

61 0

1. RLHF的流程大模型的核心方法非RLHF（reinforcement learning from human feedback）莫属了。简单来说，RLHF是一种让模型从人类反馈中学习的方法。在 ...

8月前

3,257 14

Llama2 是 Meta 最近推出的大语言模型，它的训练数据集达到了两万亿个token。与前代产品 Llama 的 2048 的上下文长度相比，Llama2 的上下文长度扩展至 4096，使其能够理 ...

9月前

4,714 13

旋转式位置编码（Rotary Position Embedding，RoPE），这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码”的设计。建议先阅读《大模型基础之Sinu ...

9月前

2,118 4

近期，笔者深入研究了大模型中的位置编码工作。其中，Sinusoidal位置编码作为一篇基石性的研究，在"Attention Is All You Need"中首次被提出，为深度学习领域带来了革命性的T ...

9月前

1,329 6

在Transformer模型中，self-attention机制是其中的核心部分，使用了点积(dot-product)来计算keys和queries之间的关系。具体地，我们对queries和keys进 ...

4年前

3,765 7

在现代数据科学中，许多数据结构都可以表示为图，如互联网、社交网络等。这些图结构中的数据为机器学习提供了丰富的理论和应用场景。其中，PageRank 算法是图链接分析的经典代表，它是图数据上的无监督 ...

4年前

8,272 12