大模型RLHF中PPO的直观理解

1. RLHF的流程 大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLH ...

Pod 7. 朴素贝叶斯法

朴素贝叶斯方法(naïve Bayes) 是一种以贝叶斯定理为基础,并假设各特征在条件上相互独立的分类方法。在处理训练数据集时,该方法首先从特征的独立性假设出 ...

Pod 6. K近邻及Kd树实现

K近邻算法(K-Nearest Neighbors, KNN)是一种基础且广泛应用的机器学习算法。其主要思想是在特征空间中找到距离待预测点最近的K个已知数据点 ...

Pod 5. 感知机

感知机(Perceptron)是一种基本的线性二分类模型,输入为实例的特征向量,输出为实例的类别,具体为 +1 或 -1 的二值。该模型在输入空间(特征空间)中构造一个分离超平面来区分正负两类实例,属 ...

Pod 4. 什么是强化学习?

强化学习是机器学习领域的一个分支,它专注于如何使智能系统通过与环境的交互来学习最佳行为策略。这一学习过程假设智能系统与环境的互动符合马尔可夫决策过程,其中智能系统能够观测到一系列因交互产生的状态和奖励 ...

Pod 3. 什么是无监督学习?

无监督学习是一种机器学习方法,它从未经标记的数据中发掘预测模型。这些数据是自然生成的,而预测模型用来揭示数据的分类、转换或概率分布。无监督学习的核心目标是识别出数据内部的统计规律或隐藏结构。 模型的输 ...

Pod 2. 是什么监督学习?

监督学习是机器学习的一种方法,它依靠带有标签的数据来学习预测模型。这种学习方式的核心是找到输入到输出之间的统计规律。 Pod 2.1 输入空间、特征空间和输出空间 在监督学习领域,我们将所有可能的输入 ...

Pod 1. 什么是机器学习?

机器学习,这一计算机科学的前沿领域,正在以数据为核心,通过建立统计模型来引领智能化时代的发展。本文概述了机器学习的核心特征,包括其基于计算机和网络的平台,对大量数据的深度分析能力,以及其在预测和分析方 ...

LLaMA2模型代码详解

Llama2 是 Meta 最近推出的大语言模型,它的训练数据集达到了两万亿个token。与前代产品 Llama 的 2048 的上下文长度相比,Llama2 的上下文长度扩展至 4096,使其能够理 ...

大模型基础之归一化方法

对于预训练大型语言模型,训练的不稳定性是一个挑战性的问题。为了缓解这个问题,标准化被广泛地用作稳定神经网络训练的策略。在原始的Transformer中,采用了LayerNorm。近期,有几种高级的标准 ...