机器学习基础10

大模型RLHF中PPO的直观理解

1. RLHF的流程 大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLH ...

Pod 7. 朴素贝叶斯法

朴素贝叶斯方法(naïve Bayes) 是一种以贝叶斯定理为基础,并假设各特征在条件上相互独立的分类方法。在处理训练数据集时,该方法首先从特征的独立性假设出 ...

Pod 6. K近邻及Kd树实现

K近邻算法(K-Nearest Neighbors, KNN)是一种基础且广泛应用的机器学习算法。其主要思想是在特征空间中找到距离待预测点最近的K个已知数据点 ...

Pod 5. 感知机

感知机(Perceptron)是一种基本的线性二分类模型,输入为实例的特征向量,输出为实例的类别,具体为 +1 或 -1 的二值。该模型在输入空间(特征空间)中构造一个分离超平面来区分正负两类实例,属 ...

Pod 4. 什么是强化学习?

强化学习是机器学习领域的一个分支,它专注于如何使智能系统通过与环境的交互来学习最佳行为策略。这一学习过程假设智能系统与环境的互动符合马尔可夫决策过程,其中智能系统能够观测到一系列因交互产生的状态和奖励 ...

Pod 3. 什么是无监督学习?

无监督学习是一种机器学习方法,它从未经标记的数据中发掘预测模型。这些数据是自然生成的,而预测模型用来揭示数据的分类、转换或概率分布。无监督学习的核心目标是识别出数据内部的统计规律或隐藏结构。 模型的输 ...

Pod 2. 是什么监督学习?

监督学习是机器学习的一种方法,它依靠带有标签的数据来学习预测模型。这种学习方式的核心是找到输入到输出之间的统计规律。 Pod 2.1 输入空间、特征空间和输出空间 在监督学习领域,我们将所有可能的输入 ...

Pod 1. 什么是机器学习?

机器学习,这一计算机科学的前沿领域,正在以数据为核心,通过建立统计模型来引领智能化时代的发展。本文概述了机器学习的核心特征,包括其基于计算机和网络的平台,对大量数据的深度分析能力,以及其在预测和分析方 ...

从另一个角度思考交叉熵损失函数

现在让我们先抛开、,好好讲一讲。作为神经网络的最后一层的输出,的每个元素对应于每个类别的得分,其取值范围是整个实数域。我们优化神经网络的目的就在于让目标类别的得分变大,非目标的得分变小。 假设有个类别 ...

PageRank算法详解

在现代数据科学中,许多数据结构都可以表示为图,如互联网、社交网络等。这些图结构中的数据为机器学习提供了丰富的理论和应用场景。其中,PageRank 算法 ...