Pod 2. 是什么监督学习？

监督学习是机器学习的一种方法，它依靠带有标签的数据来学习预测模型。这种学习方式的核心是找到输入到输出之间的统计规律。

Pod 2.1 输入空间、特征空间和输出空间

在监督学习领域，我们将所有可能的输入和输出的集合称作输入空间和输出空间。这些空间可以是有限集合，也可以是无限的欧氏空间。通常情况下，输出空间会比输入空间小得多。
具体的输入被称为实例，它们通常由特征向量来表示。所有这些特征向量共同构成了所谓的特征空间，其中每一维代表一个特征。我们有时会假设输入空间和特征空间是相同的，而有时则认为它们是不同的，将实例从输入空间映射到特征空间。实际上，模型是定义在特征空间之上的。

在监督学习中，输入和输出被视为定义在输入（特征）空间和输出空间上的随机变量。一般用大写字母 $X$ 和 $Y$ 表示这些变量，它们的具体取值则用小写字母 $x$ 和 $y$ 来表示。向量通常表示为列向量形式。

训练数据由输入和输出对组成，表示为：

T = \{(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)\}

测试数据也以相同的格式组成。每对输入和输出也称为一个样本点。

Pod 2.2 联合概率分布

监督学习假设输入和输出的随机变量 $X$ 和 $Y$ 遵循一定的联合概率分布 $P(X, Y)$ 。这个分布可能是未知的，但是训练和测试数据被视为依据这个分布独立同分布产生的。这一假设是监督学习对数据的基本前提。

Pod 2.3 假设空间

监督学习旨在学习输入到输出的映射，这种映射由模型来表示。模型所属的集合称为假设空间。确定假设空间实际上定义了学习的边界。

模型可以是概率模型或非概率模型，通常表示为条件概率分布 $P(Y | X)$ 或决策函数 $Y = f(X)$ 。这取决于采用的具体学习方法。

Pod 2.4 问题的形式化

监督学习通过训练数据集来学习模型，并用这个模型对测试样本集进行预测。这个过程通常需要人工标注的训练数据集，因此被称为监督学习。监督学习分为学习和预测两个阶段，由学习系统和预测系统来完成。

给定训练数据集 $T$ ，学习系统利用这些数据训练出一个模型，可以是条件概率分布 $\hat{P}(Y | X)$ 或决策函数 $Y = \hat{f}(X)$ 。然后在预测阶段，对于测试集中的新输入 $x_{N+1}$ ，模型会给出预测输出 $y_{N+1}$ 。

监督学习假定训练和测试数据由同一概率分布 $P(X, Y)$ 独立同分布产生。学习算法的目标是发现一个模型，该模型不仅对训练数据有良好的预测能力，而且能够很好地推广到未知数据。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Pod 2.1 输入空间、特征空间和输出空间

Pod 2.2 联合概率分布

Pod 2.3 假设空间

Pod 2.4 问题的形式化

专题展示

关注公众号，获取最新动态

Pod 2. 是什么监督学习？

Pod 2.1 输入空间、特征空间和输出空间

Pod 2.2 联合概率分布

Pod 2.3 假设空间

Pod 2.4 问题的形式化

猜你喜欢

专题展示

关注公众号，获取最新动态