监督学习是机器学习的一种方法,它依靠带有标签的数据来学习预测模型。这种学习方式的核心是找到输入到输出之间的统计规律。

Pod 2.1 输入空间、特征空间和输出空间

在监督学习领域,我们将所有可能的输入和输出的集合称作输入空间和输出空间。这些空间可以是有限集合,也可以是无限的欧氏空间。通常情况下,输出空间会比输入空间小得多。
具体的输入被称为实例,它们通常由特征向量来表示。所有这些特征向量共同构成了所谓的特征空间,其中每一维代表一个特征。我们有时会假设输入空间和特征空间是相同的,而有时则认为它们是不同的,将实例从输入空间映射到特征空间。实际上,模型是定义在特征空间之上的。

在监督学习中,输入和输出被视为定义在输入(特征)空间和输出空间上的随机变量。一般用大写字母 XY 表示这些变量,它们的具体取值则用小写字母 xy 来表示。向量通常表示为列向量形式。

训练数据由输入和输出对组成,表示为:

T = \{(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)\}

测试数据也以相同的格式组成。每对输入和输出也称为一个样本点。

Pod 2.2 联合概率分布

监督学习假设输入和输出的随机变量 XY 遵循一定的联合概率分布 P(X, Y)。这个分布可能是未知的,但是训练和测试数据被视为依据这个分布独立同分布产生的。这一假设是监督学习对数据的基本前提。

Pod 2.3 假设空间

监督学习旨在学习输入到输出的映射,这种映射由模型来表示。模型所属的集合称为假设空间。确定假设空间实际上定义了学习的边界。

模型可以是概率模型或非概率模型,通常表示为条件概率分布 P(Y | X) 或决策函数 Y = f(X)。这取决于采用的具体学习方法。

Pod 2.4 问题的形式化

监督学习通过训练数据集来学习模型,并用这个模型对测试样本集进行预测。这个过程通常需要人工标注的训练数据集,因此被称为监督学习。监督学习分为学习和预测两个阶段,由学习系统和预测系统来完成。

给定训练数据集 T,学习系统利用这些数据训练出一个模型,可以是条件概率分布 \hat{P}(Y | X) 或决策函数 Y = \hat{f}(X)。然后在预测阶段,对于测试集中的新输入 x_{N+1},模型会给出预测输出 y_{N+1}

监督学习假定训练和测试数据由同一概率分布 P(X, Y) 独立同分布产生。学习算法的目标是发现一个模型,该模型不仅对训练数据有良好的预测能力,而且能够很好地推广到未知数据。