无监督学习是一种机器学习方法,它从未经标记的数据中发掘预测模型。这些数据是自然生成的,而预测模型用来揭示数据的分类、转换或概率分布。无监督学习的核心目标是识别出数据内部的统计规律或隐藏结构。

模型的输入和输出可能包含的所有值定义了输入和输出空间。这些空间可以是有限的集合,也可以是更广阔的欧氏空间。每个输入实例由特征向量表征,而输出则是对输入实例的解释,这可以是输入实例的类别、某种转换,或者是其概率描述。模型可以用于执行数据聚类、降维或概率估计。

设想输入空间为 \mathcal{X} ,而隐藏的结构空间为 \mathcal{Z} 。我们希望学习的模型可以表示为函数 z = g(x) ,条件概率分布 P(z|x) P(x|z) ,其中 x \in \mathcal{X} 是输入, z \in \mathcal{Z} 是由模型产生的输出。所有可能模型的集合构成了假设空间。无监督学习的目标是从这个假设空间中选出根据某个给定评价标准最优的模型。

在无监督学习中,我们通常使用大量未标记的数据进行学习或训练。每个样本都是一个单独的实例。训练数据集可以表示为 U = \{x_1, x_2, \ldots, x_N\} ,其中 x_i, i = 1, 2, \ldots, N ,代表每个样本。

无监督学习可用于分析现有数据,或预测未来数据的行为。在分析阶段,我们利用学习得到的模型,无论是函数 z = \hat{g}(x) ,条件概率分布 \hat{P}(z|x) \hat{P}(x|z) 。在预测阶段,流程与监督学习相似。这一过程涉及学习系统和预测系统。学习过程中,学习系统从训练数据集中学得一个最优模型。在预测过程中,对于一个新的输入 x_{N+1} ,模型 z_{N+1} = \hat{g}(x_{N+1}) z_{N+1} = \arg \max_{z} \hat{P}(z|x_{N+1}) 会提供一个相应的输出 z_{N+1} ,用于执行聚类或降维;或者,模型 \hat{P}(x|z) 可用来估计给定 z_{N+1} 时输入 x_{N+1} 的概率,进行概率估计。