1.1 基本术语
机器学习:利用经验、通过计算、构建模型,来改善系统自身的性能。
属性(特征):描述事物在特定方面的性质的事项。
属性值:属性上的取值。 属性空间(输入空间):由属性张成的空间,属性空间。记录(样本):一个具体事物的属性描述,由属性向量表示。
第个记录的属性向量:标记:描述事物某个特性的事项。
标记值:标记上的取值。 标记空间(输出空间):所有标记的集合,标记空间。样例:拥有了对应标记的记录,由(记录,标记)对表示。第个样例:
数据集:
记录的集合(无监督), 样例的集合(有监督),回归:有监督学习中,标记为连续值, 。
分类:有监督学习中,标记为离散值。其中,或为二分类;为多分类。训练数据集:用以训练模型的数据集的子集,。
测试数据集:应用测试模型的数据集的子集,。1.2 假设空间与参数空间
决策函数(非概率模型):从输入空间到输出空间的映射。
假设空间定义为决策函数的集合:其中,是定义在输入空间上的变量,;是定义在输出空间上的变量。假设空间通常是由一个参数向量决定的函数族
其中,参数向量取值于维向量空间,称为参数空间。假设空间也可定义为条件概率的集合(概率模型)
其中,是定义在输入空间上的随机变量,是定义在输出空间上的随机变量。假设空间通常是由一个参数向量决定的概率分布族
其中,参数向量取值于维向量空间,称为参数空间。1.3 模型策略
损失函数(代价函数)度量模型预测错误的程度,是预测输出和实际输出的非负实值函数,记作
0-1损失函数
其中,是指示函数。平方损失函数
绝对值损失函数
对数似然损失函数
经验风险(经验损失)是模型关于训练数据集
的平均损失
经验风险最小化
其中,是假设空间。
过拟合:学习时选择的模型所包含的参数过多,以至于出现对已知数据预测得很好,但对未知数据预测得很差的现象。
欠拟合:学习时选择的模型所包含的参数过少,以至于出现不能对数据预测很好的现象。 泛化能力:学习得到的模型对未知数据的预测能力。结构风险:在经验风险上增加表示模型复杂度的正则化项。
其中,是模型复杂度,是正则化项,是定义在假设空间上的泛函;是系数,用以权衡风险和模型复杂度。结构风险最小化
其中,是假设空间。正则化项可以是参数向量的范数
其中,表示参数向量的范数。 正则化项可以是参数向量的范数其中,表示参数向量的范数。1.4 优化算法
机器学习的训练过程就是使用训练数据集,按照学习准则在假设空间中寻找最优模型的最优化求解过程
或者在参数空间中寻找最优参数的最优化求解过程
梯度下降法:通过迭代的方法来计算训练集上的风险函数最小值
其中,为第次迭代的参数值,为学习率。1.5 性能度量与评估方法
训练误差:模型关于训练数据集的平均损失
其中,是训练样本容量。测试误差:模型关于测试数据集的平均损失
其中,是测试样本容量。当损失函数是0-1损失,测试误差即测试集上的误差率
其中,是指示函数,即时为1,否则为0。测试集上的准确率
则,。分类中,模型的预测结果可分为:
1. 真正例(True Positive,TP):将正类预测为正类; 2. 假负类(False Negative,FN):将正类预测为负类; 3. 假正类(False Positive,FP):将负类预测为正类; 4. 真负类(True Negative,TN):将负类预测为负类。精确率(查准率)
召回率(查全率)P-R曲线:根据模型的预测结果对记录进行排序,按此顺序逐个对记录作为正样本进行预测,计算出当前查全率、查准率。在以查全率为横坐标,查准率为纵坐标的坐标系中,绘制各点并连接成线。
平衡点:模型在“查准率=查全率”时的取值。 模型比较:平衡点大的模型性能优于平衡点小的模型。值是精确率和召回率的调和均值
真正率
假正率ROC曲线:根据模型的预测结果对记录进行排序,按此顺序逐个对记录作为正样本进行预测,计算出当前真正率、假正率。在以假正率为横坐标,真正率为纵坐标的坐标系中,绘制各点并连接成线。
AUC:坐标系中ROC曲线下覆盖面积。 模型比较:模型ROC曲线有交叉时,AUC大的模型性能优于AUC小的模型。留出法:将数据集划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集。在训练集上训练模型,在测试集上测试误差,作为对泛华能力的评估。
k折交叉验证:将数据集划分为个大小相似的互斥子集,即,。每次用个子集的并集作为训练集,余下的子集作为测试集。可得到组训练集、测试集。最终返回的是个测试结果的均值。
参考:
[1]:统计学习方法(李航)
[2]:七月在线机器学习集训营课程笔记