Task01 概览西瓜书 + 南瓜书第 1、2 章
1 术语梳理
- 数据集:记录的集合
- 样本/示例:其中每条记录是关于一个事件或对象的描述
- 属性/特征:反映事件或对象在某方面的表现或性质的事项
- 学习任务分为两大类:监督学习、无监督学习
- 独立同分布:假设样本空间中,全体样本服从一个未知“分布”,获得的每个样本都是独立地从这个分布上采样获得
- 分类:预测值为离散值的问题
- 回归:预测值为连续值的问题
2 发展历程与应用
- 推理期:20 世纪 50 年代到 70 年代,逻辑理论家程序和通用问题求解程序,基于符号知识表示、通过演绎推理技术
- 知识期:从 20 世纪 70 年代中期到 80 年代,专家系统问世,基于符号知识表示、通过获取和利用领域知识建立专家系统
- 从样例中学习:20 世纪 90 年代中期之前,基于神经网络的连接主义学习
- 统计学习:20 世纪 90 年代中期开始,支持向量机、核方法
- 深度学习:21 世纪初,很多层的神经网络
- 应用:交叉学科、生物信息学、数据科学、天气预报、能源勘探、环境监测等
3 经验误差与过拟合
- 错误率:如果在
个样本中有 个样本分类错误,则错误率为 - 误差:学习器的实际预测输出与样本的真实输出之间的差异
- 训练误差/经验误差:学习器在训练集上的误差
- 泛化误差:学习器在新样本上的误差
4 评估方法
4.1 留出法
- 概念:直接将数据集
划分为两个互斥集合,其中一个集合作为训练集 ,另一个作为测试集 ,即 ,在 上训练出模型后,用 来评估其测试误差,作为对泛化误差的估计 - 分层采样:保留类别比例的采样范式
- 常用做法:将大约
的样本用于训练,剩余样本用于测试
4.2 交叉验证法
- 概念:将数据集
划分为 个大小相同的互斥子集,满足 ,同样地尽可能保持数据分布的一致性,即采用分层抽样的方法获得这些子集。交叉验证法的思想是:每次用 个子集的并集作为训练集,余下的那个子集作为测试集,这样就有 种训练集/测试集划分的情况,从而可进行 次训练和测试,最终返回 次测试结果的均值。 最常用的取值是 10
4.3 自助法
- 概念:给定包含
个样本的数据集 ,每次随机从 中挑选一个样本,将其拷贝放入 ,然后再将该样本放回初始数据集 中,使得该样本在下次采样时仍有可能被采到。重复执行 次,就可以得到了包含 个样本的数据集 。可以得知在 次采样中,样本始终不被采到的概率取极限为:
这样,通过自助采样,初始样本集 D 中大约有 36.8% 的样本没有出现在
5 性能度量
5.1 错误率/精度
- 错误率定义为
- 精度则定义为
5.2 查准率、查全率与 F1
分类混淆矩阵:

查准率
:
- 查全率
:
- “P-R 曲线”:描述查准/查全率变化的曲线。根据学习器的预测结果(一般为一个实值或概率)对测试样本进行排序,将最可能是“正例”的样本排在前面,最不可能是“正例”的排在后面,按此顺序逐个把样本作为“正例”进行预测,每次计算出当前的 P 值和 R 值。
- F1 值:计算查准率与查全率的调和平均值
