Task05 详读西瓜书 + 南瓜书第 6 章
1 间隔与支持向量
- 支持向量的概念: 假设超平面
能将训练样本正确分类,即对于 ,若 ,则有 ,若 ,则有 ,令:
距离超平面最近的这几个训练样本点使得上式成立,则这些样本点被称为支持向量。
- 间隔:两个异类支持向量超平面的距离之和
- 支持向量机(SVM)基本型:
找到最大间隔的划分超平面,需要求解参数
2 对偶问题
- 拉格朗日函数:
- 对偶问题:
- KKT 条件:
- 支持向量机特点:训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关
- SMO 算法思路:
- 选取一对需要更新的变量
和 - 固定
和 以外的参数,求解对偶问题,获得更新后的 和 - 重复上述 2 个步骤,直至收敛
- 选取一对需要更新的变量
- SMO 采用一个启发式:使选取的两变量所对应样本之间的间隔最大
3 软间隔与正则化
- 软间隔:允许某项样本不满足约束
,在最大化间隔的同时,不满足约束的样本应该尽可能少 - 目标函数:
- 损失函数:
- hinge 损失:
- 指数损失(exponential loss):
- 对率损失(logistic loss):
- hinge 损失:
- 常用的软间隔支持向量机:
- 软间隔支持向量机的对偶问题:
- 软间隔支持向量机的 KKT 条件:
- 软间隔支持向量机的最终模型仅与支持向量有关,即通过采用 hinge 损失函数仍保持了稀疏性
- 正则化问题:
在该式中,
1. $L_p$ 范数使常用的正则化项
2. $L_2$ 范数 $\|w\|_2$ 倾向于 $w$ 的分量取值尽量均衡,即非零分量个数尽量稠密
3. $L_0$ 范数 $\|w\|_0$ 和 $L_1$ 范数 $\|w\|_1$ 倾向于 $w$ 的分量尽量系数,即非零分量个数尽量少
4 支持向量回归
- 损失计算规则:以
为中心,构建一个宽度为 的间隔带,若训练样本落入此间隔带,则不计算损失,认为是被预测正确 - SVR 目标函数:
- SVR 对偶问题:
- SVR 的 KKT 条件:
- SVR 的解:
其中:
