Task05 详读西瓜书 + 南瓜书第 6 章

1 间隔与支持向量

支持向量的概念：假设超平面 $(w, b)$ 能将训练样本正确分类，即对于 $(x_{i}, y_{i}) \in D$ ，若 $y_{i} = + 1$ ，则有 $w^{T} x_{i} + b > 0$ ，若 $y_{i} = - 1$ ，则有 $w^{T} x_{i} + b < 0$ ，令：

{\begin{array}{ccc} w^{T} x_{i} + b ⩾ + 1, y_{i} = + 1 \\ w^{T} x_{i} + b ⩽ - 1, y_{i} = - 1 \end{array}

距离超平面最近的这几个训练样本点使得上式成立，则这些样本点被称为支持向量。

找到最大间隔的划分超平面，需要求解参数 $w$ 和 $b$ 使得 $γ$ 最大，目标函数如下：

\begin{array}{l} min_{w, b} & \frac{1}{2} ∥ w ∥^{2} \\ s.t. & y_{i} (w^{T} x_{i} + b) ⩾ 1, i = 1, 2, \dots, m \end{array}

拉格朗日函数： $L (w, b, α) = \frac{1}{2} ∥ w ∥^{2} + \sum_{i = 1}^{m} α_{i} (1 y_{i} (w^{T} x_{i} + b))$
对偶问题：

\begin{array}{ll} max_{α} & \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ s.t. & \sum_{i = 1}^{m} α_{i} y_{i} = 0 \\ α_{i} ⩾ 0, i = 1, \dots, m \end{array}

{\begin{cases} α_{i} ⩾ 0 \\ y_{i} f (x_{i}) - 1 ⩾ 0 \\ α_{i} (y_{i} f (x_{i}) - 1) = 0 \end{cases}

支持向量机特点：训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关
SMO 算法思路：
1. 选取一对需要更新的变量 $α_{i}$ 和 $α_{j}$
2. 固定 $α_{i}$ 和 $α_{j}$ 以外的参数，求解对偶问题，获得更新后的 $α_{i}$ 和 $α_{j}$
3. 重复上述 2 个步骤，直至收敛
SMO 采用一个启发式：使选取的两变量所对应样本之间的间隔最大

\begin{array}{l} min_{w, b} & \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{m} ℓ_{0 / 1} (y_{i} (w^{T} x_{i} + b) - 1) \\ ℓ_{0 / 1} (z) = {\begin{cases} 1, & if z < 0; \\ 0, & otherwise \end{cases} \end{array}

损失函数：
1. hinge 损失： $ℓ_{h i n g e} (z) = max (0, 1 - z)$
2. 指数损失（exponential loss）: $ℓ_{e x p} (z) = \exp (- z)$
3. 对率损失（logistic loss）： $ℓ_{l o g} (z) = l o g (1 + \exp (- z))$
常用的软间隔支持向量机：

\begin{array}{ll} min_{w, b, ξ} & \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{m} ξ_{i} \\ s.t. & y_{i} (w^{T} x_{i} + b) ⩾ 1 - ξ_{i} \\ ξ_{i} ⩾ 0, i = 1, \dots, m \end{array}

\begin{array}{cl} max_{α} & \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ s.t. & \sum_{i = 1}^{m} α_{i} y_{i} = 0 \\ 0 ⩽ α_{i} ⩽ C, i = 1, 2, \dots, m \end{array}

{\begin{cases} α_{i} ⩾ 0, μ_{i} ⩾ 0 \\ y_{i} f (x_{i}) - 1 + ξ_{i} ⩾ 0 \\ α_{i} (y_{i} f (x_{i}) - 1 + ξ_{i}) = 0 \\ ξ_{i} ⩾ 0, μ_{i} ξ_{i} = 0 \end{cases}

min_{f} Ω (f) + C \sum_{i = 1}^{m} ℓ (f (x_{i}), y_{i})

在该式中， $Ω (f)$ 称为正则化项， $C$ 称为正则化参数

1. $L_p$ 范数使常用的正则化项
2. $L_2$ 范数 $\|w\|_2$ 倾向于 $w$ 的分量取值尽量均衡，即非零分量个数尽量稠密
3. $L_0$ 范数 $\|w\|_0$ 和 $L_1$ 范数 $\|w\|_1$ 倾向于 $w$ 的分量尽量系数，即非零分量个数尽量少

\begin{array}{l} min_{w, b, ξ_{i}, \hat{ξ} * i} & \frac{1}{2} ∥ w ∥^{2} + C \sum * {i = 1}^{m} (ξ_{i} + \hat{ξ} * i) \\ s.t. & f (x_{i}) - y_{i} ⩽ ϵ + ξ_{i} \\ y_{i} - f (x_{i}) ⩽ ϵ + \hat{ξ} * i \\ ξ_{i} ⩾ 0, \hat{ξ} * i ⩾ 0, i = 1, 2, \dots, m \end{array}

\begin{array}{l} max * α, \hat{α} & \sum * {i = 1}^{m} y * i (\hat{α} * i - α * i) - ϵ (\hat{α} * i + α * i) - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} (\hat{α} * i - α * i) (\hat{α} * j - α * j) x_{i}^{T} x_{j} \\ s.t. & \sum_{i = 1}^{m} (\hat{α} * i - α * i) = 0 \\ 0 ⩽ α_{i}, {\hat{α}}_{i} ⩽ C \end{array}

{\begin{cases} α_{i} (f (x_{i}) - y_{i} - ϵ - ξ_{i}) = 0 \\ {\hat{α}}_{i} (y_{i} - f (x_{i}) - ϵ - {\hat{ξ}}_{i}) = 0 \\ α_{i} {\hat{α}}_{i} = 0, ξ_{i} {\hat{ξ}}_{i} = 0 \\ (C - α_{i}) ξ_{i} = 0, (C - {\hat{α}}_{i}) \hat{ξ} * i = 0 \end{cases}

f (x) = \sum * {i = 1}^{m} (\hat{α} * i - α_{i}) x_{i}^{T} x + b

其中：

b = y_{i} + ϵ - \sum * {i = 1}^{m} (\hat{α} * i - α_{i}) x_{i}^{T} x w = \sum * {i = 1}^{m} ({\hat{α}}_{i} - α_{i}) ϕ (x_{i})