线性分类器
1. 前置概念
- 提供 n 个样本,每个样本具有 d 个特征。这些样本表示为 d 维空间的特征向量。
- 决策边界:我们的分类器划分出的边界,将属于这个类别的样本和不属于这个边界的样本划分开。
- 决策函数:一个将 x 映射到标量的函数 f(x):
{f(x)>0,f(x)≤0,x∈C,x∈/C.
对于这样的决策函数,决策边界为 {x∈Rd,f(x)=0}。这是一个 d−1 维的曲面。
2. 线性分类器的决策边界
对于一个线性分类器 f(x)=w⋅x+α,由前面的决策边界定义 f(x)=0,它的决策边界为:
H={w⋅x=α}
这个平面 H 有如下的性质:平面上的任意两点 x,y 的连线与 w 正交:
w⋅(y−x)=0
因此 w 也被称作 H 的法向量。
同时,如果 w 为单位向量的话,决策函数 f(x)=w⋅x+α 还代表了 x 到面 H 的有符号距离这一特征。假设 x 与 w 的夹角为 θ,则 x 到 H0(经过原点且法向量为 w 的平面) 的距离可以如下计算:
d=∣x∣cosθ=∣x∣∣x∣∣w∣w⋅x=w⋅x
而 H 到 H0 的距离为 α,因此 x 到 H 的有方向距离为 f(x)=w⋅x+α。这个距离的正负表示我们对 x 的类别的判断;这个距离的绝对值大小表示我们做出这个判断的把握。
3. 质心分类器
质心分类器是一个简单的线性分类器。它计算出属于一个类别的质心 μC 和不属于这个类别的质心 μX,然后使用两者连线的中垂面作为决策边界。根据前面的决策边界表达式,有:
H=(μC−μX)(x−2μC+μX)