后验概率最大化准则
定义
对训练样本集 $D=\{(x_i,y_i)\}_{i=1}^n$, 其中 $x_i \in \mathcal{X}$, $y_i \in \mathcal{Y} = \{c_1, c_2, \cdots, c_K\}$, 将 $x$ 的类别预测为 $c_i$ 的 风险 为
$$ R(Y=c_i | x) = \sum_{j=1}^K \lambda_{ij} P(Y=c_j | x) $$其中 $\lambda_{ij}$ 是将属于 $c_j$ 的样本预测为 $c_i$ 的损失. 最优预测 $\hat{y}$ 是使得风险最小的类别, 即
$$ \hat{y} = \argmin_{c_i} R(Y=c_i | x) $$假设采用 $0-1$ 损失函数, 易知
$$ R(Y=c_i | x) = 1 - P(Y=c_i | x) $$即输入 $x$ 的最优预测 $\hat{y}$ 为使得后验概率 $P(y | x)$ 最大的类别.
逻辑斯蒂回归模型
定义
设 $\mathcal{X}=\mathbb{R}^n, \mathcal{Y}=\{c_1,c_2\}$, 逻辑斯蒂回归模型 是如下的后验概率分布:
$$ \begin{aligned} P(Y=c_1 | x) &= \frac{\exp(w \cdot x + b)}{1+\exp(w \cdot x + b)} \\ P(Y=c_2 | x) &= \frac{1}{1+\exp(w \cdot x + b) } \end{aligned} $$其中 $w,b$ 是模型参数.
按照后验概率最大化准则, 显然当 $w \cdot x + b > 0$ 时, 预测为 $c_1$, 否则预测为 $c_2$.
对于多类分类任务, 仍然可以使用逻辑斯蒂回归模型:
$$ \begin{aligned} p(y=c_i | x) &= \frac{\exp(w_i \cdot x + b_i)}{\sum_{j=1}^{K-1} \exp(w_j \cdot x + b_j)}, \quad i=1,2,\cdots,K-1 \\ p(y=c_K | x) &= \frac{1}{\sum_{j=1}^{K-1} \exp(w_j \cdot x + b_j)} \end{aligned} $$给定 $D=\{(x_i,y_i)\}_{i=1}^n$, 其中 $x_i \in \mathbb{R}^n$, $y_i \in \mathcal{Y} = \{0,1\}$, 用 $\theta=(w,b)$ 表示二项逻辑斯蒂回归模型的参数, 令
$$ p(x;\theta) = p(Y=1 | x;\theta) $$则考虑似然函数为
$$ \begin{aligned} L(\theta) &= \prod_{i=1}^n p(x_i;\theta)^{y_i} (1-p(x_i;\theta))^{1-y_i} \\ \log L(\theta) &= \sum_{i=1}^n y_i \log p(x_i;\theta) + (1-y_i) \log (1-p(x_i;\theta)) \\ &= \sum_{i=1}^N y_i(w \cdot x_i + b) - \log(1+\exp(w \cdot x_i + b)) \end{aligned} $$对 $w,b$ 求偏导为 $0$, 得到
$$ \begin{aligned} \frac{\partial \log L(\theta)}{\partial w} &= \sum_{i=1}^n x_i(y_i - p(x_i;\theta)) = 0\\ \frac{\partial \log L(\theta)}{\partial b} &= \sum_{i=1}^n (y_i - p(x_i;\theta)) = 0 \end{aligned} $$朴素 Bayes 分类器
定理Bayes 公式
$$ \begin{aligned} P(Y=c_i | x) &= \frac{P(x | Y=c_i) P(Y=c_i)}{P(x)} \\ &= \frac{P(x | Y=c_i) P(Y=c_i)}{\sum_{j=1}^K P(x | Y=c_j) P(Y=c_j)} \end{aligned} $$朴素 Bayes 假定特征之间相互独立, 即
$$ p(X^1=x^1, X^2=x^2, \cdots, X^n=x^n | Y=c_k) = \prod_{j=1}^n p(X^j=x^j | Y=c_k) $$对于输入实例 $x=(x^1,x^2,\cdots,x^n)$, 则后验概率
$$ p(Y=c_k|x)=\frac{\left( \prod_{i=1}^n p(X^i=x^i | Y=c_k) \right) P(Y=c_k)}{\sum_{j=1}^K \left( \prod_{i=1}^n p(X^i=x^i | Y=c_j) \right) P(Y=c_j)} $$分母是固定的, 只需比较分子的大小即可. 但是一旦某个特征取值和分类没有同时出现, 后验概率直接为 $0$, 为了避免这种情况, 通常引入一些平滑技术:
$$ p_{\lambda}(Y=c_k) = \frac{\sum_{j=1}^NI(y_j=c_k)+\lambda}{N+K\lambda} $$$\lambda=1$ 时称为 Laplace 平滑.