Regression VS Classification

回归问题：定量(quantity)
分类问题：定性(label)
分类问题的标签一般由回归或者直接测量来得到。eg. 预测明天的天气，降水量超过一定阈值$C$为有雨，否则为不下雨。这里的降水量是个连续型随机变量，可以直接测量也可以通过回归来预测。

$\widetilde{y}=\begin{cases} 1,\qquad\qquad if\boldsymbol{w^Tx}>c \\ 0,\qquad\qquad else\end{cases}$

也可以将阈值$C$与待学习的参数$w$合并：

$\widetilde{y}=\begin{cases} 1,\qquad\qquad if\boldsymbol{w^Tx}>0 \\ 0,\qquad\qquad else\end{cases}$

Logistic Regression

上述函数在 $\boldsymbol{x}=\boldsymbol{0}$ 的时候不可微(differentiable)而且在每一处的导数都是0，在求Loss进行梯度下降的过程中无法学习到任何信息。因此我们引入Logistic Function(Sigmoid Function):

$p=\sigma (\boldsymbol{w^Tx})=\frac{1}{1+e^{-\boldsymbol{w^Tx}}}$

这个函数将 $\boldsymbol{w^Tx}$ 映射到概率取值 $[0,1]$，含义是将 $\boldsymbol{x}$ 标记为 $1$ 的概率。
如果我们使用 ${\mathcal L}2$ 损失函数： ${\mathcal L}(\boldsymbol{x},y)=\frac{1}{2}||\sigma(\boldsymbol{w^Tx})-y||^2$
令 $z=\boldsymbol{w^Tx}$ 则： ${\mathcal L}=\frac{1}{2}(\sigma(z)-y)^2$
此时有：

$\begin{aligned} \frac{\partial {\mathcal L}}{\partial \boldsymbol{w}}&=\frac{\partial {\mathcal L}}{\partial\sigma(z)}\frac{\partial\sigma(z)}{\partial z}\frac{\partial z}{\partial \boldsymbol{w}}\\ &=(\sigma(z)-y)\cdot\frac{\partial\sigma(z)}{\partial z}\cdot\boldsymbol{x} \end{aligned}$

其中：

$\begin{aligned} \frac{\partial\sigma(z)}{\partial z}&=\frac{\partial ((1+e^{-z})^{-1})^{-1}}{\partial z}\\ &=-1\cdot(1+e^{-z})^{-2}\cdot\frac{\partial (1+e^{-z})}{\partial z}\\ &=-(1+e^{-z})^{-2}(-e^{-z})\\ &=(1+e^{-z})^{-2}(e^{-z})\\ &=(\sigma(z))^2(\frac{1}{\sigma(z)}-1)\\ &=\sigma(z)(1-\sigma(z)) \end{aligned}$

由于梯度下降的公式为：

${\boldsymbol{w}}={\boldsymbol{w}}-\alpha\frac{\partial {\mathcal L}}{\partial {\boldsymbol{w}}}$

可以看到如果 $\sigma(z)\approx 0or1$：

$\frac{\partial\sigma(z)}{\partial z}\approx 0\to\frac{\partial {\mathcal L}}{\partial \boldsymbol{w}}\approx 0$

这种情况下会出现梯度消失(Gradient Vanishing)，参数 ${\boldsymbol{w}}$ 无法继续进行更新。

Binary Cross-entropy

为了避免 ${\mathcal L}2$ 损失函数在训练过程中的梯度消失问题，我们使用以下损失函数：

$\begin{aligned}{\mathcal L}_{ce}(x,y)&=-ylogp-(1-y)log(1-p)\\ &=\begin{cases}\begin{aligned} -logp,\qquad\qquad &if\qquad y=1 \\ -log(1-p),\qquad&if\qquad y=0\end{aligned}\end{cases}\end{aligned}$

其中： $p=\sigma(z)\quad z=\boldsymbol{w^Tx}$
该式解释如下：

$\begin{aligned}p(correct|\boldsymbol{x})&=\begin{cases}P(\widetilde{y}=1|\boldsymbol{x}),\qquad if\quad y=1\\P(\widetilde{y}=0|\boldsymbol{x}),\qquad if\quad y=0\\\end{cases}\\&=P(\widetilde{y}=1|\boldsymbol{x})^yP(\widetilde{y}=0|\boldsymbol{x})^{(1-y)}\end{aligned}$

要想最大化上述值，就要最小化它的log值的相反数(negative log-likelihood)：

$\begin{aligned}min\quad-logP(correct|\boldsymbol{x})&=min\quad-P(\widetilde{y}=1|\boldsymbol{x})^yP(\widetilde{y}=0|\boldsymbol{x})^{(1-y)}\\&=min\quad-ylogp-(1-y)log(1-p)\\&=min\quad L_{ce}(\boldsymbol{x},y)\end{aligned}$

Cross-entropy的梯度为：

$\begin{aligned}\frac{\partial L_{ce}}{\partial \boldsymbol{w}}&=\frac{\partial L_{ce}}{\partial z}\frac{\partial z}{\partial \boldsymbol{w}} =\frac{\partial L_{ce}}{\partial p}\frac{\partial p}{\partial z}\frac{\partial z}{\partial \boldsymbol{w}}\\ &=(-\frac{y}{p}+\frac{1-y}{1-p})\ast p(1-p)\ast\boldsymbol{x}\\ &=(p-y)\boldsymbol{x}\end{aligned}$

Multi-class classification

Multi-label 一个输入可以有多个标签
Single-label 一个输入只能有一个标签

Multi-label

对于一个输入可以有多个标签的情况，可以同时训练多个分类器，每个分类器对应一个类别，判断该输入是否属于该类别，这些类别之间彼此独立。
对第 $i$ 个类别有：
$z_i=\boldsymbol{W}_i\boldsymbol{x}+b_i\quad p_i=\sigma(z_i)\quad L_{ce}=-y_ilogp_i-(1-y_i)log(1-p_i)$
对于所有类别向量化表示为:
$\boldsymbol{z}=\boldsymbol{W}\boldsymbol{x}+\boldsymbol{b}\quad \boldsymbol{p}=\sigma(\boldsymbol{z})\quad L_{ce}=-\boldsymbol{y}^Tlog\boldsymbol{p}-(1-\boldsymbol{y})^Tlog(1-\boldsymbol{p})$

Single-label

必须在所有标签中选择一个标签出来：维持所有标签的概率总和为1，取概率最大的标签为预测的结果。可以使用Softmax regression (multinomial logistic regression)：

$p_i=\frac{e^{z_i}}{\sum_j e^{z_j}}=softmax(z_i)$

满足：$\boldsymbol z=\boldsymbol{Wx}\quad \sum_ip_i=1\quad t= \mathop{\arg\max}\limits_ip_i\quad \widetilde{y_i}=i=t?1:0$
单个实例的预测值为one-hot向量 $\widetilde{\boldsymbol{y}} =(\widetilde{y_1},…,\widetilde{y_K})$，共$K$个类别。
Loss函数为：$L_{ce}(\boldsymbol{x},\boldsymbol{y})=\sum_i-y_ilogp_i=-\boldsymbol{y}^Tlog\boldsymbol{p}=-logp_{k_{right}}$
其中 $\mathbf{X}$ 的每一行是特征向量 $\boldsymbol{x}$， $\mathbf{Y}$ 的每一行是目标one-hot向量 $\boldsymbol{y}$ ：

$\mathbf{X} = \begin{pmatrix} {\boldsymbol{x^{(1)}}}^T \\ {\boldsymbol{x^{(2)}}}^T \\ ... \\ {\boldsymbol{x^{(m)}}}^T\end{pmatrix} \qquad \mathbf{Y} = \begin{pmatrix} {\boldsymbol{y}^{(1)}}^T \\ {\boldsymbol{y}^{(2)}}^T \\ ... \\ {\boldsymbol{y}^{(m)}}^T\end{pmatrix}$ $\frac{\partial J}{\partial \mathbf{W}}=\frac{1}{m}(\mathbf{P}-\mathbf{Y})\mathbf{X}^T\in R^{k\times n}, \mathbf{X}\in R^{(m\times n)} ,\mathbf{Y}\in R^{(m\times k)}$

history

Sigmoid 代表小写的希腊字母sigma (uppercase Σ, lowercase σ)