NO.Idea

Linear Regression

矩阵表示#

对于一个简单线性回归:

Y=Xβ+ϵY = X\beta+\epsilon

为了表示方便,把 intercept 并入 β\beta 讨论

X=(x1x2xN)T=(x1Tx2TxNT)=(x11x12x1px21x22x2pxN1xN2xNp)N×p\begin{aligned} X = & \begin{pmatrix} x_1 & x_2 & \cdots & x_N \end{pmatrix}^{T} \\ = & \begin{pmatrix} x_1^T \\ x_2^T \\ \vdots \\ x_N^T \end{pmatrix} \\ = & \begin{pmatrix} x_{ 11 } & x_{ 12 } & \cdots & x_{ 1p } \\ x_{ 21 } & x_{ 22 } & \cdots & x_{ 2p } \\ \vdots & \vdots & \vdots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{Np} \end{pmatrix}_{N\times p} \end{aligned}
Y=(y1y2yN)Y=\begin{pmatrix}y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix}
W=(w1w2wp)W=\begin{pmatrix}w_1 \\ w_2 \\ \vdots \\ w_p \end{pmatrix}

以矩阵的形式来写 SSR(Sum of Squared Residuals):

WTXTYW^TX^TYYTXWY^TXW 其实就是一个标量,而标量的转置还是它本身。

因为 ϵ\epsilon 是一个向量,它的平方等于 ϵTϵ\epsilon^T\epsilon

L=ϵTϵ=(WTXTYT)(XWY)=(YTβTXT)(YXβ)=XTXTXWWTXTYYTXW+YTY=XTXTXW2WTXTY+YTY\begin{aligned} L = & \epsilon^T\epsilon=(W^TX^T-Y^T)(XW-Y)=(Y^T-\beta^TX^T)(Y-X\beta)\\ =&X^TX^TXW-W^TX^TY-Y^TXW+Y^TY\\ =&X^TX^TXW-2W^TX^TY+Y^TY \end{aligned}

WW 求偏导,L(W)=2XTXW2XTYL^\prime(W) = 2X^TXW-2X^TY

L(W)=0L^\prime(W) = {} 0,得到 W=(XTX)1XTYW = (X^TX)^{-1}X^TY

几何意义#

从特征维度来看,XβX\beta 表明了一个关于特征的线性组合,而 YXβY-X\beta 是 Y 到特征空间的法向量,这个法向量与 XX 垂直。

XTY=XTXββ=(XTX)1XTY\begin{aligned} X^TY=&X^TX\beta \\ \beta=&(X^TX)^{-1}X^TY \end{aligned}

概率视角#

当你用用假设噪声为正态分布的前提去做 MLE,会得到一样的式子

岭回归#

W=(XTX+λI)1XTYW = (X^TX+\lambda I)^{-1}X^TY 半正定矩阵加上对角矩阵一定可逆

贝叶斯视角#

MAP 可以得到岭回归

W^MAP=argminWi=1N(yiWTxi)2+σ2σ02W22\hat W_{MAP}=\operatorname{arg}\underset{W}{\operatorname{min}}\sum\limits_{i=1}^N(y_i-W^Tx_i)^2+\frac{\sigma^2}{\sigma_0^2}||W||_2^2

σ2\sigma^2 是噪声的方差

σ02{\sigma_0^2}WW 的方差