1. 线性回归
在一个标准的线性回归问题中,我们有个数据点,以及对应的
且,
而线性回归中,给定和参数,的条件分布设定为
\begin{align} y_i = x_i^T\beta + \epsilon_i \\ \end{align}
其中,
因此,
使用符号表示一个行列的矩阵,第个行向量代表
使用符号表示大小为的向量,第个元素代表
频率方法可直接得到一个解
\begin{align} \hat{\beta} = (X^TX)^{-1}X^Ty \end{align}
2. 共轭先验
在贝叶斯方法中,我们还需要补充先验,在那之前先整理似然函数
\begin{align} P(y|X,\beta,\sigma^2) &= \prod_{i=1}^nN(x_i^T\beta, \sigma^2) \\ &= \left(\frac{1}{\sigma\sqrt{2\pi}}\right)^nexp\left(-\frac{\sum_{i=1}^n(y_i - x^T_i\beta)^2}{2\sigma^2}\right)\\ &= \left(\frac{1}{\sigma\sqrt{2\pi}}\right)^nexp\left(-\frac{(y-X\beta)^T(y-X\beta)}{2\sigma^2}\right) \end{align}
去掉常数,有
\begin{align} P(y|X,\beta,\sigma^2) \propto \sigma^{-n}exp\left(-\frac{(y-X\beta)^T(y-X\beta)}{2\sigma^2}\right) \end{align}
将改写形式
\begin{align} (y-X\beta)^T(y-X\beta) = (y-X\hat{\beta})^T(y-X\hat{\beta}) + (\beta - \hat{\beta})^T(X^TX)(\beta - \hat{\beta}) \end{align}
令
\begin{align} v &= n - k \\ vs^2 &= (y-X\hat{\beta})^T(y-X\hat{\beta}) \end{align}
于是我们得到一个新形式的似然函数
\begin{align} P(y|X,\beta,\sigma^2) & \propto \sigma^{-n}exp\left(-\frac{vs^2 + (\beta-\hat{\beta})^T(X^TX)(\beta-\hat{\beta})}{2\sigma^2}\right) \\ & \propto \sigma^{-n}exp\left(-\frac{vs^2 }{2\sigma^2}\right)exp\left(-\frac{(\beta-\hat{\beta})^T(X^TX)(\beta-\hat{\beta})}{2\sigma^2}\right) \\ & \propto \left[(\sigma^2)^{-v/2}exp\left(-\frac{vs^2 }{2\sigma^2}\right)\right] \left[(\sigma^2)^{-k/2}exp\left(-\frac{(\beta-\hat{\beta})^T(X^TX)(\beta-\hat{\beta})}{2\sigma^2}\right)\right] \end{align}
令为的先验值,随后为了使先验共轭,令先验的形式与似然函数对应
\begin{align} P(\beta,\sigma^2) = P(\sigma^2)P(\beta|\sigma^2) \end{align}
其中,令
\begin{align} P(\sigma^2) =Inv-Gamma(\frac{v_0}{2}, \frac{v_0s_0^2}{2}) \propto \sigma^{-(v_0+2)}exp\left( -\frac{v_0s_0^2}{2\sigma^2} \right) \end{align}
设定,于是
\begin{align} P(\sigma^2) \propto \sigma^{-(2a_0+2)}exp\left( -\frac{b_0}{\sigma^2} \right) \end{align}
而另一个条件概率设定为高斯分布,式中的为先验值
\begin{align} P(\beta |\sigma^2) \propto \sigma^{-k}exp\left( -\frac{(\beta-\mu_0)^T\Lambda_0(\beta - \mu_0)}{2\sigma^2} \right) \end{align}
3. 后验
有了先验和似然,可以开始计算后验了,根据贝叶斯公式
\begin{align} P(\beta,\sigma^2|y,X) &\propto P(y|X,\beta,\sigma^2)P(\beta|\sigma^2)P(\sigma^2) \\ & \propto \left[\sigma^{-n}exp\left(-\frac{(y-X\beta)^T(y-X\beta)}{2\sigma^2}\right)\right]\left[\sigma^{-k}exp\left( -\frac{(\beta-\mu_0)^T\Lambda_0(\beta - \mu_0)}{2\sigma^2} \right)\right] \\ &* \left[\sigma^{-(2a_0+2)}exp\left( -\frac{b_0}{\sigma^2} \right)\right] \end{align}
由于
\begin{align} (y-X\beta)^T(y-X\beta) + (\beta-\mu_0)^T\Lambda_0(\beta - \mu_0) = (\beta-\mu_n)^T(X^TX+\Lambda_0)(\beta - \mu_n) + y^Ty - \mu_n^T(X^TX+\Lambda_0)\mu_n + \mu_0^T\Lambda_0\mu_0 \end{align}
式中,由上式也可以看出就是的后验均值
使用,可以整理后验概率如下
\begin{align} P(\beta,\sigma^2|y,X) \propto \left[\sigma^{-k}exp\left( -\frac{(\beta-\mu_n)^T(X^TX + \Lambda_0)(\beta-\mu_n)}{2\sigma^2} \right)\right] \left[\sigma^{-n-2a_0-2} exp \left( -\frac{2b_0 + y^Ty - \mu_n^T(X^TX + \Lambda_0)\mu_n+\mu_0^T\Lambda_0\mu_0}{2\sigma^2} \right)\right] \end{align}
可以看到后验概率整理成一个高斯分布乘上一个逆伽马分布,与先验概率的形式保持一致
由整理后的式子容易得到
\begin{align} \mu_n &= (X^TX + \Lambda_0)^{-1}(\Lambda_0\mu_0 + X^Ty) \\ \Lambda_n &= X^TX + \Lambda_0 \\ a_n &= a_0 + \frac{n}{2} \\ b_n &= b_0 + \frac{y^Ty+\mu_0^T\Lambda_0\mu_0-\mu_n^T\Lambda_n\mu_n}{2} \end{align}
也就是
\begin{align} P(\beta,\sigma^2|y,X) \propto \left[\sigma^{-k}exp\left( -\frac{(\beta-\mu_n)^T\Lambda_n(\beta-\mu_n)}{2\sigma^2} \right)\right] \left[(\sigma^2)^{-a_n-1} exp \left( -\frac{b_n}{\sigma^2} \right)\right] \end{align}
4. Ridge Regression
当时称为Ridge Regression
式中的