落园 » ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(四)|专注经济视角下的互联网

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(四)

照例继续本周笔记。这次我没啥废话了...

--------------笔记开始---------------

投影矩阵与消灭矩阵

首先是上次没证的若干OLS性质。基本都是公式。我就照抄原来econometrics做的笔记了。权当复习了...对计量有兴趣的、线性代数还不错的,建议去看《Microeconometrics- Methods and Applications》(?A. Colin Cameron / Pravin K. Trivedi )。

先定义两个矩阵,这两个矩阵会在某种程度上save your life while learning econometrics...投影矩阵和消灭矩阵。

复习一下,OLS估计量是 \hat{\beta}=(X'X)^{-1}X'Y,然后对应的Y估计量是\hat{Y}=X\hat{\beta}=X(X'X)^{-1}X'Y。所以,我们定义投影矩阵P为P=X(X'X)^{-1}X',这样就有了\hat{Y}=PY。也就是说,我们对Y进行了一次投影,然后得到了一个估计值。当然定义投影矩阵并不仅仅是写起来比那堆X简单,而是投影矩阵本身有着一系列良好的性质。

我们先来看把P投在X上会怎么样。显然,PX=X(X'X)^{-1}X'X=X,也就是说P不会改变X的值(本来就是把一个东西投到X上嘛~自己投自己怎么会有变化的嘛)。

然后呢,对P进行转置,则P'=(X(X'X)^{-1}X')'=P,所以接下来P^{2}=P'P=X(X'X)^{-1}X'X(X'X)^{-1}X'=P

再定义消灭矩阵M。很简单,我们定义M为M=I-P=I-X(X'X)^{-1}X',其中I为单位阵(对角线元素为1,其他为0)。这样M又有什么性质呢?显然MY=(I-P)Y=Y-\hat{Y}=\varepsilon,也就是说M对Y的效果是得到误差项。而与此同时,M对于X的作用就是MX=(I-P)X=X-X=0,所以称为消灭矩阵嘛。继续,进行转置,则M'=(I-P)'=I-P=M,所以我们还有M^{2}=M'M=(I-P)(I-P)=I-P-P+P=I-P=M

OLS估计值的方差

再次友情提醒,X不是随机变量,所以不要跟我纠结为什么没有条件期望公式之类的东西...

扰动项服从N(0,\sigma)时,或者大样本下,OLS估计量的方差为:

Var(\hat{\beta})=E[(\hat{\beta}-\beta)(\hat{\beta}-\beta)']=E[(X'X)^{-1}X'\varepsilon][(X'X)^{-1}X'\varepsilon]'=(X'X)^{-1}E(\varepsilon\varepsilon')=s_{1}^{2}(X'X)^{-1}

这里=s_{1}^{2}为样本方差,所以其分布为: \hat{\beta}\sim N(\beta,s_{1}^{2}(X'X)^{-1})。这样一来,就有了一个t检验:

t=\frac{\beta-0}{s_{1}^{2}(X'X)^{-1}}\sim t_{N-K-1}

大样本下,就直接用正态检验好了。此外,如果我们进一步的有更多的同时检验的约束条件,那就是联合检验F。这个就不赘述了...

高斯-马尔可夫定理

顺便还证了一下高斯-马尔可夫定理...这个不像OLS,每次我可记不住他的证明,每次都是现翻书...

我就直接抄wiki了。

选择另外一个线性估计量\tilde\beta = CY,然后C可以写为 (X'X)^{-1}X' + D ,则D为k*n的非空矩阵。

那么这个估计量\tilde\beta的期望是 :

 \begin{align} E(CY) &= E(((X'X)^{-1}X' + D)(X\beta + \varepsilon)) \\ &= ((X'X)^{-1}X' + D)X\beta + ((X'X)^{-1}X' + D)\underbrace{E(\varepsilon)}_0 \\ &= (X'X)^{-1}X'X\beta + DX\beta \\ &= (I_k + DX)\beta. \\ \end{align}

所以,为了保证\tilde\beta 无偏,则必有DX = 0 .

继续求方差:

\begin{align} V(\tilde\beta) &= V(CY) = CV(Y)C' = \sigma^2 CC' \\ &= \sigma^2((X'X)^{-1}X' + D)(X(X'X)^{-1} + D') \\ &= \sigma^2((X'X)^{-1}X'X(X'X)^{-1} + (X'X)^{-1}X'D' + DX(X'X)^{-1} + DD') \\ &= \sigma^2(X'X)^{-1} + \sigma^2(X'X)^{-1} (\underbrace{DX}_{0})' + \sigma^2 \underbrace{DX}_{0} (X'X)^{-1} + \sigma^2DD' \\ &= \underbrace{\sigma^2(X'X)^{-1}}_{V(\hat\beta)} + \sigma^2DD'. \end{align}

DD'是一个半正定矩阵,V(\tilde\beta)肯定要比V(\hat\beta)大~得证。

变量选择与收缩方法

为了降低测试误差(减少函数的复杂度),有时候会放弃无偏性而进行变量选择。这里首先就是Ridge OLS(岭回归)。还是算一下这个东西好了。

岭回归就是对估计量另外加一个约束条件,所以很自然的想到拉格朗日乘子法。ridge regression的目标函数为,

\hat{\beta} = \arg min \sum(y-\hat{y})^2 \\s.t. \sum \hat{\beta}^2\leq k

可以重写为

\hat{\beta}=\arg\min(\sum(y-\hat{y})^{2}+\lambda(\hat{\beta}^{2}-k))

\mathcal{L}=\sum(y-\hat{y})^{2}+\lambda(\hat{\beta}^{2}-k)

这样我们就得到两个一阶条件:

\frac{\partial L}{\partial\beta}=X'(X\hat{\beta}-Y)+\lambda\hat{\beta}=0\frac{\partial L}{\partial\lambda}=\hat{\beta}^{2}-k=0,所以有:

 \hat{\beta}=(X'X+\lambda I)^{-1}X'Y

这里还可以看出,\lambda的取值都是对应k的。

Lasso则是把L_2改成L_1,已经没有解析解了...

至于为什么叫收缩方法,可以将X进行奇异值分解,然后可以得出\hat{Y}_{ridge}的方差将变小...我就不写证明了,感觉这一块儿讲的也不是很透彻。


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *