在回归模型中,决定系数$R^2$表示反应变量$y$的总变异中可由回归模型中自变量解释的部分所占的比例,它是衡量所建立模型效果好坏的评价指标之一。根据$R^2$的计算方法,显然$R^2$越大越好,但是有一点需要注意的是,向模型中增加变量会导致$R^2$增大,或者至少保持不变,这就会造成一种假象,只要我不断地向模型中增加变量,$R^2$会越来越大,模型效果貌似越来越好,即使所增加的变量对于目标变量来说没有任何意义。为什么会这样子呢,下面从理论证明之。
预备知识
先把$R^2$的公式丢上来:$$R^2 =\frac{ESS}{TSS} =1 - \frac{\sum{(y-\hat{y})^2}}{\sum{(y-\bar{y})^2}}$$
其中,$y$是样本真实值,$\bar{y}$ 是样本均值$\frac{\sum_{i=1}^m{y_i}}{n}$,$\hat{y}$是预测值。
乍一看好像$R^2$的大小跟自变量$X$没有半毛钱关系,只跟实际$y$与预测$\hat{y}$值有关,其实事情并没有那么简单。
对于线性回归模型$$y = X\beta + \mu$$
其中$ X = (x_0,x_1,x_2,…,x_n) $ ,n为变量个数。 $\mu$ 为回归模型随机误差。
我们一般会通过最小二乘法(OLS)来估计未知参数$\beta$,也就是将线性回归模型的残差平方和(sum of squared residuals,SSR)作为损失函数来优化,如下:

显然,残差平方和越小越好,我们的目标就是找到一组参数$\beta$,使得残差平方和最小,这时拟合的曲线是最好的。求一个函数的最值,顺手一个求导并令导数等于0,就可搞定。 $$\min SSR(\beta) = min \sum_{i=1}^m{(y_i - X_i \hat{\beta})^2} $$
求关于$\beta$的导数,并令导数等于0

根据上面公式,可以得到OLS估计量满足一阶条件$-2X(y-X \hat{\beta})^T = 0$,从而有$X\mu^T = 0$
证明
有了上面的知识点,证明起来就非常简单了。
设线性回归模型$y = X \beta + \mu $ (1)的决定系数为:$$R_1^2 =1 - \frac{\sum{(y-\hat{y_1})^2}}{\sum{(y-\bar{y})^2}}$$
在原有模型基础上,增加一个变量,线性回归模型变为$y = X_0 \hat{\beta}_0+X \hat{\beta} + \nu $ (2),对应的决定系数为$$R_2^2 =1 - \frac{\sum{(y-\hat{y_2})^2}}{\sum{(y-\bar{y})^2}}$$
现在需要证明$R_2^2 \geqslant R_1^2$
证明:
根据$R^2$的计算公式,可以推导出

因此,只要证明$\mu^T \mu \geqslant \nu^T \nu $ 即可。
由变量之间相互独立,以及OLS的一阶条件推导出的$X\mu^T = 0$,所以有$\mu^T = X_0 \nu^t = X \nu^T = 0$
将(1)和(2)式合并起来:$$ X \beta + \mu = X_0 \hat{\beta}_0+X \hat{\beta} + \nu $$
上式两边乘以$\mu^T$ ,有

相似地,两边乘$\nu^T$,有

结合上面两个式子,有

为了方便后面公式展示,我这里先令

对$\nu^T \nu$进行推导,如下:

因此有

证明完毕。
总结
由证明可知,用$R^2$评价回归模型拟合效果具有一定的局限性,$R^2$越大并不能代表模型效果越好,针对此问题,出现了校正的决定系数(公式如下),相对于$R^2$,当向模型中增加相对于目标变量无意义的自变量时,校正的决定系数值会减小。当然,稍微看下校正的决定系数计算公式就知道,问题还是存在的,就是当建模的样本量远远大于自变量个数的时候,$\bar{R^2}$趋近于$R^2$,此时校正的效果几乎消失。$$\bar{R^2} = 1 - (1-R^2)\frac{n-1}{n-p-1}$$