第7章-使用统计方法进行变量有效性测试-7.4.1-简单线性回归

目录

基本概念

变量之间的关系

相关分析

回归分析

相关分析和回归分析的关系

一元线性回归模型

总体回归函数

样本回归函数

线性回归模型的假定

普通最小二乘法(Ordinary Least Squares,OLS)

拟合优度指标

回归系数估计量的性质

回归系数估计量的线性性

回归系数估计量的无偏性

回归系数估计量的有效性

回归系数估计量检验(t检验)

参考文献


基本概念

变量之间的关系

        变量之间的关系,一般可以分成两类,确定性关系和非确定性的依存关系。

(1)确定性关系

        如果一个变量的值Y能被一个或若干个其他变量值X_1,X_2,...,X_k按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。可以写成如下形式:

Y=f(X_1,X_2,..,X_k)

这里f就是“按某一规律唯一的确定”中的那个唯一的规律。确定性关系通常也称为函数关系。事实上,上式就是我们熟悉的多元函数。其中X_1,X_2,...,X_k为自变量,Y为因变量。

       例如:假设每吨水的价格为10元时,居民应缴纳水费Y(元),与用水量X(吨)之间的关系就是一个确定性关系,确定性关系如下:

Y=10X

(2)非确定性关系

        如果一个变量的值Y与一个或若干个其他变量值X_1,X_2,...,X_k之间存在着密切的数量关系,却无法由X_1,X_2,...,X_k的值精确求出。在基于大量统计数据的基础之上,可以判别这类变量之间的数量关系具有一定的规律性,称为统计相关关系。

        例如:居民消费支出Y,与可支配收入X之间存在着密切的数量关系。在一定范围内,可支配收入增加,居民的消费支出也会相应增加。但是,根据可支配收入并不能精确求出消费支出。也就是它们之间的关系是非确定性的。


相关分析

        相关分析是通过对变量之间依存关系的分析,找出变量之间依存关系的形式和相关程度,以及依存关系的变动规律。

        从依存关系的形式来看,可分为线性相关和非线性相关。线性相关反映变量之间的依存关系近似表示为一条直线。而非线性相关无法近似的表示为一条直线。

        变量之间的相关程度,可以通过相关系数来度量。例如可以使用Pearson相关系数来度量两个连续型变量之间的相关程度(线性相关,Pearson相关系数为0只能说明变量之间不存在线性关系,但无法说明变量之间不存在关系)。

        关于Pearson相关系数可以参见皮尔逊相关系数(百度百科)。


回归分析

        回归分析是研究某一被解释变量(因变量),与另一个或多个解释变量(自变量)间的依存关系,其目的在于根据已知的解释变量值来估计和预测被解释变量的总体平均值

        在研究某一社会经济现象的发展变化规律时,所研究的现象或对象称为被解释变量。它是分析的对象,把引起这一现象变化的因素称为解释变量。它是引起这一现象变化的原因。

        按照回归分析模型中自变量的个数,分为一元回归分析多元回归分析。一元回归分析是指分析模型中只有一个自变量,多元回归分析是指回归分析模型中有两个或两个以上的自变量。

        按照回归分析模型中参数被解释变量(因变量)之间是否线性,分为线性回归分析非线性回归分析。注意这里是针对参数,而不是自变量。

        本文将重点研究一元线性回归分析,也就是文章标题所写的“简单线性回归”。


相关分析和回归分析的关系

        相关分析是回归分析的前提和基础,回归分析是相关分析的深入和继续。

        相关分析需要依靠回归分析来表现变量之间数量关系的具体形式。而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。

        相关分析只研究变量之间相关的方向(正相关、负相关)和相关的程度(使用相关系数来度量),不能推断变量之间的相关关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。


一元线性回归模型

总体回归函数

        假若我们要研究的问题是:某市城镇居民家庭的可支配收入X和消费支出Y之间的关系。则全市城镇居民家庭构成了研究的总体。某市全部城镇居民家庭可支配收入和消费支出统计数据如下:

可支配收入X消费支出Y户数平均消费支出
X_1Y_{11},Y_{12},...,Y_{1n_1}n_1E(Y|X_1)
X_2Y_{21},Y_{122},...,Y_{2n_2}n_2E(Y|X_2)
........................
X_iY_{i1},Y_{i2},...,Y_{in_i}n_iE(Y|X_i)
........................
X_kY_{k1},Y_{k2},...,Y_{kn_k}n_kE(Y|X_k)

第1列是可支配收入X,分为k个不同的收入水平X_1,X_2,...,X_k

第2列是消费支出,对于某一个收入水平X_i,总共有n_i户家庭的消费支出数据与之对应,反映了在给定某一收入水平下,有关消费支出的条件分布。根据条件分布可以计算出在某一收入水平下的平均消费支出E(Y|X_i),即条件均值。

        可以看出,对于每一个收入水平X_i,仅有唯一的一个条件均值E(Y|X_i)与之对应。这种一一对应关系,可以表示成如下函数关系:

E(Y|X_i)=f(X_i)              (1)

该函数被称为总体回归函数(Population Regression Function, PRF),总体回归函数反映了在给定自变量X_i下,因变量Y的分布的总体均值随自变量X_i的变化关系。

        总体回归函数f若是线性函数,有:

E(Y|X_i)=\beta_0+\beta_1X_i                 (2)

其中\beta_0,\beta_1未知而固定的参数,称为回归系数(Regression Coefficients),特别地,\beta_0称为截距系数,\beta_1称为斜率系数。这里所谓的未知而固定,指的是通常研究的总体变量之间的关系是无法知道的,但又是客观存在的,只能根据样本数据来进行近似估计。(2)式也被称为一元线性总体回归函数

        事实上,E(Y|X_i)仅仅反映了在某一收入水平X_i下,平均消费支出水平。但是对于某一居民的家庭消费支出Y_i不一定与该水平一致。或多或少存在一些偏差。该偏差用\varepsilon_i表示。即:

\varepsilon_i=Y_i-E(Y|X_i)

则有

Y_i=E(Y|X_i)+\varepsilon_i

总体回归函数f若是线性函数,则

Y_i=\beta_0+\beta_1X_i+\varepsilon_i       (3)

\varepsilon_i是除可支配收入外,其他一个或多个影响消费支出的因素的综合影响,是一个不可观测的随机变量,称为随机误差项。注意到上式中下标i仅仅表达的是第i个收入水平,是一个随机变量,并不是第i个样本,所以,可以写成如下更一般的形式:

Y=\beta_0+\beta_1X+\varepsilon  

该式就是本文要讨论的一元线性回归函数。式中的各个项都是真实值,不是预测值或估计值。注意到求解总体回归函数就是求解出回归系数\beta_0,\beta_1。下面介绍样本回归函数。


样本回归函数

        根据总体可以建立总体回归函数,揭示被解释变量(因变量)随解释变量的变化而变化的规律。但在大多数实际情况中,总体的信息往往无法全部获得,我们所掌握的不过是与某些固定的X值相对应的Y值样本,需要根据已知的样本信息去估计总体回归函数。

        假设现在不知道建立总体回归函数的统计数据,仅仅掌握了来自总体的一组样本数据,例如:

根据以上样本数据拟合如下线性函数:

\hat{Y_i}=\hat{\beta_0}+\hat{\beta_1}X_i

该式称为样本回归函数。比较该式与总体回归函数

E(Y|X_i)=\beta_0+\beta_1X_i

假如\hat{\beta_0}无限接近\beta_0\hat{\beta1}无限接近\beta_1,就可以用样本回归函数值\hat{Y_i}去估计总体回归函数E(Y|X_i)的值,即E(Y|X_i)\approx \hat{Y_i}

        估计值\hat{Y_i}与真实值Y_i存在一定的误差,该偏差用e_i表示。如下:

e_i=Y_i-\hat{Y_i}

Y_i=\hat{Y_i}+e_i

得到如下一元线性样本回归函数

Y_i=\hat{\beta_0}+\hat{\beta_1}X_i+e_i

e_i称为样本剩余项,或残差。


线性回归模型的假定

(1)线性于参数

即讨论的模型是关于参数\beta_0,\beta_1的线性函数。即:

Y=\beta_0+\beta_1X+\varepsilon

当然这里是一元情形,可以写成多元形式。

(2)扰动项与自变量不相关,期望值为0

Cov(X_i,\varepsilon_i)=0, E(\varepsilon_i)=0

 (3)扰动项之间相互独立且服从方差相等的同一个正态分布

Cov(\varepsilon_i,\varepsilon_j)=0(i\neq j), \varepsilon_i\sim N(0,\sigma^2)


普通最小二乘法(Ordinary Least Squares,OLS)

         如何根据样本数据信息估计回归系数呢?直觉告诉我们,预测值或估计值\hat{Y_i}尽可能接近观测值Y_i。OLS的原理就是让残差平方和达到最小,来确定回归分析模型中的参数,也就是回归系数。即:

min\sum_{i=1}^{n} e_i^2

下面来估计和推导。由

e_i=Y_i-\hat{Y_i}=Y_i-\hat{\beta_0}-\hat{\beta_1}X_i

得到残差平方和:

\sum_{i=1}^{n} e_i^2=\sum_{i=1}^{n} (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)^2

对于给定的样本,\sum_{i=1}^{n} e_i^2是关于\hat{\beta_0},\hat{\beta_1}的二元函数。即:

f(\hat{\beta_0},\hat{\beta_1})=\sum (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)^2    

根据最小二乘法原理,要求\hat{\beta_0},\hat{\beta_1}使得\sum_{i=1}^{n} e_i^2最小。借助微积分求极值方法。上式两边分别对\hat{\beta_0},\hat{\beta_1}求偏导数,如下:

\frac{\partial f}{\partial \hat{\beta_0}}=0\frac{\partial f}{\partial \hat{\beta_1}}=0

求偏导数,得到:

-2\sum_{i=1}^{n} (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)=0

-2\sum_{i=1}^{n} (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)X_i=0

化简后得到:

\sum_{i=1}^{n}Y_i-n\hat{\beta_0}-\hat{\beta_1}\sum_{i=1}^{n}X_i=0                               (1)

\sum_{i=1}^{n}X_iY_i-\hat{\beta_0}\sum_{i=1}^{n}X_i-\hat{\beta_1}\sum_{i=1}^{n}X_i^2=0           (2)

(1)式两边除以n,

\hat{\beta_0}=\frac{1}{n}\sum_{i=1}^{n}Y_i-\hat{\beta_1}\frac{1}{n}{}\sum_{i=1}^{n}X_i,即:\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}

将其代入(2)式,求得:

\hat{\beta_1}=\frac{n\sum_{i=1}^{n}X_iY_i-\sum_{i=1}^{n}X_i\sum_{i=1}^{n}Y_i}{n\sum_{i=1}^{n}X_i^2-(\sum_{i=1}^{n}X_i)^2}

化简后得到:

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}

我们以如下样本为例: 


拟合优度指标

        根据最小二乘法原理,已经估计出回归系数\hat{\beta_0},\hat{\beta_1},从而可以得到样本回归函数:Y_i=\hat{\beta_0}+\hat{\beta_1}X_i+e_i

那么,如何判断拟合的效果怎么样呢?这就要使用拟合优度指标R^2了,在介绍拟合优度指标之前。我们先证明一个恒等式。

SST=SSE+SSR

其中,SST为总离差平方和,或者总平方和(Total Sum of Squares),如下计算:

SST=\sum_{i=1}^n(Y_i-\bar{Y})^2

SSE为回归平方和,或者解释平方和(Explained Sum of Squares),如下计算:

SSE=\sum_{i=1}^n(\hat{Y_i}-\bar{Y})^2

SSR为残差平方和,或者剩余平方和(Residual Sum of Squares),如下计算:

SSR=\sum_{i=1}^n(\hat{Y_i}-Y_i)^2

这个等式表明:因为引入模型,SST被分解成了两部分SSE和SSR。证明思路也是如此。

SST=\sum_{i=1}^n(Y_i-\bar{Y})^2

=\sum_{i=1}^n[(Y_i-\hat{Y_i})+(\hat{Y_i}-\bar{Y})]^2

=\sum_{i=1}^n(Y_i-\hat{Y_i})^2+\sum_{i=1}^n(\hat{Y_i}-\bar{Y})^2+2\sum_{i=1}^n(Y_i-\hat{Y_i})(\hat{Y_i}-\bar{Y})

=SSR+SSE+2\sum_{i=1}^n(Y_i-\hat{Y_i})(\hat{Y_i}-\bar{Y})

现在只需要证明最后一项为0即可,根据线性回归分析模型中的如下三个结论:

\hat{Y_i}=\hat{\beta_0}+\hat{\beta_1}X_i

\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

有:

\hat{Y_i}-\bar{Y}=\hat{\beta_1}(X_i-\bar{X})

Y_i-\hat{Y_i}=(Y_i-\bar{Y})-(\hat{Y_i}-\bar{Y})=(Y_i-\bar{Y})-\hat{\beta_1}(X_i-\bar{X})

因此

2\sum_{i=1}^n(Y_i-\hat{Y_i})(\hat{Y_i}-\bar{Y})

=2\sum_{i=1}^n[\hat{\beta_1}(X_i-\bar{X})][(Y_i-\bar{Y})-\hat{\beta_1}(X_i-\bar{X})]

=2\hat{\beta_1}[\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})-\hat{\beta_1}\sum_{i=1}^n(X_i-\bar{X})^2]

=2\hat{\beta_1}*0=0

所以,SST=SSE+SSR

因为在样本给定的情况下,SST不会变,而最小二乘法原理是使得残差平方和最小,即SSR最小,也就是SSE最大。我们如下定义线性回归拟合优度指标R^2

R^2=\frac{SSE}{SST}=1-\frac{SSR}{SST}

显然R^2\in[0,1]R^2越大,拟合效果越好。一般来说,如果R^2大于0.8,则说明拟合效果非常好。


回归系数估计量的性质

回归系数估计量的线性性

        回归系数\beta_0,\beta_1的估计量\hat{\beta_0},\hat{\beta_1}是随机变量Y_i的线性函数,这就是所谓的回归系数估计量的线性性。先给出结论:

\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i,其中k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

\hat{\beta_0}=\sum_{i=1}^{n}h_iY_i,其中h_i=\frac{1}{n}-k_i\bar{X}

下面一一证明。

(1)先证明估计量\hat{\beta_1}的线性性。根据OLS得到的\hat{\beta_1}如下:

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

将上式分子拆开,得到:

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})Y_i-\sum_{i=1}^{n}(X_i-\bar{X})\bar{Y}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

注意到:\sum_{i=1}^{n}(X_i-\bar{X})\bar{Y}=\bar{Y}\sum_{i=1}^{n}(X_i-\bar{X})=\bar{Y}(\sum_{i=1}^{n}X_i-n\bar{X})=0

所以得到:

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})Y_i}{\sum_{i=1}^{n}(X_i-\bar{X})^2}=\sum_{i=1}^{n}\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}Y_i

如果令k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2},则k_i只与自变量有关,与Y_i无关,最终得到:

\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i

可以看出回归系数估计量\hat{\beta_1}是随机变量Y_i的线性函数。

(2)证明估计量\hat{\beta_0}的线性性。根据OLS得到的\hat{\beta_0}如下:

\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}

\bar{Y}=\frac{1}{n}\sum_{i=1}^{n}Y_i(平均值的定义)

\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i(估计量\hat{\beta_1}的线性性)

代入上式,得到:

\hat{\beta_0}=\frac{1}{n}\sum_{i=1}^{n}Y_i-\bar{X}\sum_{i=1}^{n}k_iY_i

=\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})Y_i

如果令h_i=\frac{1}{n}-k_i\bar{X},则h_i只与自变量有关,与Y_i无关,得到

\hat{\beta_0}=\sum_{i=1}^{n}h_iY_i

可以看出回归系数估计量\hat{\beta_0}是随机变量Y_i的线性函数。


回归系数估计量的无偏性

        如果估计量的均值等于总体参数,则称估计量就是无偏估计量,对于回归系数估计量来说,就是

E(\hat{\beta_0})=\beta_0

E(\hat{\beta_1})=\beta_1

        怎么理解无偏性呢。我们以\hat{\beta_1}为例,\hat{\beta_1}是使用样本数据估计得到的一个估计值,它可能比真实的总体参数\beta_0要大,如果换一组样本数据,\hat{\beta_1}的估计值可能就比真实的总体参数\beta_0要小,当然,也可能是相等的,如果通过换更多组的样本数据,得到很多个\hat{\beta_1},虽然大小不一,但是它们的均值是真实值的总体参数。也就是无论你怎么更换样本数据,\hat{\beta_1}的值在真实值左右摆动。

(1)先证明估计量\hat{\beta_1}的无偏性

由回归系数估计量的线性性

\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i,其中k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

以及

Y_i=\beta_0+\beta_1X_i+\varepsilon_i

得到

\hat{\beta_1}=\sum_{i=1}^{n}k_i(\beta_0+\beta_1X_i+\varepsilon_i)

=\beta_0\sum_{i=1}^{n}k_i+\beta_1\sum_{i=1}^{n}k_iX_i+\sum_{i=1}^{n}k_i\varepsilon_i

因为

k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

容易验证:

\sum_{i=1}^{n}k_i=\sum_{i=1}^{n}\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}=0\sum_{i=1}^{n}k_iX_i=1

所以得到:

\hat{\beta_1}=\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i(该式表明了估计量与真实值之间的关系)

上式两边取期望,根据期望性质,得到:

E(\hat{\beta_1})=E(\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i)=E(\beta_1)+E(\sum_{i=1}^{n}k_i\varepsilon_i)

=\beta_1+\sum_{i=1}^{n}E(k_i\varepsilon_i)=\beta_1+\sum_{i=1}^{n}k_iE(\varepsilon_i)

根据模型假定\varepsilon_i\sim N(0,\sigma^2)E(\varepsilon_i)=0,得到

E(\hat{\beta_1})=\beta_1

(2)证明估计量\hat{\beta_0}的无偏性

由回归系数估计量的线性性

\hat{\beta_0}=\sum_{i=1}^{n}h_iY_i,其中h_i=\frac{1}{n}-k_i\bar{X}

以及

Y_i=\beta_0+\beta_1X_i+\varepsilon_i

得到:

\hat{\beta_0}=\sum_{i=1}^{n}h_i(\beta_0+\beta_1X_i+\varepsilon_i)

=\beta_0\sum_{i=1}^{n}h_i+\beta_1\sum_{i=1}^{n}h_iX_i+\sum_{i=1}^{n}h_i\varepsilon_i

容易验证:

\sum_{i=1}^{n}h_i=\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})=1

\sum_{i=1}^{n}h_iX_i=\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})X_i=\frac{1}{n}\sum_{i=1}^{n}X_i-\bar{X}\sum_{i=1}^{n}k_iX_i=0

得到:

\hat{\beta_0}=\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i(该式表明了估计量与真实值之间的关系)

上式两边取期望,所以

E(\hat{\beta_0})=E(\beta_0)+E(\sum_{i=1}^{n}h_i\varepsilon_i)

所以

E(\hat{\beta_0})=\beta_0


回归系数估计量的有效性

        所谓回归系数估计量的有效性是指,在所有关于总体参数真实值\beta_0\beta_1的无偏估计\hat{\beta_0}\hat{\beta_1}中,\hat{\beta_0}\hat{\beta_1}的方差Var(\hat{\beta_0})Var(\hat{\beta_1})最小。我们先给出使用OLS得到的回归系数估计量的方差。

Var(\hat{\beta_1})=\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

Var(\hat{\beta_0})=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}

(1)\hat{\beta_1}的方差Var(\hat{\beta_1})

因为估计量\hat{\beta_1}与真实值\beta_1有如下关系

\hat{\beta_1}=\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i

两边取方差,得到

Var(\hat{\beta_1})=Var(\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i)=Var(\beta_1)+Var(\sum_{i=1}^{n}k_i\varepsilon_i)

=\sum_{i=1}^{n}Var(k_i\varepsilon_i)=\sum_{i=1}^{n}k_i^2Var(\varepsilon_i)

根据模型假定Var(\varepsilon_i)=\sigma^2,所以

Var(\hat{\beta_1})=\sigma^2\sum_{i=1}^{n}k_i^2

因为

k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

得到:

\sum_{i=1}^{n}k_i^2=\sum_{i=1}^{n}[\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}]^2=\frac{1}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

最终

Var(\hat{\beta_1})=\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

(2)\hat{\beta_0}的方差Var(\hat{\beta_0})

因为估计量\hat{\beta_0}与真实值\beta_0有如下关系

\hat{\beta_0}=\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i,其中h_i=\frac{1}{n}-k_i\bar{X}k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

两边取方差,有

Var(\hat{\beta_0})=Var(\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i)=Var(\beta_0)+Var(\sum_{i=1}^{n}h_i\varepsilon_i)

=\sum_{i=1}^{n}h_i^2Var(\varepsilon_i)

=\sigma^2\sum_{i=1}^{n}h_i^2=\sigma^2\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})^2=\sigma^2\sum_{i=1}^{n}(\frac{1}{n^2}-\frac{2k_i\bar{X}}{n}+k_i^2\bar{X}^2)

=\sigma^2(\frac{1}{n}-\sum_{i=1}^{n}\frac{2k_i\bar{X}}{n}+\sum_{i=1}^{n}k_i^2\bar{X}^2)

=\sigma^2(\frac{1}{n}+\bar{X}^2\sum_{i=1}^{n}k_i^2)

=\sigma^2(\frac{1}{n}+\frac{\bar{X}^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2})

=\sigma^2\frac{n\bar{X}^2+\sum_{i=1}^{n}(X_i-\bar{X})^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}

=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}

即:

Var(\hat{\beta_0})=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}

(3)\hat{\beta_1}有效性

\hat{\beta_1}^*是使用其他方法得到的\beta_1的线性无偏估计量。由线性性可知:\hat{\beta_1}^*=\sum_{i=1}^nw_iY_i,该式两边取方差,得到

Var(\hat{\beta_1}^*)=Var(\sum_{i=1}^nw_iY_i)=Var(\sum_{i=1}^n[(w_i-k_i)+k_i]Y_i)

=\sum_{i=1}^n[(w_i-k_i)^2Var(Y_i)+Var(k_iY_i)]

=\sum_{i=1}^n(w_i-k_i)^2Var(Y_i)+Var(\hat{\beta_1})

\geq Var(\hat{\beta_1})

(4)\hat{\beta_0}有效性

可类似证明。

由上面的推导知道:

\hat{\beta_1}=\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i

\hat{\beta_0}=\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i

可以看出\hat{\beta_0}\hat{\beta_1}都是干扰项\varepsilon_i的线性函数。而\varepsilon_i\sim N(0,\sigma^2),由正态分布的性质,得到回归系数估计量\hat{\beta_0}\hat{\beta_1}均服从如下正态分布:

\hat{\beta_0}\sim N(\beta_0,\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2})

\hat{\beta_1}\sim N(\beta_1,\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2})

这里遗憾的是,回归系数估计量\hat{\beta_0}\hat{\beta_1}的方差中的扰动项方差\sigma^2是未知的。


回归系数估计量检验(t检验)

        估计出一元回归分析的回归系数后,需要对其进行检验。假设问题如下:

(1)原假设H_0\beta_1=0

(2)备择假设H_1\beta_1\neq 0

\beta_0类似,这里不再累述。

构造如下统计量:

t=\frac{\hat{\beta_1}}{S_{\hat{\beta_1}}}=\frac{\hat{\beta_1}}{\sqrt{\frac{\sum_{i=1}^ne_i^2}{(n-2)\sum_{i=1}^{n}(X_i-\bar{X})^2}}}

其中\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}S_{\hat{\beta_1}}=\sqrt{\frac{\sum_{i=1}^ne_i^2}{(n-2)\sum_{i=1}^{n}(X_i-\bar{X})^2}}

下面我们来证明该统计量在原假设下服从自由度为n-2的t分布。

参见《一些常见分布-正态分布、对数正态分布、伽马分布、卡方分布、t分布、F分布等》

根据t分布的如下定义: 

 只需要分子构造一个标准正态分布G\sim N(0,1),分母构造一个自由度为n-2的卡方分布H\sim \chi (n-2),则如下Z分布

Z=\frac{G}{\sqrt{H/(n-2)}}\sim t(n-2)

就是一个自由度为n-2的t分布。

因为

\hat{\beta_1}\sim N(\beta_1,\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2})

则如下构造的G分布服从标准正态分布

G=\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}}}\sim N(0,1)

构造如下H分布:

H=\frac{1}{\sigma^2}\sum_{i=1}^ne_i^2

则Z分布如下:

Z=\frac{G}{\sqrt{H/(n-2)}}=\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}}}\frac{1}{\sqrt{\frac{1}{\sigma^2}\sum_{i=1}^ne_i^2/(n-2)}}

=\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{\sum_{i=1}^ne_i^2}{(n-2)\sum_{i=1}^{n}(X_i-\bar{X})^2}}}=\frac{\hat{\beta_1}-\beta_1}{S_{\hat{\beta_1}}}

因为原假设成立\beta_1=0,即

Z=\frac{\hat{\beta_1}}{S_{\hat{\beta_1}}}

所以现在只需要证明H=\frac{1}{\sigma^2}\sum_{i=1}^ne_i^2\sim \chi (n-2)

这里参照《多元线性回归参数检验服从t分布的证明》证明。

参考文献

线性回归R2-F-t检验 - 360文档中心

多元线性回归参数检验服从t分布的证明 - 知乎线性回归的四个假设 The Four Assumptions of Linear Regression - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/171684.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

麒麟信安与MatrixOne完成兼容互认

近日,超融合异构云原生数据库MatrixOne企业版软件V1.0完成了与欧拉开源操作系统(openEuler简称“欧拉”)、麒麟信安操作系统系列产品和虚拟化平台的相互兼容认证,通过了欧拉兼容性测评,获得了《openEuler技术测评证书》…

Java核心知识点整理大全7-笔记

目录 4.1.9. JAVA 锁 4.1.9.1. 乐观锁 4.1.9.2. 悲观锁 4.1.9.3. 自旋锁 4.1.9.4. Synchronized 同步锁 Synchronized 作用范围 Synchronized 核心组件 Synchronized 实现 4.1.9.5. ReentrantLock Lock 接口的主要方法 非公平锁 公平锁 ReentrantLock 与 synchronized …

千梦网创:你现在赚的钱是三年前选择的结果

前一阵跟战友去上海逛了一圈,傍晚两个人坐在外滩边感慨互联网时代的机遇之大。 三年前在部队里我们对互联网可以说还是一无所知,月入过万就是我们对未来最大的憧憬目标。 这三年里,我们不仅稳稳的迈过了月入过万的门槛,还经历过…

小微初创企业,如何利用媒体宣传快速成长

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 对于小微初创企业来说,利用媒体宣传可以快速提升品牌知名度、扩大影响力,进而促进企业的成长。 1.确定宣传目标:是增加销售、提升品牌知名度、还是推…

HarmonyOS ArkTS List组件和Grid组件的使用(五)

简介 ArkUI提供了List组件和Grid组件,开发者使用List和Grid组件能够很轻松的完成一些列表页面。常见的列表有线性列表(List列表)和网格布局(Grid列表): List组件的使用 List是很常用的滚动类容器组件&…

创新无界:通义灵码在测试过程中展现的独特魅力

通义灵码基于通义大模型,提供代码智能生成、研发智能问答能力。本文就来介绍下通义灵码在测试过程中的应用。 操作手册: 通义灵码, 阿里云提供的一款基于通义大模型的智能编码辅助工具_云效-阿里云帮助中心 1. 什么是通义灵码 是阿里云出品的一款基于通…

【紫光同创PCIE教程】——使用WinDriver驱动紫光PCIE

本原创教程由深圳市小眼睛科技有限公司创作,版权归本公司所有,如需转载,需授权并注www.meyesemi.com) 紫光的logos系列的PGL50H/PGL100H、logos-2全系列都集成gen24的PCIE硬核,且官方也提供了例程。 紫光的PCIE用起来还是挺方便的…

你真的了解 Cookie 和 Session 吗?

文章目录 Cookie 和 Session总结 Cookie 和 Session cookie HTTP cookie(web cookie、browser cookie)是服务器发送给用户 web 浏览器的一小段数据。浏览器可能会存储 cookie,并在以后的请求中将其发送回同一台服务器。通常,HTTP …

山西电力市场日前价格预测【2023-11-22】

日前价格预测 预测说明: 如上图所示,预测明日(2023-11-22)山西电力市场全天平均日前电价为13.55元/MWh。其中,最高日前电价为243.27元/MWh,预计出现在18:00。最低日前电价为0.00元/MWh,预计出现…

系统之家U盘重装系统Win10方法步骤

用户发现自己电脑上的Win10系统出现问题了,想要通过重装系统来解决问题。但是,用户还不清楚具体重新安装Win10系统的步骤,接下来小编给大家详细介绍利用U盘完成Win10系统重装的方法,在这里用户需要下载系统之家装机大师软件&#…

Linux fork和vfork函数用法

fork和vfork是用于创建新进程的函数,在Linux的C语言编程中非常常见。 fork函数 fork函数是用于创建一个新的进程,新进程是调用进程的副本。新进程将包含调用进程的地址空间、文件描述符、栈和数据。在fork之后,父进程和子进程将并发执行。 …

AR眼镜方案—单目光波导AR智能眼镜

光波导技术是一项具有前沿意义的技术,它能够将光线反射180度,使得眼镜框架内置的MicroLED屏幕的图像通过多次反射与扩散后准确地传递到人眼中。采用MicroLED显示技术的AR智能眼镜不仅体积显著缩小,屏幕只有0.68英寸大小,并且还能够…

企业数字化转型所需的数据在哪里找?企业数据运营有什么用?

现阶段,越来越多企业考虑数字化转型。特别是中小型企业,他们察觉到:数字化转型的关键在于数据的运营。只有通过数据的有效管理和不断挖掘,企业才可以更好地了解市场需求,优化业务流程,提高决策效率&#xf…

SAP smartform和ALV如何使用图片 如何下载SE78上传的图片到本地

原文链接1:https://mp.weixin.qq.com/s/gb3LCoDLNhZGnpplG68cyA 原文链接2:https://mp.weixin.qq.com/s/iFFhGwFEK93QiddR1biXyA 1.如何在SMARTFORM中打印图片 在使用SmartForms进行打印单据开发时候,经常需要将公司的LOGO、公司印章、管理人…

CTF/AWD竞赛标准参考书+实战指南

随着网络安全问题日益凸显,国家对网络安全人才的需求持续增长,其中,网络安全竞赛在国家以及企业的人才培养和选拔中扮演着至关重要的角色。 在数字化时代,企业为了应对日益增长的攻击威胁,一般都在大量部署安全产品、…

ACREL DC energy meter Application in Indonesia

安科瑞 华楠 Abstract: This article introduces the application of Acrel DC meters in base station in Indonesia.The device is measuring current,voltage and energy together with hall current sensor. 1.Project Overview This company is located in Indonesia a…

leetcode:415. 字符串相加(模拟竖式计算)

一、题目 链接: 415. 字符串相加 - 力扣(LeetCode) 函数原型:char* addStrings(char* num1, char* num2) 二、思路: 本题本质是将两个字符型数字相加,字符型数字相加就一定需要进行字符与数字的相互转换 详…

媒体格式转换软件Permute 3 mac中文版软件特点

Permute mac是一款媒体格式转换软件,可以帮助用户快速地将各种音频、视频和图像文件转换成所需格式,并提供了一些常用工具以便于用户进行编辑和处理。 Permute mac软件特点 - 支持大量格式:支持几乎所有常见的音频、视频和图像格式&#xff…

Demo 题记

Demo 1 输入一个摄氏温度的值,将它转变为华氏温度,并将结果输出 #输入一个摄氏温度的值,将它转变为华氏温度,并将结果输出 c float(input("请输入摄氏温度:"))print("对应的华氏温度为%.2f"%(9…
最新文章