从统计学看线性回归（1）——一元线性回归

大家好，欢迎来到IT知识分享网。

1. 一元线性回归模型的数学形式

2. 回归参数β₀, β₁的估计

3. 最小二乘估计的性质

　　线性性

　　无偏性

　　最小方差性

一、一元线性回归模型的数学形式

　　一元线性回归是描述两个变量之间相关关系的最简单的回归模型。自变量与因变量间的线性关系的数学结构通常用式（1）的形式：

y = β₀ + β₁x + ε (1)

其中两个变量y与x之间的关系用两部分描述。一部分是由于x的变化引起y线性变化的部分，即β₀ + β₁x，另一部分是由其他一切随机因素引起的，记为ε。该式确切的表达了变量x与y之间密切关系，但密切的程度又没有到x唯一确定y的这种特殊关系。

　　式（1）称为变量y对x的一元线性回归理论模型。一般称y为被解释变量（因变量），x为解释变量（自变量），β₀和β₁是未知参数，成β₀为回归常数，β₁为回归系数。ε表示其他随机因素的影响。一般假定ε是不可观测的随机误差，它是一个随机变量，通常假定ε满足：

（2）

对式（1）两边求期望，得

E(y) = β₀ + β₁x, （3）

称式（3）为回归方程。

E(ε) = 0 可以理解为 ε 对 y 的总体影响期望为 0，也就是说在给定 x 下，由x确定的线性部分 β₀ + β₁x 已经确定，现在只有 ε 对 y 产生影响，在 x = x_0， ε = 0即除x以外其他一切因素对 y 的影响为0时，设 y = y₀，经过多次采样，y 的值在 y₀上下波动（因为采样中 ε 不恒等于0），若 E(ε) = 0 则说明综合多次采样的结果， ε 对 y 的综合影响为0，则可以很好的分析 x 对 y 的影响（因为其他一切因素的综合影响为0，但要保证样本量不能太少）；若 E(ε) = c ≠ 0，即 ε 对 y 的综合影响是一个不为0的常数，则E(y) = β₀ + β₁x + E(ε)，那么 E(ε) 这个常数可以直接被 β₀捕获，从而变为公式（3）；若 E(ε) = 变量，则说明 ε 在不同的 x 下对 y 的影响不同，那么说明存在其他变量也对 y 有显著作用。

Var(ε) = σ²：因为所有的样本点并不是完全在回归直线上（即 x 与 y 的关系不是确定的函数关系），所以 ε 的方差一定不为0，Var(ε) = σ²的意义为在不同 x 下， ε 对 y 产生同样的波动，是为了后续计算方便，若 ε 的方差对 y 产生的波动随 x 变化，那么需要分析这种变化及其产生的一系列问题。

　　一般情况下，对所研究的某个实际问题，获得n组样本观测值(x₁, y₁),(x₂, y₂),…,(x_n, y_n),如果它们符合模型（1），则

y_i = β₀ + β₁x_i + ε_i, i = 1, 2, …, n (4)

由式（2）有

i = 1, 2, …, n. (5)

　　通常还假定n组数据是独立观测的，因而y₁,y₂,…,y_n与ε₁,ε₂,…,ε_n都是相互独立的随机变量，而x_i(i = 1, 2, …, n)是确定性变量，其值是可以精确测量和控制的。称式（4）为一元线性回归模型。

　　对式（4）两边分别求数学期望和方差，得

E(y_i) = β₀ + β₁x_i, Var(y_i) = σ², i = 1, 2, …, n (6)

可知。

个人理解，ε_i 并不是同分布，因为并不知道他们服从什么分布，从期望和方差相等推不出同分布，虽然同分布下期望和方差一定相等。

　　E(y_i) = β₀ + β₁x_i从平均意义上表达了变量y与x的统计规律性。在应用上，人们经常关系的正是这个平均值。

　　在实际问题中，为了方便对参数β₀，β₁作区间估计和假设检验，还假定模型（1）中误差项ε遵从正态分布，即

ε ～ N(0,σ²), (7)

（才会满足 ε_i同分布）

　　由于 ε₁,ε₂,…,ε_n是 ε 的独立同分布的样本，因而有

ε_i～ N(0,σ²), i = 1, 2, …, n (8)

在ε_i遵从正态分布的假定下，进一步有随机变量y，也遵从正态分布

y_i ～ N(β₀ + β₁x_i, σ²), i = 1, 2, …, n (9)

二、回归参数β₀, β₁的估计

普通最小二乘估计（ordinary least squares estimate, OLSE）

　　为了得到回归系数的理想估计值，使用OLSE（因为OLSE和方差都是差方和的形式）。对每一个样本观测值（x_i, y_i），最小二乘法考虑观测值y_i与其回归值的离差越小越好，综合地考虑n个离差值，定义离差平方和为

（10）

可以看到其回归值是期望值，这里使用到条件 E(ε) = 0.

　　最小二乘法，就是寻找参数β₀，β₁的估计值，使式（10）定义的离差平方和达极小，即寻找满足

（11）

依照式（11）求出的就称为回归参数β₀，β₁的最小二乘估计。称

（12）

为y_i(i = 1, 2,…,n)的回归拟合值，简称回归值或拟合值。称

（13）

为y_i(i = 1, 2, …, n)的残差。

离差和残差：

在本文中离差和残差的公式都是真实值与估计值之间的差，但是，离差是在回归方程得到之前定义的，不能直接得到，通过离差平方和最小来求得回归系数从而得到回归方程，可以将离差看作是风险程度，使离差平方和最小即为使总风险最小。残差是在回归方程得到后定义的，可以直接得到具体数值，若没有回归方程就不存在残差的概念，残差平方和度量了n个样本点观测值到回归直线的距离大小，可以视为随机误差的效应。残差用于研究模型的适用性，也是探测是否违背基本假设的评测量之一。

　　从式（11）中求出是一个求极值问题。由于Q是关于的非负二次函数，因而它的最小值总是存在的，利用微积分求极值原理，应满足下列方程组

（14）

求解正规方程组（14）得β₀，β₁的最小二乘估计（OLSE）为

（15）

其中。

　　记

（16）

（17）

则式（15）可简写为

（18）

可知

（19）

可见回归直线是通过点的，从物理学角度来看，是n个样本观测值（x_i, y_i）的中心，也就是说回归直线通过样本的中心。

　　回归直线过点，说明在 x 取均值时，y 的期望也是 y 的均值。由最小二乘估计的性质可知，回归系数是无偏估计，所以可以推导出。

　　由式（14）可以推出

（20）

说明残差的均值为0，并且残差以自变量x的加权平均值为0.

三、最小二乘估计的性质

一、线性性

　　估计量为随机变量y_i的线性函数。由式（18）得　　

（20）

其中是y_i的系数，所以是y_i的线性组合。同理

（21）

二、无偏性

　　均为β₀，β₁的无偏估计。由于x_i是非随机变量，y_i = β₀ + β₁x_i + ε_i，E(ε_i) = 0，因而有

E(y_i) = β₀ + β₁x_i (22)

再由式（18）可得

（23）

（24）

　　无偏估计的意义是：如果屡次变更数据，反复求β₀，β₁的估计值，这两个估计量没有高估或低估的系统趋向，它们的平均值将趋向于β₀，β₁，进一步有

（25）

这表明回归值是E(y)的无偏估计，也说明与真实值y的平均值是相同的。

三、最小方差性（最优性、有效性）

　　方差用来评估变量的波动状况。由y₁,y₂,..,y_n相互独立，Var(y_i) = σ²及式（25）得

（26）

　　方差的大小表示随机变量取值波动的大小。假设反复抽取容量为n的样本建立回归方程，每次计算的值是不同的，正是反映这些的差异程度。

　　从式（26）可以看到，回归系数不仅与随机误差的方差σ²有关，还与自变量x的取值波动程度有关。如果x取值比较分散，即x的波动较大，则的波动就小，β₁的估计量就比较稳定；反之，如果原始数据x是在一个较小的范围内波动，那么β₁的估计值稳定性就差。

类似地，有

（27）

由式（27）可知，回归常数的方差不仅与随机误差的方差σ²和自变量x的取值波动程度有关，还与样本数量n有关，n越大，越小。

　　所以从式（26）和（27）可以看出，方差的意义可以用来指导抽样。想要是β₀，β₁的估计量更稳定，在收集数据时，就要考虑将x取的分散些，样本量尽量大一些。

　　因为都是n个独立正态随机变量y₁,y₂,…,y_n的线性组合，因而也遵从正态分布。有

（28）

（29）

的协方差

（30）

式（30）说明，在=0时，与不相关，在正态假定下独立；在≠0时不独立。它揭示了回归系数之间的关系状况。

　　之前给出的回归模型随机误差项ε_i等方差及不相关的假定条件，这个条件称为Gauss-Markov条件，即

（31）

在此条件下可以证明，与分别是β₀与β₁的最佳线性无偏估计（best linear unbiased estimate, BLUE），也称为最小方差线性无偏估计。BLUE即指在β₀和β₁的一切线性无偏估计中，它们的方差最小。

进一步，对于固定的x₀，有也是y₁,y₂,…,y_n的线性组合，且

（32）

即是E(y₀)的无偏估计，且的方差随给定的x₀值与的距离|x₀–|的增大而增大。即当给定的x₀与x的样本平均值相差较大时，的估计值波动就增大。指导意义：应用回归方程进行控制和预测时，给定的x₀值不能偏离样本均值太大。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/27879.html

从统计学看线性回归（1）——一元线性回归

相关推荐

发表回复