回归分析总结 联系客服

发布时间 : 星期二 文章回归分析总结更新完毕开始阅读fe6e739b050876323012122b

回归分析

应用最广泛的一种办法。但回归分析要求大样本,只有通过大量的数据才能得到量化的 规律,这对很多无法得到或一时缺乏数据的实际问题的解决带来困难。回归分析还要求几 样本有较好的分布规律,而很多实际情形并非如此。例如,我国建国以来经济方面有次大起大落,难以满足样本有较规律的分布要求。因此,有了大量的数据也不一定能得到统计规律,甚至即使得到了统计规律,也并非任何情况都可以分析。另外,回归分析不能分析因素间动态的关联程度,即使是静态,其精度也不高,且常常出现反常现象前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。

数据的标准化处理数据的中心化处理是指平移变换 数据的无量纲化处理在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理,即使每个变量的方差均变成 1

标准化处理所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理 一元线性回归假设对于x的n个值据最小二乘准则,要使

Q(?0,?1)?xi,得到y的n个相应的值

yi,确定

?0,?1的方法是根

??i2?i?1n?[yi?1ni?(?0??1xi)]2

?Q?Q?0,?0?,???0,?1?????01,从而得到01取最小值。利用极值必要条件令,求的估计值

回归直线

????xy??01。只不过这个过程可以由软件通过直线拟合完成,而无须进行繁杂的

运算。

(1)参数的区间估计

?,???,????0101取值的区间进行估计,由于我们所计算出的仍然是随机变量,因此要对如果

区间估计值是一个较短的区间表示模型精度较高。

(2)对误差方差的估计 设

?iy为回归函数的值,

nyi为测量值,残差平方和

?i)2Q??(yi?yi?1

s2?剩余方差

Qn?2

(3)线性相关性的检验

由于我们采用的是一元线性回归,因此,如果模型可用的话,应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数R的值及F值观察(后面的例子说明)。 一个好的拟合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近, 各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程的能力越强。 另外,当e S 越小时,还说明残差值i e 的变异程度越小。由于残差的样本均值为零, 所以,其离散范围越小,拟合的模型就越为精确。 例1 测得16名成年女子身高y与腿长x所得数据如下: 表8-1 16名女子身高(cm)腿长(cm)数据 x 88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102 y 143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164 首先利用命令plot(x,y,'r*')画出散点图,从图形可以看出,这些点大致分布在一条直线的左右,因此,可以考虑一元线性回归。可编制程序如下: %输入y(因变量,列向量)、x(1与自变量组成的矩阵,见下例),alpha是显著性水平(缺

?,??),注意:b中元素顺序(系数)与拟合命令polyfit的输省时默认0.05)。输出b?(?01出不同,bint是?0,?1的置信区间,r是残差(列向量),rint是残差的置信区间,s包含4个统计量:决定系数R(相关系数为R);F值;F(1,n-2)分布大于F值的概率p;剩余方差

2s2的值(MATLAB7.0以后版本)。s2也可由程序sum(r.^2)/(n-2)计算。

其意义和用法如下:R的值越接近1,变量的线性相关性越强,说明模型有效;如果满足

2F1??(1,n?2)?F,则认为变量y与x显著地有线性关系,其中F1??(1,n?2)的值可查F分

布表,或直接用MATLAB命令finv(1-?,1, n-2)计算得到;如果p??表示线性模型可用。这三个值可以相互印证。s2的值主要用来比较模型是否有改进,其值越小说明模型精度越高。

y=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164];

x=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]; plot(x,y,'r*') n=16;

X=[ones(n,1),x'];

[b,bint,r,rint,s]=regress(y',X,0.05); b,bint,s,

rcoplot(r,rint)

运行后得到

b = 31.7713 1.2903 bint = 12.3196 51.2229 1.0846 1.4960

s = 0.9282 180.9531 0.0000 3.1277

R2=0.9282,由finv(0.95,1,14)= 4.6001,即F1??(1,n?2)= 4.6001

可以通过残差图发现,第二个数据为奇异数据,去掉该数据后运行后得到 b = 17.6549 1.4363 bint = -0.5986 35.9083 1.2445 1.6281

s = 0.9527 261.6389 0.0000 1.9313

R2=0.9527,由finv(0.95,1,13)= 4.6672,即F1??(1,n?2)= 4.6672

y?17.6549?1.4363x。

当然,也可以利用直线拟合得到同一方程。只不过不能得到参数置信区间和对模型进行检验。拟合程序如下: 多元线性回归分析

1 多元线性回归模型的建模步骤及其MATLAB实现

如果根据经验和有关知识认为与因变量有关联的自变量不止一个,那么就应该考虑用最小二乘准则建立多元线性回归模型。

设影响因变量y的主要因素(自变量)有m个,记的线性关系式:

x?(x1,,xm),假设它们有如下

y??0??1x1???mxm??x1,x2,2?~N(0?, , )如果对变量y与自变量估计求得回归方程

,xm 同时作n次观察(n>m)得n组观察值,采用最小二乘

????x????y011?x??km.

建立回归模型是一个相当复杂的过程,概括起来主要有以下几个方面工作(1)根据研究目

的收集数据和预分析;(2)根据散点图是否具有线性关系建立基本回归模型;(3)模型的精细分析;(4)模型的确认与应用等。

收集数据的一个经验准则是收集的数据量(样本容量)至少应为可能的自变量数目的6~10倍。在建模过程中首先要根据所研究问题的目的设置因变量,然后再选取与该因变量有统计关系的一些变量作为自变量。我们当然希望选择与问题关系密切的变量,同时这些变量之间

相关性不太强,这可以在得到初步的模型后利用MATLAB软件进行相关性检验。下面通过一个案例探讨MATLAB软件在回归分析建模各个环节中如何应用。 多元线性回归的MATLAB实现

仍然用命令regress(y , X),只是要注意矩阵X的形式,将通过如下例子说明其用法。

表8-2 从事某种研究的学者的相关指标数据

i

1 3.5 9 6.1

2 5.3 20 6.4

3 5.1 18 7.4

4 5.8 33 6.7

5 4.2 31 7.5

6 6.0 13 5.9

7 6.8 25 6.0

8 5.5 30 4.0

9 3.1 5 5.8

10 7.2 47 8.3

11 4.5 25 5.0

12 4.9 11 6.4

xi1 xi2 xi3 yi

33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8

作出因变量Y与各自变量的样本散点图

作散点图的目的主要是观察因变量Y与各自变量间是否有比较好的线性关系,以便选择恰当的数学模型形式。下图分别为年薪Y与成果质量指标X1、研究工作时间X2、获得资助的指标X3之间的散点图,

subplot(1,3,1),plot(x1,Y,'g*'), subplot(1,3,2),plot(x2,Y,'k+'), subplot(1,3,3),plot(x3,Y,'ro'),

从图可以看出这些点大致分布在一条直线旁边,因此,有比较好的线性关系,可以采用线性回归。

55555550505045454540404035353530051030050300510

Y与x1的散点图 Y与x2的散点图 Y与x3的散点图

图8.1 因变量Y与各自变量的样本散点图

3. 利用MATLAB统计工具箱得到初步的回归方程

????x???x???x???设回归方程为:y0112333建立m-文件输入如下程序数据:

n=24; m=3;

.