(全国通用)2018高考数学一轮复习 第9章 算法初步 - 统计与统计案例 第4节 变量间的相关关系 联系客服

发布时间 : 星期二 文章(全国通用)2018高考数学一轮复习 第9章 算法初步 - 统计与统计案例 第4节 变量间的相关关系更新完毕开始阅读c835424c970590c69ec3d5bbfd0a79563d1ed45b

第四节 变量间的相关关系与统计案例

———————————————————————————————— [考纲传真] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.

1.回归分析

回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.

(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.

(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.

(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.

2.线性回归方程

(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.

(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,

nn xi-xyi-y^^^^∑i =1

yn),其回归方程为y=bx+a,则b=n2

∑i xi-x=1∑i= 1xiyi-nx y^

=,a=n22

∑i= 1xi-nxy-bx.其中,b是回归方程的斜率,a是在y轴上的截距.

3.残差分析

(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi^^^^^

-a,i=1,2,…,n,其估计值为ei=yi-yi=yi-bxi-a,i=1,2,…,n,ei称为相应于点(xi,yi)的残差.

n2

^^^

(2)相关指数:R=1-n∑i =1

∑i =1

yi-yiyi-y^

2

. 2

4.独立性检验

(1)利用随机变量K来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为

2

x1 x2 总计 则随机变量K=量).

2

y1 a c a+c a+by2 b d b+d c+d总计 a+b c+d a+b+c+d (其中n=a+b+c+d为样本容

nad-bc2a+cb+d

1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) ^

(2)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( )

(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )

(4)若事件X,Y关系越密切,则由观测数据计算得到的K的观测值越小.( ) [答案] (1)√ (2)× (3)× (4)×

2.(教材改编)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )

^

A.y=0.4x+2.3 ^

C.y=-2x+9.5

^

B.y=2x-2.4 ^

D.y=-0.3x+4.4

2

A [因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5)在回归直线上,排除B,选项A满足.]

3.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )

图9-4-1

A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关

D [对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]

4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K≈0.99,根据这一数据分析,下列说法正确的是

( )

A.有99%的人认为该电视栏目优秀

B.有99%的人认为该电视栏目是否优秀与改革有关系 C.有99%的把握认为该电视栏目是否优秀与改革有关系 D.没有理由认为该电视栏目是否优秀与改革有关系

D [只有K≥6.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”,而即使K≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D正确.]

5.(2017·贵阳检测)若8名学生的身高和体重数据如下表:

编号 身高/cm 体重/kg 1 165 48 2 165 57 3 157 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59 2

2

2

^第3名学生的体重漏填,但线性回归方程是y=0.849x-85.712,则第3名学生的体重估计为________kg.

50 [设第3名学生的体重为a,则

11

(48+57+a+54+64+61+43+59)=0.849×(165+165+157+170+175+165+88155+170)-85.712.

解得a≈50.]

相关关系的判断 (1)(2015·湖北高考)已知变量x和y满足关系y=-0.1x+1,变量y与z正

相关.下列结论中正确的是( )

A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关

(2)x和y的散点图如图9-4-2所示,则下列说法中所有正确命题的序号为________.

图9-4-2

①x,y是负相关关系;

^^^2

②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R1,用y=bx+a拟合时的相关指数为R2,则R1>R2;

③x,y之间不能建立线性回归方程.

(1)C (2)①② [(1)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z^^^^^^^^

正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z负相关.

(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正^^^22

确;由散点图知用y=c1ec2x拟合比用y=bx+a拟合效果要好,则R1>R2,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]

[规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.

2.利用相关系数判定,当|r|越趋近于1,相关性越强. 当残差平方和越小,相关指数R越大,相关性越强.

[变式训练1] 甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:

2

2

2

2

r m 甲 0.82 106 乙 0.78 115 丙 0.69 124 丁 0.85 103 则哪位同学的试验结果体现A,B两变量有更强的线性相关性( ) A.甲

B.乙