发布时间 : 星期三 文章(全国通用)2018高考数学一轮复习 第9章 算法初步 - 统计与统计案例 第4节 变量间的相关关系更新完毕开始阅读c835424c970590c69ec3d5bbfd0a79563d1ed45b
C.丙 D.丁
D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.]
(单位:亿吨)的折线图.
线性回归方程及应用 (2016·全国卷Ⅲ)如图9-4-3是我国2008年至2014年生活垃圾无害化处理量
图9-4-3
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:∑ yi=9.32,∑ tiyi=40.17,i=1
i=1
7
7
∑
i=1
7
yi-y2
=0.55,7≈2.646.
∑
参考公式:相关系数r=
i=1nnti-tn2
yi-y
∑
i=1
∑ ti-ti=1
n^^^
,回归方程y=a+bt中斜
yi-y2
∑ ti-t^i=1
率和截距的最小二乘估计公式分别为b=
∑
i=1nyi-y^-^
,a=y-bt.
2
ti-t[解] (1)由折线图中的数据和附注中的参考数据得 2
t=4,∑ (ti-t)=28,i=1
7
7
7
∑
i=1
7
7
yi-y2
=0.55,2分
∑i (t t yi=40.17-4×9.32=2.89, i-t)(yi-y)=∑iyi-t∑=1
i=1
i=1
2.89所以r≈≈0.99.
0.55×2×2.646
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.5分
9.32
(2)由y=≈1.331及(1)得
7 ∑ ^
7
ti-t
∑
i=17
yi-y2
b=
i=1
ti-t2.89
=≈0.103.8分 28
^
a=y-bt≈1.331-0.103×4≈0.92.
^
所以y关于t的回归方程为y=0.92+0.10t.10分
^
将2016年对应的t=9代入回归方程得y=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.12分
[规律方法] 1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
^^
2.(1)正确运用计算b,a的公式和准确的计算,是求线性回归方程的关键.(2)回归直^^^
线y=bx+a必过样本点的中心(x,y).
[变式训练2] (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入
^
y(单位:千元)的数据如下表:
年 份 年份代号t 人均纯收入y 2007 1 2.9 2008 2 3.3 2009 3 3.6 2010 4 4.4 2011 5 4.8 2012 6 5.2 2013 7 5.9 (1)求y关于t的线性回归方程; (2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
n∑ ^
ti-tn-
yi-y-
2
-
^-^-
,a=y-bt.
b=i=1
∑
i=1
ti-t-1
[解] (1)由所给数据计算得t=(1+2+3+4+5+6+7)=4,
7
-1
y=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
7-2
∑ (ti-t)=9+4+1+0+1+4+9=28,3分
i=17
--
∑ (ti-t)(yi-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+
i=1
7
1×0.5+2×0.9+3×1.6=14,
7
∑ ^
ti-t7
-
yi-y-
2
-
14
==0,5, 28
b=i=1
∑
i=1
ti-t^
a=y-bt=4.3-0.5×4=2.3,
^
所求回归方程为y=0.5t+2.3.6分
^
(2)由(1)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.9分
将2015年的年份代号t=9代入(1)中的回归方程,得 ^
-^-
y=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12分
独立性检验 (2017·郑州调研)某高校共有学生15 000人,其中男生10 500人,女生4 500
人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图9-4-4所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
【导学号:31222369】
图9-4-4
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
P(K2≥k0) k0 附:K=
2
0.10 2.706 0.05 3.841 0.010 6.635 0.005 7.879 a+bnad-bc2c+da+cb+d. 4 500
[解] (1)利用分层抽样,300×=90,所以应收集90位女生的样本数据.4分
15 000(2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.8分
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.10分
又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
每周平均体育运动时间不超过4小时 每周平均体育运动时间超过4小时 总计 将2×2列联表中的数据代入公式计算,得K观测值 2男生 45 165 210 女生 30 60 90 总计 75 225 300 k=
-
75×225×210×90
2
=
100
≈4.762>3.841. 21
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.12分 [规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表; (2)根据公式K=
2
a+bnad-bc2a+cb+dc+d计算K的观测值k;
2
(3)比较k与临界值的大小关系,作统计推断.
[变式训练3] (2017·济南联考)某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;