第三章 统计案例
3.1 回归分析的基本思想及其初步应用
第2课时 残差分析
A级 基础巩固
一、选择题
1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r与残差平方和m如下表所示:
分类
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A、B两变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
解析:r越接近1,相关性越强,残差平方和m越小,相关性越强,所以选D正确.
答案:D
2.为了表示n个点与相应直线在整体上的接近程度,我们常用的表示法为( )
解析:由回归直线方程可知,为一个量的估计值,而yi为它的实际值,在最小二乘估计中(yi-a-bxi)2,即(yi-)2.
答案:C
3.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和如下表所示:
分类
甲
乙
丙
丁
散点图
残差平方和
115
106
124
103
哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高( )
A.甲 B.乙
C.丙 D.丁
解析:根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.
答案:D
4.通过残差图我们发现在采集样本点过程中,样本点数据不准确的是( )
A.第四个 B.第五个
C.第六个 D.第八个
解析:由题图可知,第六个的数据偏差最大,所以第六个数据不准确.
答案:C
5.如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
解析:由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
答案:B
二、填空题
6.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…, n),且ei恒为0,则R2为________.
解析:由ei恒为0,知yi=i,即yi-i=0,
答案:1
7.x,y满足如下表的关系:
x
0.2
0.6
1.0
1.2
1.4
1.6
1.8
2.0
2.2
y
0.04
0.36
1
1.4
1.9
2.5
3.2
3.98
4.82
则x,y之间符合的函数模型为________.
解析:通过数据发现y的值与x的平方值比较接近,所以x,y之间的函数模型为y=x2.
答案:y=x2
8.关于x与y,有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个模型:(1)=6.5x+17.5;(2)=7x+17.通过残差分析发现第(1)个线性回归模型比第(2)个拟合效果好.则R________R,Q1________Q2(用大于,小于号填空,R,Q分别是相关指数和残差平方和).
解析:根据相关指数和残差平方和的意义知R>R,Q1<Q2.
答案:> <
三、解答题
9.在实验中得到变量y与x的数据如下表所示:
x
0.066 7
0.038 8
0.033 3
0.027 3
0.022 5
y
39.4
42.9
41.0
43.1
49.2
由经验知,y与之间具有线性相关关系,试求y与x之间的回归曲线方程,并预测x0=0.038时,y0的值.
解:令u=,由题目所给数据可得下表所示的数据:
序号
ui
yi
u
uiyi
1
15.0
39.4
225
591
2
25.8
42.9
665.64
1 106.82
3
30.0
41.0
900
1 230
4
36.6
43.1
1 339.56
1 577.46
5
44.4
49.2
1 971.36
2 184.48
合计
151.8
215.6
5 101.56
6 689.76
计算得=0.29,=34.32.
所以=34.32+0.29u.
所以试求回归曲线方程为=34.32+.
当x0=0.038时,y0=34.32+ ≈41.95.
10.关于x与y有以下数据:
x
2
4
5
6
8
y
30
40
60
50
70
已知x与y线性相关,由最小二乘法得=6.5.
(1)求y与x的线性回归方程;
(2)现有第二个线性模型:=7x+17,且R2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.
解:(1)依题意设y与x的线性回归方程为=6.5x+.
==5,==50,因为=6.5x+经过(,),所以y与x的线性回归方程为=6.5x+17.5 .所以50=6.5×5+.所以=17.5.
(2)由(1)的线性模型得yi-yi与yi-的关系如下表所示:
yi-yi
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
由于R=0.845,R2=0.82知R>R2,所以(1)的线性模型拟合效果比较好.
B级 能力提升
1.在研究身高和体重的关系时,得到的结论是“身高解释了64%的体重变化,而随机误差贡献了剩余的36%,所以身高对体重的效应比随机误差的效应大得多”,则求得的相关指数R2≈( )
A.0.36 B.0.64
C.0.32 D.0.18
解析:根据相关指数的意义知R2≈0.64.
答案:B
2.若某函数型相对一组数据的残差平方和为89,其相关指数为0.95,则总偏差平方和为________,回归平方和为________.
解析:因为R2=1-,
0.95=1-,所以总偏差平方和为1 780;回归平方和=总偏差平方和-残差平方和=1 780-89=1 691.
答案:1 780 1 691
3.某运动员训练次数与成绩之间的数据关系如下:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归方程;
(3)作出残差图;
(4)计算相关指数R2;
(5)试预测该运动员训练47次及55次的成绩.
解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)=39.25,=40.875, =13 180,
=-=-0.003 88.
所以回归方程为=1.0415x-0.003 88.
(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)计算得相关指数R2=0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
(5)由上述分析可知,我们可用回归方程=1.041 5x-0.003 88作为该运动员成绩的预报值.
将x=47和x=55分别代入该方程可得y≈49和y≈57.
故预测该运动员训练47次和55次的成绩分别为49和57.