数理统计方法5-1
第5章 回归分析
§5.1 回归分析的基本概念
在实际问题中,我们会遇到各种变量,在变量与变量之间,往往存在着各种关系。 有些变量之间的关系是确定性的函数关系,例如,圆的半径R与圆面积S之间的关系S??R2,自由落体落下的时间t与落体落下的距离h之间的关系h?12gt,等等。在这2
些关系中,只要自变量的值确定了,因变量的值也就随之确定了。
但是,有些变量之间的关系就不是这样,例如,农作物的施肥量x与农作物的产量y之间的关系,商品的价格x与商品的销售量y之间的关系,家庭的收入x与家庭的支出y之间的关系,父亲的身高x与儿子的身高y之间的关系,等等。在这些关系中,自变量x的值确定了,因变量y的值并不完全随之确定,还是可能有上下起伏的变化。同时,在这些关系中,自变量x与因变量y又不是完全无关的,通过大量的统计数据,可以发现,它们之间确实存在着某种关系。我们把这样的关系,称为统计相关关系。
回归分析(Regression Analysis),就是研究变量之间的统计相关关系的一种统计方法。它从自变量和因变量的一组观测数据出发,寻找一个函数式,将变量之间的统计相关关系近似地表达出来。这个能够近似表达自变量与因变量之间关系的函数式,称为回归方程或回归函数。
回归方程,可以是线性的,也可以是非线性的,当回归方程为线性时,称为线性回归(Linear Regression),当回归方程为非线性时,称为非线性回归(Nonlinear Regression)。在回归方程中,可以只有一个自变量,也可以有多个自变量,只有一个自变量的回归称为一元回归(Simple Regression),有多个自变量的回归称为多元回归(Multiple Regression)。
§5.2 一元线性回归
5.2.1 一元线性回归的数学模型
设自变量 x 与因变量 y 之间,有下列关系:
y??0??1x?? ,
其中,?0,?1 是常数,? 是表示误差的随机变量,一般总是设?~N(0,?2) 。
(xi,yi) ,i?1,2,?,n 。 对 x,y 进行 n 次观测,得到一组观测值:
即有
yi??0??1xi??i ,?i~N(0,?2) ,i?1,2,?,n 。
其中 ?1,?2,?,?n 相互独立,是各次观测时产生的随机误差,它们可以看作是总体 97
?~N(0,?2) 的样本。
我们把x1,x2,?,xn看作是常数,这样,y1,y2,?,yn 就是?1,?2,?,?n 的函数,它
i?1,2,?,n ,y1,y2,?,yn 们都是随机变量。而且,可以推知 yi~N(?0??1xi,?2),
相互独立。这就是一元线性回归的数学模型。
在上述关系式中,常数 ?0,?1 是未知的。我们要作的一元线性回归,就是要求出
?,?? ,使得回归方程 y????x 能够尽可能精确地将自变量 x????0,?1 的估计值 ?0101
与因变量 y 之间的统计相关关系表达出来。
我们可以用数学语言,把它化成下面这样一个问题: 问题 已知 (xi,yi) ,i?1,2,?,n,求常数 ?0,
n?,?? ,使得当 ?1 的估计 ?01? ,???? 时,Q??(y????x)2 达到最小。 ?0??i01i110
i?1
分析推导
Q 是 ?0,?1 的函数,所以,这实际上是一个二元函数求最小值的问题,我们可以通过求偏导数、解方程组的方法,来确定 Q 的最小值点。
???????
???????
???????n?Q??2?(yi??0??1xi)?0??0i?1 , n?Q??2?xi(yi??0??1xi)?0??1i?1nnn?yi?1nii?1i??0?1??1?xi?0i?xy??0?xi??1?xi2?0i?1i?1nni?1ni?1n , n?0??1?xi??yi(1) 。 ?0?xi??1?xi2??xiyi
i?1i?1i?1ni?1ni?1n(2)
这个方程称为正规方程。
从(1)式可得
?1n1n?0??yi??xi???1ni?1ni?1
代入(2)式可得 (3)
98
(??1)n??1?x??xiyi ,
2ii?1
i?1
nn
?1(?x?n)??xiyi?n ,
2i
2
i?1
i?1n
nn
?1?
?xy
ii?1ni?1
n
i
?n?
?(x
i?1
n
i
?)(yi?)
。
22x?n?i2
(x?)?ii?1
把这里求出的 ?1 的值,再代入上面的(3)式 ,就可以求出 ?0 的值。不难看出,这个解也就是使 Q 达到最小的解。
如果令 Lxx?
?x
i?1n
n
2
i
?n??(xi?)2 ,
2
i?1n
2
n
Lyy??y?n??(yi?)2 ,
2ii?1
i?1
Lxy??xiyi?n??(xi?)(yi?) ,
i?1
i?1
nn
还可以把这个解写成更简单的形式:
?????
Lxx
??????01
???1
Lxy
?,?? ,使得 Q? 这样得到的估计?01
?(y
i?1
n
i
??0??1xi)2 达到最小,Q 是一个平方
和,而平方又称为“二乘”,所以,这个估计称为最小二乘估计(Least Squares Estimator,
简称LSE)。 我们还可以进一步求出 Q 的最小值。Q 的最小值称为残差平方和(也称剩余平方和 Residual Sum of Squares ,简称RSS),记为 SSe 。
SSe?Qmin
????x)2 ?[y?(???)???x]2 ??(yi???i01i11i
i?1
i?1
nn
?
?[(y
i?1
n
i
?(x?)]2 ?L?2??L???2L 。 ?)??1iyy1xy1xx
99
?? 由于?1LxyLxx?L???2L ,因此 ,?1xy1xx
?L 或 SS?L???2L 。 SSe?Lyy??1xyeyy1xx
SSe是Q的最小值,所以SSe越小,说明回归方程表达变量之间统计相关关系的精确程度越高,也就是回归分析的效果越好。
?? 除了SSe以外,还可以用统计量?SSe?称为估计的标来衡量回归分析的效果,?n?2
?越小,说明SSe越小,回归分析的效果也就越好。SSe的准差(或残差标准差)。显然,?
?的大小基本上与n无关。 大小还与观测次数n有关,而?
另外,还可以定义一个统计量 r,称为样本相关系数,它的定义是
r??(xi?1
n
i?1ni?)(yi?)n?LxyLxxLyy 。 ?(xi?)2?(yi?)2i?1
因为
r?
n2L2xyLxxLyy??L?1xyLyy?1??LLyy??1xyLyyn?1?SSe , Lyy
其中 SSe??(y
i?1i????x)?0 ,L?(y?)2?0 ,所以有 ???i01iyy2i?1
r2?1?SSSSe?1 ,即 r??e?1 。 LyyLyy
r越接近 1 ,说明SSe越小,回归分析的效果也就越好。用样本相关系数r来衡量回
?是一个有量纲的量(与因变量 y 同一量纲)归分析的效果还有一个好处,即?,而r是一
个无量纲的量,它的大小与量纲单位的大小无关。
5.2.2 一元线性回归的具体计算步骤
从上面推导出的计算公式可以看到,在一元线性回归中,关键是要求出 ,,Lxx,Lyy,Lxy 这样5个统计量的值。在具有统计功能的函数型计算器上,可以很容易地将它们计算出来。
1n
把 x 的观测数据 x1,x2,?,xn 看作是一组样本观测值,??xi 就是样本均ni?1 100
1n
值,Lxx??(xi?) 就是样本方差 S??(xi?)2 再乘以观测次数 n (或修正ni?1i?122xn
1n
样本方差Sx*?。所以,在计算器上计算时,只要像计算(xi?)2再乘以n?1)?n?1i?12
样本统计量那样,求出样本均值就是 ,求出样本方差再乘以 n(或求出修正样本方差再乘以n?1)就是 Lxx。
1n
同样,把 y 的观测数据 y1,y2,?,yn 看作是一组样本观测值,??yi 就是ni?1
1n2样本均值,Lyy??(yi?) 就是样本方差 S??(yi?) 再乘以观测次数n(或ni?1i?122yn
1n
修正样本方差Sy*?(yi?)2再乘以n?1) 。 ?n?1i?12
计算 Lxy ,可以用公式 Lxy??xyi
i?1ni?n ,在计算器上的具体操作步骤如下:
按
内容需要下载文档才能查看x
内容需要下载文档才能查看yx
内容需要下载文档才能查看2y
内容需要下载文档才能查看2?
内容需要下载文档才能查看 内容需要下载文档才能查看ny
内容需要下载文档才能查看n
内容需要下载文档才能查看 内容需要下载文档才能查看 内容需要下载文档才能查看,这时显示出
内容需要下载文档才能查看来的就是 Lxy 的值。
求出了,,Lxx,Lyy,Lxy,再代入前面推导出的其它计算公式,就可以把一元线性回归中要计算的各种量逐一计算出来。
在有些比较高级的计算器中,还有直接进行一元线性回归分析计算的功能,计算起来就更方便了。但因为各种型号的计算器用法各不相同,我们这里就不详细介绍了。
2设 yi??0??1xi??i ,?i~N(0,?) ,i?1,2,?,5 ,?1,?2,?,?5相互独立。
求:(1)?0,?,?? ; ?1的最小二乘估计?01
?,样本相关系数r。 (2)残差平方和SSe,估计的标准差?
解 n?5 ,?2 ,Lxx?2.5 ,?11.85 ,Lyy?10.173 ,
101
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- 寒假前安全教育讲稿
- 学生服使用单位履行质量义务情况专项检查记录表(幼儿园)
- 2010-2011学年北京市海淀区高三第二学期期末练习(语文)答案
- 东华试题分类--阅读答案
- 幼儿园班级消毒记录表
- 洋县理光复印土管局大门北:在园幼儿晨检午检记录表
- 端午节放假安全教育材料
- 留守儿童家访记录6
- 小学总务考核标准11
- 关于幼儿园转让协议
- 端午节安全教育
- 幼儿不慎溺水应遵循的急救办法
- 广东省深圳市西丽幼儿园分园装修工程可行性研究报告-广州中撰咨询
- 母亲节所思
- 2011-2012学年吉林省长春外国语学校初二上学期第二次月考语文试卷答案
- 广东省佛山市均安镇星槎幼儿园工程可行性研究报告-广州中撰咨询
- 兰德公司“T项目”研究及其对我国学前教育的启示
- 2010年拉萨中学高一下学期期末考试语文卷答案
- 一年级下册语文测试八
- 《教育的力量》读后感
- 老虎照镜子剧本
- 养成教育主题班会设计
- 2016----2017年度小班名画欣赏
- 中班美术教学计划
- 给妈妈的一封信
- 留守儿童之家读书活动安排意见
- 小学复习必背古诗词答案
- 登鲁的故事
- 小古文诵读100篇[1]
- 洋县理光复印土管局大门北:幼儿园校安全工作日志
网友关注视频
- 第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
- 沪教版牛津小学英语(深圳用)五年级下册 Unit 1
- 冀教版小学英语四年级下册Lesson2授课视频
- 沪教版八年级下册数学练习册20.4(2)一次函数的应用2P8
- 化学九年级下册全册同步 人教版 第18集 常见的酸和碱(二)
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 沪教版八年级下次数学练习册21.4(2)无理方程P19
- 第19课 我喜欢的鸟_第一课时(二等奖)(人美杨永善版二年级下册)_T644386
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 8
- 飞翔英语—冀教版(三起)英语三年级下册Lesson 2 Cats and Dogs
- 8.对剪花样_第一课时(二等奖)(冀美版二年级上册)_T515402
- 外研版英语七年级下册module1unit3名词性物主代词讲解
- 沪教版牛津小学英语(深圳用) 五年级下册 Unit 12
- 北师大版数学 四年级下册 第三单元 第二节 小数点搬家
- 《小学数学二年级下册》第二单元测试题讲解
- 冀教版英语四年级下册第二课
- 外研版英语三起6年级下册(14版)Module3 Unit2
- 冀教版小学英语五年级下册lesson2教学视频(2)
- 外研版英语三起5年级下册(14版)Module3 Unit1
- 二次函数求实际问题中的最值_第一课时(特等奖)(冀教版九年级下册)_T144339
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 7
- 精品·同步课程 历史 八年级 上册 第15集 近代科学技术与思想文化
- 30.3 由不共线三点的坐标确定二次函数_第一课时(市一等奖)(冀教版九年级下册)_T144342
- 第4章 幂函数、指数函数和对数函数(下)_六 指数方程和对数方程_4.7 简单的指数方程_第一课时(沪教版高一下册)_T1566237
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,湖北省
- 第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T3751175
- 《空中课堂》二年级下册 数学第一单元第1课时
- 七年级下册外研版英语M8U2reading
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 2
- 沪教版八年级下册数学练习册21.3(3)分式方程P17
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理