贾俊平《统计学》第五版第11章_一元线性回归Word
上传者:马辉|上传时间:2017-06-05|密次下载
贾俊平《统计学》第五版第11章_一元线性回归Word
第11章 一元线性回归
11.1 变量间关系的度量11.1.1 变量间的关系1. 是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完 全依赖于 x ,当变量 x 取某 个数值时, y 依确定的关系 取相应的值,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 3. 各观测点落在一条线上
函数关系y
x
变量间的关系(函数关系)
函数关系的例子 某种商品的销售额 (y) 与销售量 (x) 之间的关 系可表示为 y = p x (p 为单价) 圆的面积(S)与半径之间的关系可表示为S = R2
企业的原材料消耗额(y)与产量(x1) 、单位产 量消耗 (x2) 、原材料价格 (x3) 之间的关系可 表示为y = x1 x2 x3
相关关系1. 变量间关系不能用函数关 系精确表达 2. 一个变量的取值不能由另 一个变量唯一确定 3. 当变量 x 取某个值时,变 量 y 的取值可能有几个 4. 各观测点分布在直线周围y
x
相关关系的例子 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、 温度(x3)之间的关系
收入水平(y)与受教育程度(x)之间的关系 父亲身高(y)与子女身高(x)之间的关系
相关关系的类型相关关系线性相关 非线性相关 完全相关 正 相 关 负 相 关 不相关
正 相 关
负 相 关
相关关系的图示
完全正线性相关
完全负线性相关
非线性相关
正线性相关
负线性相关
不相关
11.1.2 相关关系的描述与测度 相关系数 1. 对变量之间关系密切程度的度量 2. 对两个变量之间线性相关程度的度量称为 简单相关系数 3. 若相关系数是根据总体全部数据计算的, 称为总体相关系数,记为 4. 若是根据样本数据计算的,则称为样本相 关系数,记为 r
样本相关系数的计算公式
r
( x x )( y y ) (x x) ( y y)2
2
或化简为 r
n x x n y y 2 2 2
n xy x y
2
相关系数取值及其意义 r 的取值范围是 [-1,1],|r|=1,为完全相关。r =1,为完全正相关;r =-1,为完全负正相关; r = 0,不存在线性相关关系。-1 r0,为负相 关,0r 1,为正相关。|r|越趋于1表示关系越 密切;|r|越趋于0表示关系越不密切 r具有对称性 r的数值与x、y的原点和计量单位无关 r=0不能说说明变量间没有关系,只能
说明没 有线性关系 线性关系不表示因果关系
11.1.3 相关系数的显著性检验 1.r的抽样分布
2. r的显著性检验 (1)建立假设 假设总体相关系数为 ρ H0: ρ = 0, H1: ρ ≠ 0 r n 2 t ~ t ( n 2) 2 (2)计算检验的统计量 1 r (3)确定显著性水平 ,并作出决策 若 t t 2,拒绝H0 若 t t 2,接受H0
11.2一元线性回归 什么是回归分析?(内容)1. 从一组样本数据出发,确定变量之间的数学 关系式 2. 对这些关系式的可信程度进行各种统计检验, 并从影响某一特定变量的诸多变量中找出哪 些变量的影响显著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的 取值来预测或控制另一个特定变量的取值, 并给出这种预测或控制的精确程度
回归分析与相关分析的区别1. 相关分析中,变量 x 变量 y 处于平等的地位;回 归分析中,变量 y 称为因变量,处在被解释的地 位,x 称为自变量,用于预测因变量的变化 2. 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可 以是随机变量,也可以是非随机的确定变量 3. 相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
回归模型的类型回归模型
一个自变量
两个及两个以上自变量
一元回归
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
回归模型1. 回答“变量之间是什么样的关系?” 2. 方程中运用– 1 个数字的因变量(响应变量) 被预测的变量
– 1 个或多个数字的或分类的自变量 (解释变量) 用于预测的变量
3. 主要用于预测和估计
一元线性回归模型(概念要点)1. 当只涉及一个自变量时称为一元回归,若因变 量 y 与自变量 x 之间为线性关系时称为一元线 性回归 2. 对于具有线性关系的两个变量,可以用一条线 性方程来表示它们之间的关系 3. 描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型
一元线性回归模型(概念要点) 对于只涉及一个自变量的简单线性回归模型可 表示为 y = 0 + 1 x + – – –
模型中,y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性
–
0 和 1 称为模型的参数
一元线性回归模型(基本假定)1. 误差项ε是一个期望值为0的随机变量,即E(ε)=0。 对于一个给定的 x 值,y 的期望值为E ( y ) =
0+ 1x 2. 对于所有的 x 值,ε的方差σ2 都相同 3. 误差项 ε 是一个服从正态分布的随机变量,且相 互独立。即ε~N( 0 ,σ2 )––
独立性意味着对于一个特定的 x 值,它所对应的ε与 其他 x 值所对应的ε不相关 对于一个特定的 x 值,它所对应的 y 值与其他 x 所 对应的 y 值也不相关
回归方程(概念要点)1. 描述 y 的平均值或期望值如何依赖于 x 的方程 称为回归方程 2. 简单线性回归方程的形式如下 E( y ) = 0 + 1 x
方程的图示是一条直线,因此也称为直线回归方程
0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值 1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值
估计(经验)的回归方程1. 总体回归参数 0 和 1 是未知的,必需利用样本数 据去估计 和 代替回归方程中的未知参 2. 用样本统计量 0 1 数 0和 1 ,就得到了估计的回归方程 3. 简单线性回归中估计的回归方程为 是直线的斜率,它表示对 0是估计的回归直线在 y 轴上的截距, 其中: 1 于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值
+ x y 0 1
最小二乘法(概念要点)1. 使因变量的观察值与估计值之间的离差平方和 和 的方法。即 达到最小来求得 0 12 2 Q( 0 , 1 ) ( yi y ) ei 最小 i 1 i 1 n n
2. 用最小二乘法拟合的直线来代表 x 与 y 之间的 关系与实际数据的误差比其他任何直线都小
最小二乘法(图示)y (x2 , y2) (xn , yn)
+ x y 0 1
(x1 , y1)
} (x i , y i )
e i = y i -y i ^
x
11.2.3 回归直线
的拟合优度 回归直线与各观测点的接近程度称为回归直线对 数据的拟合优度,用判定系数说明。
1.判定系数 因变量 y 的取值是不同的,y 取值的这种波 动称为变差。变差来源于两个方面:– 由于自变量 x 的取值不同造成的 – 除 x 以外的其他因素(如x对y的非线性影响、测量误差 等)的影响
离差平方和的分解(图示)y
( xi , yi )
y y
{}
}
y y
+ x y 0 1
y y
y
离差分解图
x
离差平方和的分解(三个平方和的关系)1. 从图上看有
+ y y y y y y2 n 2 n 2
2. 两端平方后求和有
yi 1
n
i
i y + yi y y y
{
{
总变差平方和 (SST)
回归平方和 (SSR)
残差平方和 (SSE)
SST = SSR + SSE
{
i 1
i 1
离差平方和的分解(三个平方和的意义)1. 总平方和(SST)– – 反映因变量的 n 个观察值与其均值的总离差 反映自变量 x 的变化对因变量 y 取值变化的影 响,或者说,是由于 x 与 y 之间的线性关系引 起的 y 的取值变化,也称为可解释的平方和 反映除 x 以外的其他因素对 y 取值的影响,也 称为不可解释的平方和或剩余平方和
2. 回归平方和(SSR)
3. 残差平方和(SSE)–
样本决定系数(判定系数 r2 )1. 回归平方和占总离差平方和的比例SSR r SST2 n n
i y y
2
y y i 1 i
i 1 n
1 2
yi yi 1 n i 1 i
2
y y
2
2. 反映回归直线的拟合程度 3. 取值范围在 [ 0 , 1 ] 之间 4. r2 1,说明回归方程拟合的越好;r2 0, 说明回归方程拟合的越差 5. 判定系数等于相关系数的平方,即r2=(r)2
2.估计标准误差
度量各实际观测点在直线周围的散步状况 的一个统计量,是均方残差MSE的平方根, 用se表示 2SSE se MSE n 2
yi yi
n 2
是对误差项ε的标准差σ的估计 反映了用估计的回归方程预测因变量y时预测误差的 大小 各观测点越靠近直线,se越小,根据估计的回归方程 进行预测也就越准确。
11.2.4 显著性检验 1.线性关系检验
检验自变量和因变量之间的线性关系是否 显著 具体方法是将回归平方和(SSR)同残差平方 和(SSE)加以比较,应用F检验来分析二者之 间的差别是否显著– 如果是显著的,两个变量之间存在线性关系 – 如果不显著,两个变量之间不存在线性关系
1. 提出假设– H0:线性关系不显著
2. 计算检验统计量F
3. 确定显著性水平 ,并根据分子自由度1和分 母自由度n-2找出临界值F 4. 作出决策:若F F ,拒绝H0;若FF ,接受H0
方差分析 回归分析 残差 总计 df 1 23
24 SS 222.4859787 90.16442134 312.6504 MS 222.4859787 3.920192232 F 56.75384406 Significance F 1.18349E-07
2.回归系数的显著性检验 检验自变量对因变量的影响是否显著,检 验回归系数β1是否等于0。在一元线性回归 模型中, 如果回归系数β1 =0,则回归线是一条水平 线,表明因变量y的取值不依赖于自变量x, 即两个变量之间没有线性关系。 如果回归系数β1 ≠0,也不能得出两个变量 之间存在线性关系的结论
是根据最小二乘法求出的样本统计量,它有自 1. 1 己的分布 的分布具有如下性质 2. 1 分布形式:正态分布 ) 数学期望:E( 1 1
标准差: 1
由于 无未知,需用其估计量Sy来代替得到 1 的估计的 Sy 标准差
x x i
2
S 1
x x i
2
回归系数的显著性检验(步骤)1. 提出假设 – H0: 1 = 0 (没有线性关系) – H1: 1 0 (有线性关系) 2. 计算检验的统计量
t
1
S
~ t (n 2)
1
3. 确定显著性水平 ,并进行决策
t t 2,拒绝H0; t t 2,接受H0
Coefficients Intercept X Variable 1 -0.829520617 0.037894707
标准误差
t Stat
P-value 0.263067597 1.18349E-07
0.723043295 -1.147262719 0.00503015 7.533514722
11.2.5 回归分析结果的评价 1.回归系数 的符号是否与理论或事先预期相 一致? 2.如果理论上认为y与x之间的关系不仅是正的 ,而且统计上显著,那么所建立的回归方 程也应该如此 3.回归模型在多大程度上解释了因变量y取值 的差异?用判定系数来回答 4.考察关于误差项ε的正态性假定是否成立。 画出残差的直方图或正态概率图
11.3 利用回归方程进行预测1. 根据自变量 x 的取值估计或预测因变量 y 的取值 2. 估计或预测的类型– 点估计 y 的平均值的点估计 y 的个别值的点估计 – 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计
11.3.1 点估计 对于自变量 x 的一个给定值x0 ,根据回归方 程得到因变量 y 的一个估计值 y 0 点估计值有– y 的平均值的点估计 – y 的个别值的点估计
在点估计条件下,平均值的点估计和个别 值的的点估计是一样的,但在区间估计中 则不同
y 的平均值的置信区间估计 1. 利用估计的回归方程,对于自变量 x 的一个 给定值 x0 ,求出因变量 y 的平均值E(y0)的估 计区间 ,这一估计区间称为置信区间 2. E(y0) 在1- 置信水平下的置信区间为 0 t 2 (n 2) Se y 1 + n
x0 x n i 1 i
2 2
x x
式中: Se 为估计标 准误差
【例】根据前例,求出贷款余额为100亿元时不良 贷款95%的置信区间 解:根据前面的计算结果 ,n=25 置信区间为
E(y0) =2.96,Se= 1.9799 ,t 2(25-2)=2.0687
y 的个别值的预测区间估计 1. 利用估计的回归方程,对于自变量 x 的一个 给定值 x0 ,求出因变量 y 的一个个别值的估 计区间,这一区间称为预测区间 2. y0在1- 置信水平下的预测区间为
注意!
【例】根据前例,求出贷款余额为72.8亿元的那个 分行不良贷款95%的预测区间 解:根据前面的计算结果 0=1.93,S = 1.9799 ,t (25-2)=2.0687, y e 2 n=25 预测区间为
影响区间宽度的因素 1. 置信水平 (1 - )– 区间宽度随置信水平的增大而增大
2. 数据的离散程度 (Se) 3. 样本容量
– 区间宽度随离散程度的增大而增大 – 区间宽度随样本容量的增大而减小
4. 用于预测的 x0与 x的差异程度
– 区间宽度随 x0与 x 的差异程度的增大而增大
置信区间、预测区间、回归方程y + x y 0 1
x
x0
x
11.4 残差分析11.4.1 残差与残差图观测值 1 2 3 4 5 6 7 8 9 10 11 12 13 14 预测 Y 1.720793162 3.388160268 5.726263687 2.232371706 6.738052363 -0.215626364 3.240370911 6.196158054 2.812160722 1.92921405 1.60331957 4.180159643 1.391109211 5.786895218 残差 -0.820793162 -2.288160268 -0.926263687 0.967628294 1.061947637 2.915626364 -1.640370911 6.303841946 -1.812160722 0.67078595 -1.30331957 -0.180159643 -0.591109211 -2.286895218 标准残差 -0.423469124 -1.180523023 -0.477884186 0.499225292 0.547887161 1.504249547 -0.846311184 3.252320501 -0.934942138 0.346076395 -0.672417391 -0.092949174 -0.304969037 -1.17987035
7 6 5 4 3 残 2 差 1 0 -1 0 -2 -3
100
200
300
400
贷款余额
11.4.2 标准化残差(半学生化残差) 残差除以其
标准差后得到的数值。
yi ei yi zei se se se是残差的标准差的估计
如果ε服从正态分布,那么标准化残差也应 服从正态分布。 则根据经验法则,大约有95%的标准化残差 在-2~2之间。3.5 3 2.5 2 1.5 1 0.5 0 -0.5 0 -1 -1.5 50 100 150 200 250 300 350 400
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- [优质文档]泉州纺织服装职业学院2009届卒业生基础情况
- Probe into Key Techniques of Regional-Oriented 3D GIS On the key techniques of 3D GIS used for regional Geological Information System
- 造纸原理与工程
- 2014版3d打印技术产业园项目(立项及贷款用)可行性研究报告编制机构服务流程及案例展示
- 发展纺织服装业信息化工程建设情况调查报告
- 西南少数民族传统手造纸遗产的保护初探
- 3d打印--让技术照进艺术
- 【精品】菲林输出是把文字和图象通过桌上排版软件制成的电脑档...87
- 常用纺织服装标准[教学]
- [宝典]造纸废水处理工艺剖析
- 纺纱实验室质量控制试题
- [广告/传媒]印前流程总
- 关键专利失效 3d打印将在2014年迎来全面爆发
- 乙烯基 单体乳液共聚及在造纸中的应用
- 我国纺织服装制造企业战略采购研究
- 商务成本_变动下的沿海纺织服装企业产品升级问题研究
- 2011中国纺织服装工业综合实力100强
- 静电防护工装面料品牌认证实现零打破[宝典]
- [优质文档]纺织服装面料---甲醛测试常识
- 秋冬款被子目录
- 袖子造型种类.doc
- 纺织服装新 产品研发商品化影响因素与模型分析
- 3D打印机技术
- 牛奶纤维
- [精彩]做衣服批发6年,教你如何拿货不吃亏
- 服装发外加
- bodypaint 3d基础教学pdf
- 意毛纺织
- 美利纸业将跻身我国造纸十强值得关注
- 卡西龙童鞋导入终端渠道新模式
网友关注视频
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 3
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣.mp4
- 苏科版数学 八年级下册 第八章第二节 可能性的大小
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 2
- 七年级英语下册 上海牛津版 Unit5
- 【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
- 第8课 对称剪纸_第一课时(二等奖)(沪书画版二年级上册)_T3784187
- 二次函数求实际问题中的最值_第一课时(特等奖)(冀教版九年级下册)_T144339
- 第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
- 沪教版牛津小学英语(深圳用) 五年级下册 Unit 12
- 六年级英语下册上海牛津版教材讲解 U1单词
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 7
- 七年级英语下册 上海牛津版 Unit3
- 《空中课堂》二年级下册 数学第一单元第1课时
- 【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
- 冀教版英语五年级下册第二课课程解读
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,广东省
- 青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 12
- 沪教版八年级下册数学练习册21.3(2)分式方程P15
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 外研版英语三起5年级下册(14版)Module3 Unit2
- 二年级下册数学第二课
- 沪教版八年级下册数学练习册21.3(3)分式方程P17
- 第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T3751175
- 苏科版八年级数学下册7.2《统计图的选用》
- 19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T502436
- 化学九年级下册全册同步 人教版 第25集 生活中常见的盐(二)
- 七年级英语下册 上海牛津版 Unit9
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理