2014生物统计学复习提纲-ch11-20
上传者:胡昌龄|上传时间:2015-05-12|密次下载
2014生物统计学复习提纲-ch11-20
生物统计学复习提纲(2013)
第11章 相关和回归
回归分析(regression analysis)用于研究某个变量对另一个变量的影响强度。 回归直线的方程为:
??a?bx y
a是总体截距的估计值,b是总体斜率的估计值。
回归直线一定经过“均数”点,因此 a?Y?
内容需要下载文档才能查看bX
相关分析(correlation analysis)用于研究变量间联系的密切程度。
相关系数r,又称积差相关系数,它是变量相关的密切程度和方向的指标。 r?0tr?相关系数的假设检验: ,? = n-2 Sr 22如果进行F检验,F?r(n?2)/(1?r), ?1?1,?2?n?2。
对于同一资料,对回归系数b进行检验与对相关系数r的检验完全等价。
直线回归与直线相关的区别与联系
1. 区别
(1)资料要求:
回归:Y为正态随机变量,X为选定变量。
相关:X、Y服从双变量正态分布。
(2)应用:
回归——由一个变量值推算另一个变量值。
相关——只反映两变量间互依关系。
(3)回归系数有单位,相关系数无单位。
2. 联系
(1)方向一致: r与b的正负号一致。
(2)同一资料假设检验等价: tr=tb。
(3)r与b可相互推导获得,b?rlYYlXX 。
lXX:x的离均差平方和; lYY:y的离均差平方和。
(4)用回归解释相关
22llXXSS回SS总-SS剩2XYXY决定系数 r????lXXlYYlYYSS总SS总
SS回(回归平方和)是y的变异中由于引入了自变量x而使总平方和减小的部分。SS回越接近总平方和,则r2越接近1,引入相关自变量的效果越好。r2 代表了自变量x可以解释因变量y变异的百分比。
如果X与Y有回归关系,则一定存在相关关系,但是若存在相关关系,则不一定存在回归关系。
1
当X、Y不服从双变量正态分布时,使用秩相关(spearman)分析。
在两个变量均属于有序变量时,使用Kendall’s相关分析。
第12章 多元线性回归
多元线性回归是研究多个自变量X1、X2、...、Xi与一个因变量Y间是否存在线性关系(依存关系),并用多元线性回归方程来表达这种关系。
多元逐步回归要求回归方程中包含所有对因变量Y作用显著(可以显著减少Y的变异)的自变量,而不包含作用不显著的自变量,从而建立最优回归方程。
选择自变量的方法:逐步选择法
1、向前引入法(Forward);
2、向后剔除法(Backward);
3、逐步引入—剔除法(Stepwise)。
如果不同的方法选择到的最终模型不同,以残差平方和(Sum of squares of residues)最小的模型较优。
在回归方程中,虽然各自变量对因变量是有意义的,但由于某些自变量彼此相关,这种自变量彼此间的相关叫做存在共线性问题,会给评价自变量的贡献带来困难。
共线性的处理办法:
1、剔除不重要的有共线性问题的自变量,但要注意专业的合理解释。
2、增加样本含量。
3、岭回归分析或者主成分回归分析。
第14章 分类资料的回归分析
含p个自变量的二分变量Logistic回归模型:
p logit(p)?)??0??1X1????PXP 1?p
p为某事件出现的概率。
p/(1-p): 某事件出现的概率与不出现概率之比值称为比数或优势(odds)。
二分变量的logistic模型应用条件:
a) 应变量为二分类变量或者是某事件的发生率;
b) 自变量与logit(p)之间为线性关系;
c) 残差合计为0,且服从二项分布;
d) 各观测值之间独立。
对回归系数β的检验:H0: β = 0 vs HA: β ≠ 0。
???):回归系数?的标准误。se(?z? )se(?
如果p < 0.05,拒绝H0,即变量x的引入对y发生(y=1)的机率值变化有显著影响。
回归系数β的解释
1. 系数的正负值:正(负)系数表示随自变量的增加因变量logit值的增加(减少)。
2. 二分类自变量:系数为比数比(OR)的自然对数值。
p1/(1-p1)OR? p/(1-p)00
2
3. 多分类自变量:以第i类作参照,比较相邻的或相隔的两个类别的eβ变化量。
4. 连续型自变量:当自变量改变一个测量单位时,比数比改变量为eβ。
Probit模型:
用于研究药物浓度与动物死亡率的关系,计算药物半数致死剂量(LD50)。
Probit回归是在正态分布的理论基础上进行的,而Logistic回归是建立在二项分布的基础上的。但对于同一资料,Probit回归与Logistic回归的结果非常接近。
检验两处理的LD50是否相等,看其比值(Potency Ratio)的95%CI是否包括数值1.0。
第15章 聚类分析
聚类分析:根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。
假使有n个样品,每个样品由p个变量描述,既可以对变量进行分类,也可以对样品进行分类。
对变量的聚类称为R型聚类(Clustering for variables),而对观测值聚类称为Q型聚类(Clustering for individuals)。这两种聚类在数学上是对称的。
研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数;常用的相似系数有:夹角余弦与相关系数。
另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离。距离较近的归为一类,距离较远的点应属于不同的类。
假使有n个样品,每个样品由p个指标反应,其数据矩阵记为X;第i个样品与第j个样品间的绝对距离: p dij?xik?xjk k?1欧式(Euclidian)距离的平方:
p (xik?xjk)2 dij?
k?1
如有数据矩阵 i个样品间的距离(i=1,2,...,5)
5 7
内容需要下载文档才能查看40 29 5 2 则欧式距离的平方
7 1 0 17 17 26
X= 3 2 D= 17 0 18 25
6 5 17 18 0 1
6 6 26 15 1 0
d25?(x21?x51)2?(x22?x52)2?(6?7)2?(6?1)2?
两种主要的聚类方法: 系统聚类法, 动态聚类法。
第16章 判别分析
??
3
判别分析: 利用一个已经明确知道类别的“训练样本”,建立判别准则,并通过预测变量来对未知类别的观测值进行判别。
常用的判别方法有:距离判别、Fisher判别、Bayes判别.
为建立判别函数需要使用训练样本,即一个已知实际分类且各指标的观测值已知的样本。必须是由金标准确定的分类,如果错分太多,判别函数的判别效率会大大下降。
用来建立判别函数的自变量可以是任意测量尺度,甚至无序的多分类变量也可以。
第17章 生存分析
生存分析(survival analysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。
生存分析特点就是考虑了每个观测现象出现某一结局的时间长短。 生存时间:终点事件(失效事件)与起始事件之间的时间间隔。
截尾数据(删失数据,censored data): 从起点至截尾点所经历的时间。截尾原因可能是失访、死于其它疾病、观察结束时病人尚存活等。
条件生存概率:某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。 累计生存率:观察对象经历t个单位时段后仍存活的可能性。
内容需要下载文档才能查看x = nx - wx/2
生存分析的方法:
? 生存率估计:Kaplan-Meier法,寿命表(life-table)法; ? 比较方法:log-rank检验; H0: 两样本生存率曲线相同;
Ha: 两条生存率曲线差异有统计学意义。
? 影响因素分析:Cox比例风险回归模型(Cox回归模型)用于预测生存率。 ?1X1??2X2????pXp
h(t,X)?h(t)e0
对回归系数β的检验:Wald卡方检验。
疾病风险率与解释变量X间的关系用相对危险系数RR=eβ描述。 β>0,RR>1,说明变量X增加时,危险率增加,即X是危险因素。 β<0,RR<1,说明变量X增加时,危险率下降,即X是保护因素。 β=0,RR=1,说明变量X增加时,危险率不变,即X是危险无关因素。
第18章 主成分分析和因子分析
4
???
2
?A?T?2
T
式中A为实际死亡数,T为理论死亡数。
主成分分析和因子分析:两种把变量维数降低以便于描述、理解和分析的方法。
如果原始变量都本质上独立,那么降维就可能失败,这是因为不能将很多独立变量用少数综合变量概括。数据越相关,降维效果就越好。
主成分分析的目的是尽可能多地提取各变量的变异。因子分析则需要为每一个公因子寻找适当的解释。
特征值(Eigenvalue)的含义:p个随机变量提取的前k个主成份的特征根就是指p维空间k个主轴长度。
p贡献率:第i个主成分的方差在全部方差中所占比重 ? i? ? i,称为贡献率,反映了原
i?1来P个指标多大的信息(即有多大的综合能力)。
累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差
pk中所占比重 ? ? i ? ? i 来描述,称为累积贡献率。 i?1i?1
在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率 ≥ 80%时的主成分的个数就足够了。
因子分析需要找出某个问题中可直接测量的、具有一定相关性的诸指标,如何受少数几个在专业上有意义、但不可直接测量到且相对独立的因子支配的规律,从而可用诸指标的测定值来间接确定诸因子的状态。
主成分分析的目的是尽可能多地提取各变量的变异。
因子分析则需要为每一个公因子寻找适当的生物学(经济学、社会学、…)解释。 5
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- 字形练习一
- 试井作业第1题
- 中学作文教学存在的问题及建议
- 污水处理池施工计划设计
- 08-09下概率与数理统计期中测试(无答案)
- 弹塑性力学、连续介质力学、断裂与损伤力学等课程的教学大纲
- [宝典]2008年全国高考化学试题剖析
- chapter3_td-scdma物理层道理[精彩]
- 西安交大数电实验组合逻辑实验报告
- 粒子物理的历史发展
- 生物技术在纺织中的应用
- 高三物理高考第一轮专题复习——电磁场(含答案详解)
- 合工大生物化学习题
- 《管理学》课程习题
- 近五年生物高考遗传题
- SGS能源管理2014年公开课培训计划
- 马里兰大学帕克分校环境科学与技术本科专业申请
- 机械工程及其自动化实习报告
- 化学课后习题答案
- 第一章作业
- 浅谈中学作文教学改革与探索.doc
- 家庭电路习题训练
- 2010山东文数
- 建筑工程技术实习报告
- 中学作文教学应紧密联系生活和语文教学
- 水泥的物理性
- 如何把握2011年江苏高考生物复习的重点和难点
- 大气污染控制工程燃煤锅炉除尘系统设计袋式除尘器
- 高等数学部分课后答案
- 高考化学无机推断高水平题汇总
网友关注视频
- 【获奖】科粤版初三九年级化学下册第七章7.3浓稀的表示
- 青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
- 化学九年级下册全册同步 人教版 第22集 酸和碱的中和反应(一)
- 北师大版数学 四年级下册 第三单元 第二节 小数点搬家
- 《小学数学二年级下册》第二单元测试题讲解
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,广东省
- 外研版八年级英语下学期 Module3
- 外研版英语三起6年级下册(14版)Module3 Unit1
- 沪教版牛津小学英语(深圳用)五年级下册 Unit 1
- 冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣.mp4
- 3.2 数学二年级下册第二单元 表内除法(一)整理和复习 李菲菲
- 冀教版英语三年级下册第二课
- 冀教版小学数学二年级下册第二单元《余数和除数的关系》
- 沪教版牛津小学英语(深圳用) 五年级下册 Unit 7
- 北师大版小学数学四年级下册第15课小数乘小数一
- 【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
- 外研版英语七年级下册module3 unit1第二课时
- 沪教版八年级下册数学练习册21.3(2)分式方程P15
- 30.3 由不共线三点的坐标确定二次函数_第一课时(市一等奖)(冀教版九年级下册)_T144342
- 外研版英语七年级下册module3 unit2第二课时
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 12
- 北师大版数学四年级下册第三单元第四节街心广场
- 冀教版小学数学二年级下册1
- 【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,辽宁省
- 19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T502436
- 化学九年级下册全册同步 人教版 第25集 生活中常见的盐(二)
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,辽宁省
- 沪教版牛津小学英语(深圳用) 五年级下册 Unit 10
- 二年级下册数学第二课
- 冀教版英语四年级下册第二课
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理