教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 高等教育> 医学> 2014生物统计学复习提纲-ch11-20

2014生物统计学复习提纲-ch11-20

上传者:胡昌龄
|
上传时间:2015-05-12
|
次下载

2014生物统计学复习提纲-ch11-20

生物统计学复习提纲(2013)

第11章 相关和回归

回归分析(regression analysis)用于研究某个变量对另一个变量的影响强度。 回归直线的方程为:

??a?bx y

a是总体截距的估计值,b是总体斜率的估计值。

回归直线一定经过“均数”点,因此 a?Y?

内容需要下载文档才能查看

bX

相关分析(correlation analysis)用于研究变量间联系的密切程度。

相关系数r,又称积差相关系数,它是变量相关的密切程度和方向的指标。 r?0tr?相关系数的假设检验: ,? = n-2 Sr 22如果进行F检验,F?r(n?2)/(1?r), ?1?1,?2?n?2。

对于同一资料,对回归系数b进行检验与对相关系数r的检验完全等价。

直线回归与直线相关的区别与联系

1. 区别

(1)资料要求:

回归:Y为正态随机变量,X为选定变量。

相关:X、Y服从双变量正态分布。

(2)应用:

回归——由一个变量值推算另一个变量值。

相关——只反映两变量间互依关系。

(3)回归系数有单位,相关系数无单位。

2. 联系

(1)方向一致: r与b的正负号一致。

(2)同一资料假设检验等价: tr=tb。

(3)r与b可相互推导获得,b?rlYYlXX 。

lXX:x的离均差平方和; lYY:y的离均差平方和。

(4)用回归解释相关

22llXXSS回SS总-SS剩2XYXY决定系数 r????lXXlYYlYYSS总SS总

SS回(回归平方和)是y的变异中由于引入了自变量x而使总平方和减小的部分。SS回越接近总平方和,则r2越接近1,引入相关自变量的效果越好。r2 代表了自变量x可以解释因变量y变异的百分比。

如果X与Y有回归关系,则一定存在相关关系,但是若存在相关关系,则不一定存在回归关系。

1

当X、Y不服从双变量正态分布时,使用秩相关(spearman)分析。

在两个变量均属于有序变量时,使用Kendall’s相关分析。

第12章 多元线性回归

多元线性回归是研究多个自变量X1、X2、...、Xi与一个因变量Y间是否存在线性关系(依存关系),并用多元线性回归方程来表达这种关系。

多元逐步回归要求回归方程中包含所有对因变量Y作用显著(可以显著减少Y的变异)的自变量,而不包含作用不显著的自变量,从而建立最优回归方程。

选择自变量的方法:逐步选择法

1、向前引入法(Forward);

2、向后剔除法(Backward);

3、逐步引入—剔除法(Stepwise)。

如果不同的方法选择到的最终模型不同,以残差平方和(Sum of squares of residues)最小的模型较优。

在回归方程中,虽然各自变量对因变量是有意义的,但由于某些自变量彼此相关,这种自变量彼此间的相关叫做存在共线性问题,会给评价自变量的贡献带来困难。

共线性的处理办法:

1、剔除不重要的有共线性问题的自变量,但要注意专业的合理解释。

2、增加样本含量。

3、岭回归分析或者主成分回归分析。

第14章 分类资料的回归分析

含p个自变量的二分变量Logistic回归模型:

p logit(p)?)??0??1X1????PXP 1?p

p为某事件出现的概率。

p/(1-p): 某事件出现的概率与不出现概率之比值称为比数或优势(odds)。

二分变量的logistic模型应用条件:

a) 应变量为二分类变量或者是某事件的发生率;

b) 自变量与logit(p)之间为线性关系;

c) 残差合计为0,且服从二项分布;

d) 各观测值之间独立。

对回归系数β的检验:H0: β = 0 vs HA: β ≠ 0。

???):回归系数?的标准误。se(?z? )se(?

如果p < 0.05,拒绝H0,即变量x的引入对y发生(y=1)的机率值变化有显著影响。

回归系数β的解释

1. 系数的正负值:正(负)系数表示随自变量的增加因变量logit值的增加(减少)。

2. 二分类自变量:系数为比数比(OR)的自然对数值。

p1/(1-p1)OR? p/(1-p)00

2

3. 多分类自变量:以第i类作参照,比较相邻的或相隔的两个类别的eβ变化量。

4. 连续型自变量:当自变量改变一个测量单位时,比数比改变量为eβ。

Probit模型:

用于研究药物浓度与动物死亡率的关系,计算药物半数致死剂量(LD50)。

Probit回归是在正态分布的理论基础上进行的,而Logistic回归是建立在二项分布的基础上的。但对于同一资料,Probit回归与Logistic回归的结果非常接近。

检验两处理的LD50是否相等,看其比值(Potency Ratio)的95%CI是否包括数值1.0。

第15章 聚类分析

聚类分析:根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。

假使有n个样品,每个样品由p个变量描述,既可以对变量进行分类,也可以对样品进行分类。

对变量的聚类称为R型聚类(Clustering for variables),而对观测值聚类称为Q型聚类(Clustering for individuals)。这两种聚类在数学上是对称的。

研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数;常用的相似系数有:夹角余弦与相关系数。

另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离。距离较近的归为一类,距离较远的点应属于不同的类。

假使有n个样品,每个样品由p个指标反应,其数据矩阵记为X;第i个样品与第j个样品间的绝对距离: p dij?xik?xjk k?1欧式(Euclidian)距离的平方:

p (xik?xjk)2 dij?

k?1

如有数据矩阵 i个样品间的距离(i=1,2,...,5)

5 7

内容需要下载文档才能查看

40 29 5 2 则欧式距离的平方

7 1 0 17 17 26

X= 3 2 D= 17 0 18 25

6 5 17 18 0 1

6 6 26 15 1 0

d25?(x21?x51)2?(x22?x52)2?(6?7)2?(6?1)2?

两种主要的聚类方法: 系统聚类法, 动态聚类法。

第16章 判别分析

??

3

判别分析: 利用一个已经明确知道类别的“训练样本”,建立判别准则,并通过预测变量来对未知类别的观测值进行判别。

常用的判别方法有:距离判别、Fisher判别、Bayes判别.

为建立判别函数需要使用训练样本,即一个已知实际分类且各指标的观测值已知的样本。必须是由金标准确定的分类,如果错分太多,判别函数的判别效率会大大下降。

用来建立判别函数的自变量可以是任意测量尺度,甚至无序的多分类变量也可以。

第17章 生存分析

生存分析(survival analysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。

生存分析特点就是考虑了每个观测现象出现某一结局的时间长短。 生存时间:终点事件(失效事件)与起始事件之间的时间间隔。

截尾数据(删失数据,censored data): 从起点至截尾点所经历的时间。截尾原因可能是失访、死于其它疾病、观察结束时病人尚存活等。

条件生存概率:某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。 累计生存率:观察对象经历t个单位时段后仍存活的可能性。

内容需要下载文档才能查看

x = nx - wx/2

生存分析的方法:

? 生存率估计:Kaplan-Meier法,寿命表(life-table)法; ? 比较方法:log-rank检验; H0: 两样本生存率曲线相同;

Ha: 两条生存率曲线差异有统计学意义。

? 影响因素分析:Cox比例风险回归模型(Cox回归模型)用于预测生存率。 ?1X1??2X2????pXp

h(t,X)?h(t)e0

对回归系数β的检验:Wald卡方检验。

疾病风险率与解释变量X间的关系用相对危险系数RR=eβ描述。 β>0,RR>1,说明变量X增加时,危险率增加,即X是危险因素。 β<0,RR<1,说明变量X增加时,危险率下降,即X是保护因素。 β=0,RR=1,说明变量X增加时,危险率不变,即X是危险无关因素。

第18章 主成分分析和因子分析

4

???

2

?A?T?2

T

式中A为实际死亡数,T为理论死亡数。

主成分分析和因子分析:两种把变量维数降低以便于描述、理解和分析的方法。

如果原始变量都本质上独立,那么降维就可能失败,这是因为不能将很多独立变量用少数综合变量概括。数据越相关,降维效果就越好。

主成分分析的目的是尽可能多地提取各变量的变异。因子分析则需要为每一个公因子寻找适当的解释。

特征值(Eigenvalue)的含义:p个随机变量提取的前k个主成份的特征根就是指p维空间k个主轴长度。

p贡献率:第i个主成分的方差在全部方差中所占比重 ? i? ? i,称为贡献率,反映了原

i?1来P个指标多大的信息(即有多大的综合能力)。

累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差

pk中所占比重 ? ? i ? ? i 来描述,称为累积贡献率。 i?1i?1

在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率 ≥ 80%时的主成分的个数就足够了。

因子分析需要找出某个问题中可直接测量的、具有一定相关性的诸指标,如何受少数几个在专业上有意义、但不可直接测量到且相对独立的因子支配的规律,从而可用诸指标的测定值来间接确定诸因子的状态。

主成分分析的目的是尽可能多地提取各变量的变异。

因子分析则需要为每一个公因子寻找适当的生物学(经济学、社会学、…)解释。 5

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

下载文档

热门试卷

2016年四川省内江市中考化学试卷
广西钦州市高新区2017届高三11月月考政治试卷
浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
广西钦州市钦州港区2017届高三11月月考政治试卷
广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
广西钦州市高新区2016-2017学年高二11月月考政治试卷
广西钦州市高新区2016-2017学年高一11月月考政治试卷
山东省滨州市三校2017届第一学期阶段测试初三英语试题
四川省成都七中2017届高三一诊模拟考试文科综合试卷
2017届普通高等学校招生全国统一考试模拟试题(附答案)
重庆市永川中学高2017级上期12月月考语文试题
江西宜春三中2017届高三第一学期第二次月考文科综合试题
内蒙古赤峰二中2017届高三上学期第三次月考英语试题
2017年六年级(上)数学期末考试卷
2017人教版小学英语三年级上期末笔试题
江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
四川省简阳市阳安中学2016年12月高二月考英语试卷
四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
安徽省滁州中学2016—2017学年度第一学期12月月考​高三英语试卷
山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷

网友关注视频

【获奖】科粤版初三九年级化学下册第七章7.3浓稀的表示
青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
化学九年级下册全册同步 人教版 第22集 酸和碱的中和反应(一)
北师大版数学 四年级下册 第三单元 第二节 小数点搬家
《小学数学二年级下册》第二单元测试题讲解
【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,广东省
外研版八年级英语下学期 Module3
外研版英语三起6年级下册(14版)Module3 Unit1
沪教版牛津小学英语(深圳用)五年级下册 Unit 1
冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣.mp4
3.2 数学二年级下册第二单元 表内除法(一)整理和复习 李菲菲
冀教版英语三年级下册第二课
冀教版小学数学二年级下册第二单元《余数和除数的关系》
沪教版牛津小学英语(深圳用) 五年级下册 Unit 7
北师大版小学数学四年级下册第15课小数乘小数一
【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
外研版英语七年级下册module3 unit1第二课时
沪教版八年级下册数学练习册21.3(2)分式方程P15
30.3 由不共线三点的坐标确定二次函数_第一课时(市一等奖)(冀教版九年级下册)_T144342
外研版英语七年级下册module3 unit2第二课时
沪教版牛津小学英语(深圳用) 四年级下册 Unit 12
北师大版数学四年级下册第三单元第四节街心广场
冀教版小学数学二年级下册1
【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,辽宁省
19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T502436
化学九年级下册全册同步 人教版 第25集 生活中常见的盐(二)
【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,辽宁省
沪教版牛津小学英语(深圳用) 五年级下册 Unit 10
二年级下册数学第二课
冀教版英语四年级下册第二课