医学统计学复习资料与复习题答案 联系客服

发布时间 : 星期一 文章医学统计学复习资料与复习题答案更新完毕开始阅读b923e46cb6daa58da0116c175f0e7cd184251812

教学提要

(一)《医用统计学》基本概念

1、变异:宇宙中的事物, 千差万别, 各不相同。即使是性质相同的事物, 就同一观察指标来看, 各观察指标(亦称个体)之间, 也各有差异, 称为变异。同质观察单位之间的个体变异, 是生物的重要特征, 是偶然性的表现。

2、变量:由于生物的变异特性, 使得观察单位某种指标的数值互相不等, 所以个体值称为变量值或观察值。

3、总体:即根据研究目的确定的同质的研究对象的全体。更确切地说, 是性质相同的所有观察单位的某种变量值的集合。

4、样本: 即从总体中抽取一部分作为观察单位进行观察,这部分观察单位称为样本。为了使样本对总体有较好的代表性,抽样必须遵循随机化的原则,即总体中每一观察单位均有相同的机会被抽取到样本中去。

5、计量资料(数值变量资料): 对每个观察单位用定量方法测定某项指标量的大小, 所得的资料称为计量资料, 一般有度量衡等单位。

6、计数资料(分类变量资料): 将观察单位按某种属性或类别分组, 所得各组的观察单位数, 称为计数资料。可分为二项式或多项式分类变量。

7、等级资料:将观察单位按某种属性的不同程度分组, 所得各组的观察单位数, 称为等级资料。这类资料与计数资料不同的是:属性的分组有程度的差别, 各组按大小顺序排列; 与计量资料不同的是:每个观察单位未确切定量, 因而称为半定量资料。

8、抽样误差:由于总体中各观察单位间存在个体差异, 抽样研究中抽取的样本, 只包含总体的一部分, 因而样本指标不一定等于相应的总体指标, 这种样本统计量与总体参数间的差别称为抽样误差。

(二)统计工作的基本步骤

1、设计: 这是关键的一步。要求科学、周密、简明。 2、搜集资料: 要求完整、准确、及时。

医学统计资料的来源主要有三个方面:(1) 统计报表; (2) 日常医疗工作的原始记录和报告卡片; (3) 专题调查

3、整理资料: 核查资料; 按性质或数量分组, 拟定整理表。

4、分析资料: 包括指标的计算、统计图表的绘制, 用统计方法如参数估计、假设检验等对资料作统计分析。 (三) 计量资料的分析

1、平均数: 用以描述同质计量资料频数分布的集中趋势, 反映一组变量值的平均水平, 是一组变量值的代表值。

(1) 算术均数: 简称均数。用于描述对称分布(特别是呈正态分布)的变量值的平均水平。 直接法: x=x/n

加权法: x=x/=x/n

要点: 频数表的制作

(2) 几何均数: 用G表示。用于描述变量值呈等比数列, 或呈对数正态分布或近似对数正态分布资料。 直接法: G=

-1

x1x2 x3

)

xn , G=lg(

-1

lgx/n )

加权法: G=lg( lgx/

(3) 中位数和百分位数: 中位数是一组从小到大顺序排列的变量值, 位于中间位置的数值,亦称为位置平均数, 代号为M。多用于描述偏态分布资料, 或分布不明资料, 或一端或两端无确定数值的开口资料的集中趋势。百分位数代号为PX, 是一种位置指标。 小样本资料中位数计算方法: 当n为奇数时 M=X(n+1/2) 当n为偶数时 M=[ X(n/2)+X(n/2+1) ] 大样本资料中位数和百分位数计算方法: PX =L+I ( nx% - 2、变异指标

(1) 全距: R, 亦称极差。即一组变量值中最大值与最小值之差。

(2) 标准差: 是最常用来衡量变量值间离散程度的变异指标。总体标准差代号号s。

运用:” 用来描述正态分布资料的变异程度。当资料呈正态或近似正态资料时往往将均数与标准差同时写出: X S, 表示均数的代表性。 (3) 变异系数: 又称离散系数。代号为CV。CV=

运用: 比较均数相差悬殊的几组资料的变异程度; 比较度量衡单位不同的几组资料的变异程度。

3、正态分布及其应用

(1) 正态分布: 是医学和生物学中最常见的总体频数分布, 以均数为中心, 对称,两侧逐渐下降, 两端永远不与横轴相交。正态分布用N(, )表示, 为了应用方便, 常对变量X作u=( X - )/ 变换, 使=0, =1, 则正态分布转换为标准正态分布( 或呈U分布), 用N(0, 1)表示。 特征: 均数处最高;

以均数为中心, 左右对称; 有两个参数: 和;

态曲线下的面积分布有一定规律: 变量值围 正态曲线下面积(变量值出现的概率) 1.0 68.27% 1.96 95.00% 2.58 99.00% (2) 正态分布的应用: 常用于估计频数分布情况; 制定正常值围。

正常值: 指正常人的各种生理常数。当资料呈正态分布时, 最常用X 1.96S估计95%正常

2

L

)

,样本标准差代

值围, 其含义是指绝大多数正常的变量值都在这个围, 绝大多数是包括正常的80%、90%、95%和99%, 最常用95%。

4、均数的抽样误差和标准误 (1) 标准误的概念

即样本均数的标准差, 是说明均数抽样误差大小的指标。标准误愈小, 表示抽样误差愈小, 样本统计量对总体参数的估计愈可靠。 (2) 标准误的计算

x

=/n(总体标准误) sx=s/n(样本标准误)

(3) 标准误的应用

表示样本均数的散布情形; 估计总体均数的可信区间; 进行假设检验 5、t分布和总体均数的估计 (1) t分布的概念

对正态变量X采用u=( 分布, 而实际中

x

X - )/

x

变换, 将N(,

2x

)变换为标准正态分布, 即U

往往用sx来估计, 这时对正态变量X采用的不是U变换而是t变换, 即

t = ( X - )/ sx

其结果也不是U分布而是t分布。 (2) t分布的特征

与标准正态分布相比有以下特征:

a.二者都是单峰分布, 以0为中心, 左右对称;

b. t分布的峰部较矮而尾部翘得较高, 说明远侧的t值的个数相对较多, 即尾部面积 (概率P) 较大。自由度越小这种情况越明显, 逐渐增大时, t分布逐渐逼近标准正态分布; 当=时, t分布就完全成为标准正态分布了。 (3)t界值

t界值表, 横标目为自由度, 纵标目为概率P, 表中数字表示自由度为, P为(检验水准)时, t的界值, 常记为t单侧: P( t - t双侧: P( t - t(4)总体均数的估计

包括点值估计和区间估计。

a.区间估计的涵义: 意思是从总体中作随机抽样, 每个样本可以算得一个可信区间, 如95%可信区间, 意味着做100个可信区间, 平均有95个可信区间包括总体均数(估计正确), 只有5个可信区间不包括总体均数(估计错误)。 b.区间估计的方法: X -- t

,

,

,

。理论上

,

)= , 或P(t t)+P(t

t

,

)=

,

,

)= ; P( - t< t < t

,

)= 1 -

sx <

,

x

,

sx ;

,

x

已知 X - U<

未知但n足够大 X - U,sx <

6、假设检验 (1) 概念

所谓假设检验, 就是根据研究目的, 对样本所属总体特征提出一个假设, 然后用适当方法根据样本提供的信息, 推断该假设应当拒绝或不拒绝, 以使研究者了解在假设的条件下, 差异由抽样误差引起的可能性大小, 便于比较分析。 (2) 一般步骤

a.建立假设: H0: 无效假设。即假设样本指标与总体指标, 或样本与样本指标是相等的, 它们的差别是由抽样误差引起的。H1: 备择假设。是与H0相对立的假设。

b.确定检验水准: 亦称显著性水准, 代号为, 是一个接受或拒绝H0的概率标准。常取 = 0.05或 = 0.01

c.选定检验方法和计算统计量: t检验, U检验,

2

检验等。

d.确定P值:P值是指在由H0所规定的总体中作随机抽样, 获得等于及大于(或等于及小于)现有统计量的概率。

e.做出统计推断: 当P 时, 统计推断结论为按所取检验水准拒绝H0, 接受H1, 差别有显著性意义。

(3) 计量资料的假设检验

a.样本均数与总体均数的比较: H0: =

0

t = ( X - )/ sx = n -1

b.配对资料的t检验: 即差值均数与总体均数0比较的t检验。

配对资料: 对同对的两个受试对象分别给予两种处理;对同一受 试对象分别给予两种处理; 同一受试对象处理前后的 比较。 H0:

d

= 0 t = d / sd

1

c.两样本均数的t检验: H0: d. 两大样本均数的U检验: H0:

1

=

2

2

t = ( X1 - X2)/ sx1-x2

2

2

= n1 + n2 -2

= U = ( X1 - X2)/ sx1+sx2

e.多个样本比较F分析:F=MS组间/MS组

(4) t、F检验的应用条件: a. 要求资料呈正态分步; b. 要求总体方差相等c.独立样本 (5) U检验的应用条件: 样本例数较大或总体标准差已知 (6) 第一类错误与第二类错误

第一类错误: 拒绝实际上是成立的H0, 概率为。

第二类错误: 不拒绝实际上是不成立的H0, 概率为, 1 - 称为检验效能或把握度。 (7) 假设检验时应注意的问题 a. 要有严密的抽样研究设计;

b. 选用的假设检验方法应符合其应用条件; c. 正确理解差别有无显著性的条件意义; d. 结论不能绝对化;