统计学原理复习重点- 修改2 - 图文 联系客服

发布时间 : 星期六 文章统计学原理复习重点- 修改2 - 图文更新完毕开始阅读80e06c3dfbd6195f312b3169a45177232f60e466

分类或分组 汇总 数据分组与频数分布

统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。

◎统计分组标志:分组时所依据的特征或标准,有品质标志和数量标志。

◎频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。 概念:频数/次数分布;相对频数;百分数频数

◎ 频数分布或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。

分布在各组内的数据个数称为频数或次数。

A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes.

◎相对频数(Relative frequency)/频率/比重:各组频数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)

◎百分数频数(Percentage frequency):is the relative frequency multiplied by 100.

数值数据的分组与频数分布 分组计频基本步骤:

确定组数?? 确定组距??(按组)整理成分布频数表

第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定

经验上以5~20之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。

实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:

N2

1010

第二步,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距=(最大值 - 最小值)/组数

第三步,确定各组组限(Class limits)并据此整理频数分布表。 1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因此,

最低组限(The lower class limit) ? 数据的最小值, 最大组限(The upper class limit) ?数据的最大值;

另外,数据在每组中的归属习惯上采用“上组限不在内”。 2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如6~10,11~15,16~20等); 3、对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如[5,10),[10,15),[15,20)等)。 注意:

K?1?loglog1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一组和最后一组可采用―XX以下‖及―XX以上‖这样的开口组;

2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。 不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际;

3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和)。

统计分组的概念、原则、则和方法统计表(补充讲义14页word文档)。

分配数列/次数分布数列

由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表和累计次数分布表。 次数分布

主要有钟形分布、U形分布和J形分布。 统计表和统计图

统计表和统计图是显示统计数据的两种重要形式。统计表的结构从形式看可分为总标题、横表目、纵标目和指标数值;从内容上看可分为主词和宾词两部分。统计图主要有条形图、直方图、圆形图等。

数据分布特征的描述。

本章主要介绍数据的集中趋势和离散趋势。重点是各种平均指标及离散指标概念、计算方法和适用条件。

统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。

集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。

均值(Mean) 均值就是一组数据的平均值(average value),用来测度中心位置(central location)。

1、算术平均数

简单算术平均数 加权算术平均

加权算术平均往往适用于对分组后的数据求均值,这时Xi为各组变量代表值(往往取组中值),Fi 为各组变量值出现的频数。

总体标志总量算术平均数?总体单位总量算术均值具有如下性质:

(1)各变量值与其均值的离差和为零: (2)各变量值与其均值的离差平方和最小:

(3)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。

(4)对于任意两个变量x和y,它们的代数和的算术平均数等于两个变量的算术平均数的代数和。

均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。 2、几何平均数

(1)几何平均数是N个变量值乘积的N次方根 (2)加权几何平均数

几何平均数的对数是各变量值对数的算术平均。 几何平均主要用于计算比率或速度的平均 几何平均数的应用及特点 :

我国国内生产总值2001年、2002年、2003年的环比发展速度分别是107.5%,108.3%,109.3%,则各年的平均发展速度是

G?31.075?1.083?1.093?1.084?108.4%

某人有一笔款项存入银行10年,前2年的年利率为6%,第3至5年的年利率是5%,后5年的年利率3%,如果按复利计算,这笔款项的平均年利率为多少?

G?101.062?1.053?1.035?1.0421.042?1?0.042?4.2%

这笔款项的平均年利率为4.2%。 ①应用条件

a.变量值是相对数据,如比率或发展速度。 b.变量值的连乘积等于总比率或总发展速度。 ②特点

a.如果数列中有一个标志值等于零或负值,则无法计算。 b.受极端值影响较小,故较稳健。

(3)调和平均数,是各数据倒数的(简单)算术平均数的倒数: 价格=金额/购买量

例4,某农贸市场某日鸡蛋价格及销售额资料如下表所示,试求其鸡蛋的平均售价。鸡蛋种类价格(元/KG)销售额(元)A 7.6 15200B 8.0 8000C 8.2 4100鸡蛋的平均价格等于销售总额除以销售量:XH??M1?X?M?15200?8000?4100?7.8111?15200??8000??41007.68.08.2 由相对数和平均数计算平均数

根据相对数和平均数计算平均数时,如何正确选择和应用算术平均数与调和平均数,

在缺少被平均标志x的分子资料时,要采用算术平均数,即“缺分子,用算术”。如上述平均计划完成程度,其分子是实际利润额,分母是计划利润额,当已知各企业的利润计划完成程度和计划利润额时(缺少实际利润额),则采用算术平均数。

利润计划完成程度x (%) 80~90 90~100 100~110 合计 企业数 (个) 2 5 3 10 计划利润额 (万元) 500 1600 800 x??xf85?500?95?1600?105?800??96.03% ?f500?1600?800在缺少被平均标志的分母资料时,要采用调和平均数,即“缺分母,用调和。”如例4.6中,

当已知各企业的利润计划完成程度和实际利润额时(缺少计划利润额资料),则采用调和平均数。

中位数(Median)

中位数是一组数据按大小排序后,处于中间位置上的变量值。 1、 对于未分组数据:

(1)如果数据个数为奇数,则中位数恰为处于中间位置的数: Me?X?N?1???2 ??(2)如果数据个数为偶数,则为中间位置两个数的平均数