大数据时代转变统计数据生产方式问题思考 联系客服

发布时间 : 星期六 文章大数据时代转变统计数据生产方式问题思考更新完毕开始阅读05c1934382c4bb4cf7ec4afe04a1b0717fd5b3b1

观(个体)行政记录、业务和会计核算产生的数据记录不过是统计核算的原材料,由此形成的数据库体系,具有体量大(Volume)、多样性(Variety)、速度快(Velocity)和价值(Value)大密度低的大数据特征。“大数据时代”的统计核算应在这些大数据基础上,遵循一些基本的统计核算规律,对这些“原材料”主要在宏观层面采用交互式的包括“联机分析处理”和“合作整合”方式进行数据挖掘(加工),而不再“纠缠”于微观对象。统计核算规律体现在财富创造(生产)和财富分配两个方面,我们分别概述如下: 财富创造:

增加值=净产出+固定资产折旧=总产出-中间投入+应交增值税 (12)

因为:

中间投入=中间物质投入+中间非物质投入 (13)

应交增值税=产品销项税-应税进项税 (14)

(包括货物和劳务。暂不考虑进项转出和退税影响) 所以:

增加值=【总产出】+【产品销项税】-【中间物质消耗】+【材料进项税】-【中间非物质消耗】+【劳务进项税】(加“【】”强调数据源自相应数据库。下同) (15)

或:增加值=【总产出】-【中间物质消耗+中间非物质消耗】+【应交增值税】 (16) 财富分配:

增加值=分配国家+分配投资者+分配劳动者+分配企业[7] (17)

国民财富分配分为一次分配和再分配。因为,分配包括经营成果和固定资产消耗补偿,前者属于净产出,后者属于固定资产耗费准备。所以,严格意义上,分配的是前者。

营业利润前:

分配国家=【应交增值税+营业利润前各种税-补贴收入】=生产税净额(18)

分配劳动者=【成本和期间费用中的劳动者所得】=劳动者报酬(19) “分配企业”=【固定资产耗费准备】=生产性固定资产折旧(20)

营业利润后:

分配国家=【所得税(收入调节税)】(21) 分配投资者=【分配股东利润】 (22)

分配企业=【营业利润】-【分配股东利润-分配国家(所得税)】+【其它盈余(暂不考虑投资收益和营业外收支)】(23)

【分配国家(所得税)+分配投资者+分配企业】=营业盈余(24)

所以,根据式(17)----式(24):

增加值=【分配国家】+【分配投资者】+【分配劳动者】+【分配企业】

故:

增加值=【应交增值税+营业利润前各种税-补贴收入+所得税】+【分配股东利

润】+【成本和期间费用中的劳动者所得】+(【营业利润】-【所得税-分配股东利润】+【其它盈余】+【生产性固定资产折旧】) (25)

生产是投入与产出的控制(关系调整),分配就是切分生产的“蛋糕”(分配关系调整)。业已存在的式(15)到式(25)构成了国民经济核算的基本关系式,反映了统计核算的一般规律。在大数据概念下,式(16)和式(25)构成多维数据库体系,统一的会计制度(财政部,2006)为采用“联机分析处理”与“合作整合”方式提供了方便,通过数据挖掘,可以生产包括GDP在内的大量统计核算指标数据和判断统计数据质量。

在统计学意义上,基于经济核算规律的再认识,行政登记、业务核算和会计核算数据库与统计核算指标数据库间建立“是什么”的关联分析,除了制度和体制上尚存在障碍外,技术上已经有了重大突破----虚拟化数据中心,在结构化数据库处理上相对也比较成熟。虽

然目前统计界在大数据研发与应用技术上商尚无实质性进展,但是,交互式“联机分析处理”和“合作整合”等大数据分析处理观念必须确立,并努力在制度上及实践上尽快有实质性突破,融入“大数据时代”潮流。

3、转变统计数据生产方式具体应用问题

温故而知新。工商、税务、质监及各种法定公共机构和NGO组织等等登记和业务数据资料,是统计总体的基本信息源,笔者在主持地方2004年全国第一次经济普查中,针对个体经营户普查数据难以直接采集的特殊性,通过工商登记、市场管理、税务管理、卫生管理等登记的数据库资料联合分析,推断个体经营户的普查数据,在不经意间应用了大数据的“联机分析处理”的数据分析方式;2008年—2010年笔者设计并主持地方农业统计方法制度改革,采用农业普查、农业管理部门、畜牧防疫体系、财政部门等行政和业务登记的数据库资料,通过联合分析确定抽样框及样本,采用“联机分析处理”和“合作整合”方式进行数据分析,推断现行农牧业统计报表制度的全部基本统计指标数据,已经直接引入大数据概念及分析处理方法(韩晓明,2010),只是当时尚无“联机分析处理”和“合作整合”数据平台,许多工作都是艰苦的人机互动完成的。在大数据概念下,这些分散于各个部门的资料或信息集合都属于数据库范畴,或者能够构建结构化数据库,比起非结构化数据及数据库应用起来要简单的多。而且,许多统计数据在关系型数据分析基础上,引入大数据分析处理概念及方式后,结果更科学可信。

研究问题不能割断历史,现代是对传统的不断扬弃,以下尝试统计数据生产方式从以描述统计的传统向“大数据时代”的转变[8]。细节决定成败,由于工业统计推断与判断方法可以为统计数据生产方式转变提供简单范例,下文将案举工业统计主要指标,比较前后两者转变。并概述其它专业统计数据生产方式(传统统计方法不再述及,读者可查阅相关专业统计制度或文献资料。)转变思路。

3.1、工业总量统计指标统计与推断方法比较

工业主要统计指标统计方法[9]分述如下: 3.1.1、工业销售产值

工业销售产值是工业生产市场价值的实现的程度,各组成部分统计数据来源:(1)成品价值、(2)对外加工作业价值(较少发生且数额小)、(3)自制设备成本价值(一般企业不发生)和(4)本企业内非生产部门自用产成品成本价值(一般企业不发生)。他们分属于营业收入数据库和产成品数据库。传统方法利用产品平均销售价格和产品销售数量从企业直接计算成品销售产值,再计及(如发生)自制设备、工业性作业和本企业非生产性部门自用量,然后逐级上报汇总得到统计结果。

与传统方法不同,大数据背景下,主营业务收入包括(1)和(2)两项(财政部,2006),由于,商品和服务的价值是工业销售产值的主要成分,营业收入与工业销售产值之间存在着无需再检验的高度正相关性,宏观层面比估计适当可用,简单的数据库交互分析处理即可实现。所以,利用企业公开的营业收入数据库与产成品数据库“联机分析处理”,即可推断工业销售产值(假如没有发生(3)和(4)部分,二者当是什么关系不言而喻)而无需逐个企业计算上报统计。 3.1.2、工业总产值

工业总产值是工业产品的价值形态的规模指标,关乎核算工业增加值的基本指标。与工业销售产值比较,工业总产值包括的内容仅仅是多了一个在产品、自制半成品期末期初价值差额(会计设在产品科目)。从企业层面开始,工业总产值各组成部分传统统计方法要求,计算月工业总产值用产品的月平均销售价格;统计累计工业总产值用产品的累计平均销售价格。所以,累计工业总产值不等于各月工业总产值之和[10]。实践一再证明,这种统计方法不仅繁琐,数据质量难以控制,对生产法核算工业增加值干扰极大,也给分配法核算的工业

增加值增加了可质疑成分。同时,浪费了大量的业务核算和会计核算过程产生的直接数据。并且,这样的处理方式本质上是算数,不具有真正的统计学意义。

国民经济核算以货物和服务为对象,市场价格是估价基础。工业统计以实物产品生产和工业性作业为对象,工业品市场价格是工业总产值的估价基础。因此,除非自用,计入工业总产值的实物产品均应按市场价格估值。但是,对象(实物产品产量)、市场价格与总产值之间的联系没有跳出因果关系为主的描述统计,仍然要按部就班地从企业层面开始计算并汇总。在大数据背景下,工业总产值统计赖以存在的市场价格和实物产品及服务与业务核算和会计核算分属于各自的结构化数据库----基本生产数据库、产成品(明细)数据库、销售(明细)数据库和收入-成本(损益)数据库等。期间存在着的规律和相关性,是我们推断和判断工业总产值统计正确(真实)与否的根据。有了这样的认识基础,对这种分布式数据库分析处理可采用“联机分析处理”方式。并且,采取“按市场价格估值”是基于概率的统计推断,不具体指时空产品价格,就完全挣脱了传统方法的束缚和痼疾。根据业务核算和会计核算规律的式(1)、式(2)、式(10)和式(11),在宏观层面结合比估计,一般情况下有三种估计方法:

由于工业总产值ⅴ主营业务收入(方便起见,用ⅴ表示数据或数据库间的关系。下同),式(1)是产成品存货的市场估值基准,工业总产值与主营业务收入相关程度取决于市场估值的营业成本率。所以,在宏观层面“联机分析处理”损益数据库和产成品库存数据库,可做出估计:

工业总产值≈主营业务收入+(产成品期末库存-产成品期初库存)÷主营业务成本率 (不考虑盘点盈亏)(29)

工业总产值ⅴ制造成本

其间的相关程度取决于市场估值的主营业务成本率或利税率。所以:

工业总产值≈制造成本÷主营业务成本率(30)

或工业总产值≈制造成本×(1+主营业务成本利税率)+期间费用合计(31)

在大数据背景下,对于式(31)中的期间费用合计,我们也不主张简单叠加,而是在宏观层面采用大样本数据,按比估计方法推算。大量的数据可用以证明以上方法的有效性[11]。采用这种直接使用会计核算数据库“联机分析处理”的推断与判断的方法,对于通过控制统计工作质量实现对统计数据质量的控制,有着至关重要的作用,当然也是最有效的方法和措施。其实,控制总产出统计数据的方法远不止于此。从宏观上,还有流转税与总产值、流动资产周转率与总产值等等都存在高度相关性。

意义远非如此,“联机分析处理”中,仅仅利用基本核算规律结合比估计方法就使我们迈出抛开传统走向“大数据时代”统计数据生产方式的一步。如果彻底改变基本数据采集渠道和方式,并引入大数据分析处理方式,在企业层面计算或统计工业总产值就不是必要的。而只需要采集企业基本业务和会计核算过程中形成的数据库进行推断,甚至连虽有似无的现行统计台账都省啦[12]!这个思路及方法忽略了“为什么”而关注“是什么”,无疑是有颠覆性的。并且,同样适合其它各专业总量统计指标数据生产和质量控制。 3.1.3、工业增加值核算问题探源

工业增加值核算需要区分企业主营业务和其他业务,只有主营业务实现的增加值才是工业增加值。难缠的是,依据现行工业增加值核算制度,按生产法与按分配法核算的工业增加值总是存在一定的差距,有些企业差距甚至很大。问题出在两个方面:

第一、按生产法核算工业增加值在工业中间投入中,制造成本(直接消耗和制造费用)中的中间投入,在会计核算上是严格与其他业务成本区分的,不会混淆。但是,会计在期间费用核算上,不再区分主营业务和其他业务各自应承担的部分。因此,也就不能从期间费用数据库中切割出主营业务期间费用,当然也就不能归集其中的中间投入。因此,根据(15)

或(16)式核算的工业增加值事实上被“缩小”了。严格意义上,也就是生产法核算工业增加值只是个“传说”,在实践中无法严格操作。 第二、按分配法核算工业增加值,现行统计制度规定是以营业收入口径为准的,也就是按(18)至(24)式分配的是收入的“蛋糕”。既然分配是“切分生产的‘蛋糕’”,就与生产法核算工业增加值的口径不一致。其实,与GDP核算理论也相悖。并且,在实践中,企业只能区分生产性和非生产性收支,不可能完全严格区分出主营业务与其他业务中的劳动报酬、折旧、生产税净额和营业盈余。2006版(2006年修订)会计准则更加灵活,企业不必详细区分营业收入来源而设置主营业务会计科目(财政部,2006;财政部会计司编写组,2010),更增加了区分增加值上述项目的困难。所以,根据(25)式核算的工业增加值事实上被“夸大”了。严格按分配法核算的工业增加值根本就“不干净”。 “在小数据时代,追求精确度是合理而且可行的。但如今的大数据时代,人们必须能够接受混乱和不确定性。认为每个问题只有一个答案的想法,将日益受到多元思潮的挑战和嘲讽。这些思想上的重大转变所导致的变革,有望颠覆很多传统观念。”(维克托·迈尔·舍恩伯格、肯尼斯·库克耶,2012)。鉴于既“无法操作”又“不干净”这两点,并且,从社会角度看,如果要“干净”的工业增加值,那么,企业其它业务实现的增加值就被“漏”了。所以,从国民生产总值核算角度,本着不重不漏的原则,统计部门由(12)--(16)式和(17)--(25)式的数据生成过程中,只需要区分企业生产性收支和非生产性收支归集企业中间投入、按客体归集分配,并根据(29)式推断企业总产出,建立统计核算与业务核算和会计核算过程形成的数据库间的关联关系,在宏观层面上,一箭双雕地核算包括非工业生产在内的企业增加值。通过相关性分析,使采用比估计推断方法区分主营业务(工业)与其它业务的增加值。 以上分析,帮助我们理解现行统计制度,以及生产法与分配法核算的工业增加值二者不会相等的原因。同时,有助于我们“发现”增加值核算过程中的许多“故事”。当然,本分析不止于工业增加值核算,也为我们设计适应“大数据时代”包括GDP核算等在内的统计制度“留下”了空间。 3.2、其它总量统计指标推断与判断方法举例 3.2.1建筑业总产值统计推断与判断 建筑业总产值与工业总产值统计的主要差别是前者必须计及在产品,后者一般不计在产品;前者在产品采用预算价格,工程结算采用市场价格。后者主要市场价格。理论上讲,建筑业总产值与工业总产值一样,基于业务核算和会计核算存在类似式(1)、式(10)和式(11)关系,也存在类似式(29)到式(31)的关联关系。即: 由于 建筑业总产值ⅴ工程结算收入 可以比估计推断: 建筑业总产值≈工程结算收入+(在产品期末余额-在产品期初余额)÷工程结算成本率 (32) 或 建筑业总产值?工程结算收入?(在产品期末余额-在产品期初余额)?工程结算收入 工程结算成本 (33) 或许不是更好的办法能为实践所用,但是,道理在其中。抛砖引玉,差强人意写在这里供业内人士琢磨吧! 3.2.2、批发零售贸易业商品销售额统计推断与判断 商品销售额与营业收入的内容区别在于,前者是按消费者价格(含增值税)计算的商品销售额,后者是按生产者价格(不含增值税)计算的商品销售收入,还包括了企业非商品销售的营业活动收入。二者的联系构造了商品销售额统计推断与判断的方法。根据业务核算和