非平衡面板数据的估计方法及应用 联系客服

发布时间 : 星期四 文章非平衡面板数据的估计方法及应用更新完毕开始阅读6395cb05a26925c52cc5bfa7

非平衡面板数据模型的估计方法及应用

摘要:面板数据中,如果每个时期在样本中的个体不完全一样,则被称为非平衡面板数据。文章整理了非

平衡面板数据估计方法的原理和思路,并采用2004-2011年中西部省际非平衡面板数据建立模型对影响中西部引进内资的主要因素进行了实证研究,结果显示,集聚效应因素、地区创新能力与中西部省份引进内资规模显著影响正相关。

关键词:非平衡面板数据;中西部;内资

中图分类号: F224

1 非平衡面板数据的概念

面板数据因具有更多的信息,更大的变异等优点,在近年经济管理的实证研究中得到广泛的应用。迄今为止绝大多数的研究都是基于“平衡面板”进行的,即每个时期在样本中的个体完全一样,然而,有些时候某些个体的数据可能有缺失,如企业倒闭、个体不再参与调查,有的时候又有一些新的个体后来才加入调查中来,再或是一些地区的历史数据要比其他地区更久远,在这些情况下每个时期观测到的个体数并不相同,这就是所谓的“非平衡面板数据”(unbalanced panel)或“不完全面板”incomplete panel。考虑到非平衡面板更符合经济管理问题的实际情况,更有可能是实证研究中被经验设定的标准形式,而在非平衡面板中提取平衡面板,无论是最大化该平衡面板数据中被观测的个体数量还是该平衡面板中总的观测值数量,都会损失样本容量,降低估计效率。更进一步,人为剔除的观察值并非随机,也会破坏样本的随机性。因此,考察与非平衡面板数据相关的计量问题,并比较它们与平衡面板数据的差异受到越来越多研究者的重视。

2 非平衡面板数据的估计方法

面板数据模型的一般形式为:

'Yit???Xit???i??it i?1,...,N;t?1,...,Ti (1)

(1)式中,下标i和t分别代表个体和时间。横截的N是个体数,T是时间序列的维数。α

为一个标量,β是K×1的待估系数矩阵,Xit是第k个解释变量的第i个个体在第t时期的观测值,μi表示不可观测到的个体的特殊效应,νit表示随机扰动。一般而言,平衡面板数据模型有两种处理方法:如果μi与解释变量相关,就将所有变量进行去均值处理然后再进行估计,从而得到固定效应模型;如果μi与解释变量不相关,可以采用随机效应模型。对于固定效应模型,将方程(1)两边对时间取平均可得组间回归式:

Yi???Xi'???i??i (2)

(1)式减去(2)可得离差形式的组内回归式:

Yit?Yi?(Xit?Xi)'??(?it??i) (3)

由于(3)式中已将μi消去,因此,只要(Xit?Xi)'和(?it??i)不相关,就可以用OLS一致地估计β。显然,非平衡面板数据并不影响计算离差形式的组内估计量(within estimator),因此,固定效应模型仍然可以使用。

?随机效应模型假设μi与解释变量不相关,由于μi的存在,同一个体不同时期的扰动项之间存在自相关,即:

??Corr(?i??it,?i??is)???2(/??2???2) t?s (4)

平衡面板数据随机效应方法是先以OLS的残差来估计(σμ2+σ?2),以FE的残差来估计??2,再用广义最小二乘法(FGLS)来估计原模型,即用OLS来估计下面的广义离差模型,

Yit??Yi?(Xit??Xi)'??[(1??)?i?(?it???i)] (5)

其中,?是θ=1-σν/(Tσμ2+σν2)1/2的一致估计量。

对于非平衡面板数据,只要让θi=1-σν/(Tiσμ2+σν2)1/2(Ti为第i个个体的时间维度),可照样进行可行广义最小二乘法(FGLS)估计。但进行非平衡面板随机效应的可行广义最小二乘法(FGLS)估计必须找到合适的方法对其方差组合进行一致的估计(Baltagi and Chang,1994)。非平衡面板的单因素误差回归模型可表示为:

'Yit???Xit??uituit??i??it i?1,...,N;t?1,...,Ti (6)

用向量形式表示,该模型为:

Y?αιn?Xβ?u?Zδ?uu?Z?μ?ν (7)

其中,Y和Z分别n?1和n?K维矩阵,Z?(ιn,X),δ'?(α,β'),n??T,

iZ??diag(ιTi),其中ιTi是元素为1的Ti维向量。

Searle(1971)指出,平衡面板数据模型的方差分析(ANOVA)方法非平衡面板仍然适用且具有无偏性,ANOVA是通过令平方和二次型等于期望值并求解线性方程组得到,可定义组内和组间平方和的两种二次型形式:

',q2?u'Pu (8) q1?uQu其中,Q?diag[ETi],P?diag[JTi],JTi?JT/Ti,ET?IT?JTi,ITi代表Ti阶的

iii单位矩阵,JTi代表Ti?nj维元素都为1的矩阵。根据Swamy和Arora(1972)的建议,我们使用用组间和组内使用两段回归来估计方差分量,即将组内方差和组间方差带入式(8)中的q1和q2得到q1?uQu,q2?uPu,q1和q2的期望值为:

''E(q1)?(n?N?K?1)??2E(q2)?[n?tr((ZPZ)ZZ?ZZ)]???(N?K)??'?1''?22 (9)

令式(9)中的qi与其期望值E(qi)相等,可得到方差分量的Swamy-Arora估计量:

???uQu/(n?N?K?1)???(uPu?(N?K)??)/[n?tr((ZPZ)ZZ?ZZ)]2'2'?1''?2'(10)

Jennrich和Sampson(1976)认为,极大似然估计方法(MLE)也能够非平衡面板数据随机效应模型的方差组合进行估计,其对数似然函数为:

lnL??(n/2)ln(2?)?(n/2)ln??2?0.5ln??(Y?Zδ)'??1(Y?Zδ)/2??2(11)

'其中,??In??Z?Z??diag(ETi)?diag[(1??Ti)JTi],????2/??2。由于?的一

阶条件是非线性的,参数的估计值必须通过迭代法进行数值求解。然而,由于同时给出回归系数估计量而损失了相应的自由度。Patterson和Thompson(1971)提出了受约束的极大似然估计方法(REML)弥补了这个缺点。

另外,在μ和?服从正态分布的前提下,Rao(1971)提出了方差组合的两种估计方法,即最小正态二次无偏估计值(MINQUE)和最小方差二次无偏估计值(MIVQUE),使用这两种估计方法,MIVQUE需要一个方差分量的先验值, 要得到MINQUE估计量,常用的先验初始值分别为单位矩阵(MQ0)和Swamy和Arora的ANOVA估计量(MQA)。Baltagiet al.(2001)经过蒙特卡罗模拟对这些方法进行比较后发现:简便的ANOVA估计量对回归系数的估计最优,而在进行方差组合估计时,?值不同时各种估计方法的表现有所不同。总体来说,ANOVA方法和极大似然估计方法在方差组合以及标准误差的估计中要优于其他方法。

3 非平衡面板模型的应用

改革开放以来,我国经济增长一直保持较高水平,但是区域发展不平衡的问题却越来越突出,中西部地区和东部沿海地区的发展差距不断扩大。中西部地区经济发展滞后最重要的原因之一是资本投入不足,由于本地供给能力有限,招商引资逐渐成为中西部地方政府当前工作的重中之重。中西部地区招商包括对内和对外两个方面,其中,外商投资在我国的区位选择问题一直是理论界的研究热点,基于传统区位理论和新经济地理学理论,相关实证研究大多采用平衡面板数据模型的一些处理方法来考察外资区位选择的影响因素。中西部省份引进内资的来源地以东部沿海经济发达地区为主,绝大多数省份内资到位资金规模是外资的十倍以上,然而,与外资区位选择的研究相反,跨省流动内资的区位选择问题受到的关注较少,考虑到中西部地区是跨区内资的主要流入地,本文将根据近年来的省级数据构建模型深入探讨中西部地区引进内资的影响因素问题。参照对外商投资区位选择影响因素的研究,我们将考察市场规模、创新能力、基础设施水平、劳动力成本、市场化程度、集聚效应、区位等因素等对中西部地区引进内资的影响,因此本文建立模型如下:

CIit????1CONSit??2INNOVit??3TRAFit??4WAGEit??5GOVit??6NONPUit??7FAIit??8NUMi??i??it(12)

CI表示每年各地区引进内资实际到位规模;CONS为市场规模,以地区全社会消费品零售总额表示;INNOV为创新能力,用各地每年的专利授权量来表示;TRAF为基础设施水平,本文选择的是交通基础设施变量交通线路密度,交通线路密度=(公路里程+铁路里程+内河里程)/地区面积;劳动力价格WAGE采用相对劳动工资指标,用各省份二三产业的工资总额和增加值之比来衡量;本文选择两个指标来间接地反映各地区市场化程度的情况:一是政府规模GOV,用政府消费支出占总消费支出的比重表示,二是国有经济比重NONPU,用非公有制企业工业产值在地区工业总产值中所占比重表示;集聚效应本文考察的是投资的集聚效应,衡量指标为上一年的固定资产投资规模FAI;SUM为区位控制变量,中部省份取1,西部省份取0。

中西部地区共有20个省级行政区,因为西藏数据不全,江西内资的统计口径和其他省份不统一,本文样本中共包括18个省份,由于每个省份引进内资统计工作的起始时间不同,研

究的时间序列也不全一致。其中,湖北和山西分别为2008-2011年和2007-2011年的数据,黑龙江、吉林、内蒙古和甘肃为2005-2011年的数据,其余12个省份是2004-2011年的数据,可以看出总样本是一个非平衡面板数据。根据前文所述,人为构建平衡面板会降低估计的效率并破坏随机性,因此,我们将以非平衡面板数据的估计方法进行参数估计。引进内资数据分别来自相关省份历年政府工作报告及商务厅网站,解释变量数据来源于相关年份各省统计年鉴和《中国统计年鉴》。

我们运用Stata11软件对模型(12)进行回归分析,回归之前,先用方差膨胀系数(vif)判断解释变量的多重共线性问题,当vif值大于10时,回归存在有害的多重共线性。从表1的VIF(1)可以看出lnGDP的vif值最高且高于临界值,因此在回归中先将其剔除。剔除lnGDP后,如表的VIF(2)所示,变量的vif值都在临界值之下,不再存在有害的多重共线性。

表1:多重共线性检验结果

CONS

FAI

INNOV

TRAF

NONPU

SUM

WAGE

GOV

VIF(1) VIF(2)

12.55

10.13 5.91

4.52 3.48

3.48 3.47

2.64 2.63

2.40 2.03

1.87 1.80

1.69 1.67

为了确保模型估计结果的准确性和可靠性,并不同估计方法的统计差异,我们分别利用固定效应方法(FE)、ANOVA方法(Swamy-Arora估计量)、极大似然估计方法(MLE)和受约束的极大似然估计方法(REML)进行参数估计,得到的结果如表2所示。

表2:中西部地区引进内资影响因素回归结果

变量

FE

Swamy-Arora

MLE

REML

0.2587***

FAI

(3.39) 0.1475***

INNOV

(4.09) 0.0162

TRAF

(0.22) -7987.7

WAGE

(-1.40) -15.289

GOV

(-0.71)

0.2952*** (4.36) 0.1211*** (3.61) 0.0049 (0.08) -3787.949 (-0.79) -11.84 (-0.63)

0.2934*** (4.40) 0.1224*** (3.66) 0.0057 (0.09) -3979.2 (-0.83) -11.92 (-0.65)

0.3590*** (5.61) 0.0524 (1.57) -0.0438 (-0.86) 3089.1 (0.79) -18.926 (-1.26)