stata笔记 联系客服

发布时间 : 星期二 文章stata笔记更新完毕开始阅读f16cfdabddccda38366baf1e

对于长面板除了可以让不同个体拥有不同的截距项外还可以使其拥有不同的斜率,这成为“变系数模型”,如果其系数为常数,则可分别回归,但如果各个体扰动项相关,则应该把所有个体回归方程叠放,然后使用“似不相关回归”(SUR),但由于参数估计较多,会损失自由度。如果考虑“部分变系数模型”,则SUR不再适用,而应用LSDV法,引入虚拟变量,以及虚拟变量与可变细数解释变量的互动项(参见help xi)

如果将系数看作是随机的,则FGLS估计模型,即利用OLS残差估计协方差矩阵中的参数,然后再使用GLS,命令为:

Xtrc y x1 x2 x3, betas (betas表示显示对每一组系数的估计),其附带参数稳定性检验

虽然面板数据能在一定程度上解决遗漏变量问题,但如果存在内生解释变量,还是需要用工具变量法,先解决遗漏问题,再使用2SLS

对于动态面板,就算是组内估计量(FE)也是不一致的。 差分GMM和水平GMM结合就成了系统GMM估计。 差分GMM的stata命令为:

xtabond depvar [indepvars], lags(p) maxldep(q) pre(varlist) endogenous (varlist) inst(varlist) twostep vce(robust)

如:xtabond lwage occ south smsa ind, lags(2) maxldep(3) pre(wks, lag(1,2)) endogenous(ms, lag(0,2)) endogenous(union, lag(0,2)) twostep vce(robust)

差分GMM存在的前提是扰动项不存在自相关,对此要进行检验,需要扰动项的差分不存在二阶或更高阶自相关即可。

命令为: estat abond ,p小,则存在自相关,P大,则不存在自相关。 更高阶自相关的检验为: estat abond artests(3)

由于使用过多的工具变量,还需要进行过度识别检验 先回归,但要去掉最后的vce(robust) estat sargan 系统GMM的stata命令为:

xtdpdsys depvar[indepvars], lags(p) maxldep(q) pre(varlist) endogenous(varlist) inst(varlist) twostep vce(robust)

若要对比差分GMM和系统GMM的系数和标准差,则用命令: estimates table DGMM SGMM, b se

14.离散被解释变量(通常不适合用OLS,而应该用二值模型,probit logit和多值选择模型) 如果F为标准正态的累积分布函数,则P模型为Probit模型,若F为逻辑分布的累积分布函数,则P模型为Logit模型。计算Logit模型通常比Probit模型更方便。

二值模型的Stata命令为: probit y x1 x2 x3 logit y x1 x2 x3

probit 和logit 的分布函数不同,因此参数不能直接比较,需要分别计算二者的边际效应,再进行比较,STATA进行处理的命令为:

mfx (计算在样本均值处的边际效应)

mfx, at(X1=0) (计算在X1=0时,X2,X3取值样本均值处的边际效应) mfx, eyex (计算在样本均值处的弹性)

predict yhat (计算发生概率的预测值,并记为yhat),对于Logit模型,系数表示解释变量x增加一个单位将引起的“对数几率比”的边际变化。

衡量二值模型的拟合优度采用“准R2”,判断拟合优度还可以通过计算预测准确的百分

比,相应STAT命令为:

estat clas

logti 和probit模型虽然估计系数不同,但其估计系数没有可比性,其mfx计算出的边际效应及准R2与正确预测比几乎一致。

如果接受似然比检验(LR),则可用同方差probit模型估计。在存在异方差的情况下进行probit模型估计为:

hetprob Y X1 X2 X3, het(varlist) 那自相关呢?

多值选择模型:

多值选择模型的stata命令为:

mlogit Y X1 X2 X3, base(#) (多值logit选择模型,base(#)用来指定参照组) mlogit Y X1 X2 X3, rrr base(#) (多值logit选择模型,回报relative risk ratio) mprobit Y X1 X2 X3, base(#) (多值probit选择模型) 排序数列模型的stata命令:ordered probit/logit oprobit Y X1 X2 X3 ologit Y X1 X2 X3 oprobit

预测:predict p2 p3 p4 p5

列出第一个观测值的预测结果: list p2 p3 p4 p5 in 1/1 , ologit

预测:predict r2 r3 r4 r5

列出第一个观测值的预测结果: list r2 r3 r4 r5 in 1/1 , 计数模型

(1)有些被解释变量仅能取非负整数,如金牌数量,看病次数等,一般用泊松回归。Stata命令为

poisson y x1 x2 x2, r (稳健标准差)

estat gof (goodness of fitnes拟合优度检验) 泊松回归的局限是其期望和方差一定相等,但有些被解释变量的方差明显大于期望,即存在“过度分散”,则可以考虑“负二项回归”(negative binomial regression),使用MLE估计。Nbreg y x1 x2 x2, r

如果计数数据中含有大量的零值,则可以使用“零膨胀泊松回归”。这可以Vuong统计量来检验,如果Vuong统计量很大,则选择零膨胀泊松回归或者零膨胀负二项泊松回归。

零膨胀泊松回归的stata命令为:

zip y x1 x2 x3, inflate(varlist) vuong (零膨胀泊松回归)

zipnb y x1 x2 x3, inflate(varlist) vuong (零膨胀负二项回归)

15.受限制的被解释变量(断尾回归、截取回归) 断尾回归stata命令:

truncreg y x1 x2 x3, ll(#) (左边断尾)

truncreg Y X1 X2 X3, ul(#) (右边断尾)

truncreg Y X1 X2 X3,ll(#)ul(#) (双边断尾) 截取回归stata命令: tobit模型 tobit y x1 x2 x3, ll(#)

tobit y x1 x2 x3, ul(#)

tobit y x1 x2 x3, ll(#) ul(#) 样本选择模型的stata命令:

Heckman y x1 x2 x3, select (z1 z2) (默认使用MLE,选择方程的被解释变量为y),最下的似然比检验P很小,则认为样本选择模型适用。

Heckman y x1 x2 x3, select (z1 z2) twostep (两步法,选择方程的被解释变量为y)

Heckman y x1 x2 x3, select (w=z1 z2) (默认使用MLE,选择方程的被解释变量为w)

16时间序列

(平稳时间序列、非平稳时间序列。AR自回归模型、MA为移动平均模型结合起来为ARMA模型、自回归分布滞后模型ADL、向量自回归模型VAR、向量移动平均过程VMA、格兰杰因果检验:条件是变量协整) (1)自相关和偏自相关

corrgrams y, lags (#) 第1至#阶ACF和PACF ac y, lags(#) pac y, lags(#) (2)ARIMA

arima y, ar(1/#),ma(1/#) 或者

arima y, arima(#p,#d,#q) #p表示#阶自回归,#q表示#阶移动平均,#d表示#阶差分达到平稳过程。

检验残差是否存在自相关: predict e1, res

corrgram e1,lags(#) (检查残差是否存在第1到第#阶自相关) (3)ADL和ARMAX ARMAX的stata命令

arima y x1 x2 x3, ar(#) ma(#)

对于时间序列,首先要设置时间项,tset timevar

对于非平稳时间序列,首先要用差分使其平稳:g dx1=d.x1 (当然差分后会缺失一个变量) 如果自相关系数和偏自相关系数都存在断尾,则考虑ARMA模型:理由

计算信息准则estat ic (目的是什么?根据信息准则判断哪一个模型更优)还可以去掉不显著的阶,回归后再运用信息准则比较。 (4)VAR

varsoc x y z, maxlag(#) (计算信息准则,最大滞后期默认值为4),根据信息准则可以估计VAR系统的阶数

var x y z (进行VAR估计,默认滞后期为2) var x y z, lags(1/3) (滞后期为一至三期)

var x y z, lags(3) (滞后期为第三期)

var x y z, dfk (如果样本容量过小,可以用dfk进行自由度调整) var x y z, small (显示小样本统计量)

var x y z, exog(w1, w2) (引入外生变量w1, w2)

varbasic x y z, irf (估计VAR模型,画脉冲响应图,未正交化)

varwle (进行VAR估计后,对每个方程及所有方程的各阶系数联合显著性进行wald检验,wle表示wald lag-exclusion statistics)

varlmar (估计后,对残差是否自相关进行LM检验)

varnorm (检验残差是否服从正态分布)

varstable,graph (进行VAR估计后,检查VAR系统是否为平稳过程,如果平稳则所有特征值都在单位圆内。)

vargranger (估计后,进行格兰杰因果检验)

irf create filename,set (filename) step(#) replace (建立脉冲文件,是脉冲文件“filename”成为当前的脉冲文件,step表示考察几期的脉冲响应函数,默认为8,replace代表替代已有的文件名)

irf graph irf (画脉冲响应图,未正交化) irf graph oirf (画正交化的脉冲响应图)

fcast compute prefix, step(#) (估计VAR后,计算被解释变量的未来#期的预测值,并把预测值赋予被解释变量加上前缀“prefix”之后的变量名,如可以加F-)

fcast graph varlist,observed (执行命令“fcast compute”后,将变量“varlist”所代表的预测值画图,其中“observed”表示与实际观测值比较)

17非平稳的时间序列

有确定性趋势存在的时候,则成为不平稳,去掉时间因素,则成为平稳序列的我们叫它为趋势平稳序列;存在结构变动则为非平稳序列;存在随机趋势则也为非平稳序列。称平稳时间序列为零阶单整,如果时间序列的一阶差分为平稳,则称为一阶单整,也称为单位根过程,D阶差分为平稳,则成为“d阶单整”。单位根是用来检验是否平稳的。如果时间序列存在单位根,则为非平稳序列。

如果序列非平稳,则可能带来A.自回归系数的估计值向左偏向于0;B.t检验失效;C.两个相互独立的变量可能出现伪回归或伪相关。

进行单位根检验的方法有:

(1)DF检验,使用一阶自回归来检验单位根,要求扰动项为独立白噪声,故扰动项无自相关,若有自相关,则可以引入更高阶的滞后项来控制。

(2)ADF检验,多阶。在进行ADF检验时,确定滞后阶数P的大小,采用最大滞后阶数Pmax=[12.(T/100)1/4],(stata命令为:di 12*(t/100)^(1/4) 然后使用由大到小的序贯t规则,看ADF检验中最后一阶回归系数是否显著,也可以使用信息准则。 ADF检验的Stata命令为:

dfuller y (DF检验,不包含滞后差分项) ,若DF统计量较小,则拒绝单位根存在假设。 dfuller y, lags(p) (包含p阶滞后差分项) dfuller y, noconstant (不带常数项) dfuller y, trend (带时间趋势项) dfuller y, regress (显示回归结果)e

(3)phillips-perron 单位根检验(PP检验)

PP检验使用一阶自回归,但使用异方差自相关稳健的标准差对DF统计量进行修正。

pperron y (默认设置带常数项,不带时间趋势项) pperron y,noconstant (不带常数项) pperron y,trend (带时间趋势项) pperron y,regress (显示回归结果)

(4)DF-GLS单位根检验,是去趋势后再使用ADF检验

dfgls y (默认带时间趋势项,自动根据信息准则选择最佳滞后期数) dfgls y,notrend (不带时间趋势项)

(5)KPSS单位根检验,将假设改为“时间序列为平稳”。