学术论文中常用数理统计方法的正确使用问题 联系客服

发布时间 : 星期日 文章学术论文中常用数理统计方法的正确使用问题更新完毕开始阅读18689344178884868762caaedd3383c4bb4cb4fe

相关分析与回归分析均为研究2个或多个随机变量间关联性的方法,但2种数理统计方法存在本质的差别,即它们用于不同的研究目的。相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。在相关分析中,两个变量必须同时都是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析。这是相关分析方法本身所决定的。对于回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决定的),而自变量则可以是普通变量(规范的叫法是“固定变量”,有确定的取值)也可以是随机变量。如果自变量是普通变量,采用的回归方法就是最为常用的“最小二乘法”,即模型Ⅰ回归分析;如果自变量是随机变量,所采用的回归方法与计算者的目的有关---在以预测为目的的情况下,仍采用“最小二乘法”,在以估值为目的的情况下须使用相对严谨的“主轴法”、“约化主轴法”或“Bartlett法”,即模型Ⅱ回归分析。显然,对于回归分析,如果是模型Ⅰ回归分析,就根本不可能回答变量的“相关性”问题,因为普通变量与随机变量之间不存在“相关性”这一概念(问题在于,大多数的回归分析都是模型Ⅰ回归分析!)。此时,即使作者想描述2个变量间的“共变趋势”而改用相关分析,也会因相关分析的前提不存在而使分析结果毫无意义。如果是模型Ⅱ回归分析,鉴于两个随机变量客观上存在“相关性”问题,但因回归分析方法本身不能提供针对自变量和因变量之间相关关系的准

确的检验手段,因此,若以预测为目的,最好不提“相关性”问题;若以探索两者的“共变趋势”为目的,建议作者改用相关分析。

需要特别指出的是,回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此,这极易使作者们错误地理解R2的含义,认为R2就是 “相关系数”或“相关系数的平方”。问题在于,对于自变量是普通变量(即其取值具有确定性)、因变量为随机变量的模型Ⅰ回归分析,2个变量之间的“相关性”概念根本不存在,又何谈“相关系数”呢?(说明:二元回归可决系数符号用小写r2) 5 显著性水平

相关分析及正态分布检验等均为基于假设检验的统计分析方法。而显著性水平的确定是假设检验中至关重要的问题。显著性水平反映了拒绝某一原假设时所犯错误的可能性。通常,拒绝客观上正确的原假设的几率用α值表示,该值被称为假设检验的显著性水平(Significant level)。α值一般在进行假设检验前由研究者根据需要确定,常用的取值是0.05或0.01。对于前者,相当于在原假设事实上正确的情况下,研究者接受这一假设的可能性为95%;对于后者,则研究者接受事实上正确的原假设的可能性为99%。显然,降低α值可以减少拒绝原假设的可能性。因此,在报告统计分析结果时,必须给出α值。在进行统计分析时,各种统计软件通常在给出检验统计量的同时,也给出该检验统计量

取值的相伴概率(即某特定取值及更极端可能值出现的准确概率,用p表示)。p值是否小于事先确定的α值,是接受或拒绝原假设的依据。如果p值小于事先已确定的α值,就意味着原假设成立的可能性很小,因而可以拒绝原假设。相反,如果p值大于事先已确定的α值,就意味着原假设成立的可能性较大,因而不能拒绝原假设。在计算机软件尚不普及的情况下,计算检验统计量并与特定显著性水平的临界值比较是简洁的方法,但在计算机软件很普及的今天,建议直接使用p值进行统计推断,并在结果中给出p,以表达精确错误率。

以二元相关分析为例,相关分析中的原假设是“相关系数为零”(即2个随机变量间不存在显著的相关关系)。如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),就可以认为“相关系数为零”的可能性很低, 2个随机变量之间存在明显的相关关系。与相关分析不同,在正态分布检验时,原假设是“样本数据来自服从正态分布的总体”。此时,如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),则表明数据不服从正态分布。

在本刊来稿中,作者在描述相关分析结果时常有的失误是仅给出相关系数的值,而不给出显著性水平。这就无法判断2个随机变量间的相关性是否显著。此外,作者在论文中常常用“显著相关”和“极显著相关”来描述相关分析结果,即认为p值小于0.05就是显著相关关系(或显著相关),小于0.01就是极显著相关

关系(或极显著相关)。显然,这也是不规范的。在假设检验中,只有 “显著”和 “不显著”,没有“极显著”这样的提法(令人遗憾的是,有些统计软件教程中也有此种提法)。只要计算出的检验统计量的相伴概率(p值)低于事先确定的α值,就可以认为检验结果“显著”(相关分析的原假设是“相关系数为零”,故此处的“显著”实际意味着“相关系数不为零”,或说“2个随机变量间有显著的相关关系”);同样,只要计算出的检验统计量的相伴概率(p值)高于事先确定的α值,就可以认为检验结果“不显著”。因此,不能认为p值小于0.05就是“显著相关”, p值小于0.01就是“极显著相关”。换言之,在进行相关分析时,不能同时使用0.05和0.01这2个显著性水平来决定是否拒绝原假设,只能使用其中的1个。规范的做法是指出在什么α值(0.01或0.05)下是否显著相关并在括号中给出p值。需要指出的是,有少数作者在报告二元相关分析结果时,针对p值大于0.05的情形宣称“2个随机变量有相关性但不显著”。这种说法是自相矛盾的。“有相关性”就意味着“检验结果显著”,“检验结果不显著”就意味着 “不存在相关性”。在二元相关分析中,如果事先确定的α值为0.05,则只要p值大于0.05,2个随机变量之间就不存在相关关系。反之, 如果2个随机变量间存在相关关系,则p值应小于0.05。