概率统计小故事 联系客服

发布时间 : 星期二 文章概率统计小故事更新完毕开始阅读4ad19d10ad02de80d4d840de

这里所说的不同“cause”A1,A2,?,An可看作代表未知参数的不同的可能值.以E记在这原因下可能产生的事件(例如,在某参数值之下观察到的样本),拉普拉斯提出:

P(Ai|E)/P(E|Ai)与i无关. (12)

用现今熟知的概率论知识很容易证明(12),但拉普拉斯在其文章中用了一个很复杂的证法.拉普拉斯的原则(12)可用于由P(E|Ai)推P(Ai|E),这与贝叶斯的原则完全一样,也并未超出贝叶斯思想的范围.因此,现在统计学史上也把拉普拉斯视为贝叶斯统计的一个奠基者.

10. 勒让德发明最小二乘法

勒让德是法国大数学家,在数学的许多领域,包括椭圆、积分、数论和几何等方面,都有重大的贡献.最小二乘法最先出现在他于1805年发表的一本题为《计算彗星轨道的新方法》著作的附录中,该附录占据了这本长达80页著作的最后9页.勒让德在这本书前面几十页关于彗星轨道计算的讨论中没有使用最小二乘法,可见在他刚开始写作时,这一方法尚未在他头脑中成形.历史资料还表明,勒让德在参加测量巴黎子午线长这项工作很久以后还未发现这个方法.考虑到此书发表于1805年且该法出现在书尾的附录中,可以推测他发现这个方法应当在1805年或之前不久的某个时间.

勒让德在该书72~75页描述了最小二乘法的思想、具体做法及方法的优点.他提到:使误差平方和达到最小,在各方程的误差之间建立了一种平衡,从而防止了某一极端误差(对决定参数的估计值)取得支配地位,而这有助于揭示系统的更接近真实的状态.的确,考察勒让德之前一些学者的做法,都是把立足点放在解出一个线性方程组上.这种做法对于误差在各方程之间的分布的影响如何,是不清楚的.

- 13 -

在方法的具体操作上,勒让德指出,为实现

?(xi?1n0i?x1i?1??xki?k)2?最小

而对各?i求偏导数所形成的线性方程组

?ksrj?r??0j?0,j?1,?,k,???r?1?n?srj??xrixji,r?0,1,?,k,j?1,?,k.?i?1? (13)

只涉及简单的加、乘运算,至于解线性方程组,这是当时已知的其他方法也难免的.现今我们把(13)叫做正则方程组,这是后来高斯引进的称呼.

关于最小二乘法的优点,勒让德指出了以下几条:第一通常的算术平均值是其一特例.第二,如果观察值全部严格符合某一线性方程,则这个方程必是最小二乘法的解.第三,如果在事后打算弃置某些观察值不用或增加新的观察值,对正则方程组的修改易于完成.从现在的观点看,这方法只涉及解线性方程组是其最重要的优点之一(其他的重要优点包括此法在统计推断上的一些优良性质,以及其广泛的适用性).近年发展起来的,从最小二乘法衍生出的其他一些方法,尽管在理论上有其优点,可是由于计算上的困难而影响了其应用.

最小二乘法在19世纪初发明后,很快得到了欧洲一些国家的天文和地测学工作者的广泛使用.据不完全统计,自1805年至1864年的60年期间,有关这一方法的研究论文约250篇,一些百科全书,包括1837年出版的《不列颠百科全书》(第7版),都收进了有关这个方法的介绍.在研究论文中,有一些是关于最小二乘估计的计算,这涉及解线性方程组.高斯也注意到了这个问题,给出了正则方程组的命名并发展了解方程组的消去法.但是,在电子计算机出现以前,当参数个数(即(13)式中的k)较大时,计算任务很繁重.1858年,英国为绘制本国地图作了一次大型的调查,其数据处理用最小二乘法涉及模型(13)中k=920,n=1 554.用两组人员独立计算,花了两年半的时间才完成.1958年我国某研究所计算一个炼钢方面的课题,涉及用最小二乘法解13个自变量的线性回归,30余

- 14 -

人用电子计算机计算,夜以继日花了一个多月的时间.

勒让德的工作没有涉及最小二乘法的误差分析问题.这一点由高斯在1809年发表的正态误差理论加以补足,详细介绍见后面故事(高斯的正态误差理论).高斯的这个理论对于最小二乘法用于数理统计有极其重要的意义.这一点在20世纪哥色特、费歇尔等人发展了正态小样本理论后,尤其明显.正因为高斯这一重大贡献,以及他声称自1799年以来一直使用这个方法,所以人们多把这一方法的发明优先权归于高斯.当时在这两位大数学家之间曾发生优先权之争,其知名度仅次于牛顿和莱布尼兹之间关于微积分发明的优先权之争.近年来还有学者根据有关的文献研究这个问题,也作不出断然的结论.这个公案大概也只能以“两人同时独立做出”来了结.但无论如何,第一个在书面上发表的是勒让德,他有理由占先一些.

我们已指出,最小二乘法是针对形如 x0?x1?1???xk?k?0 的线性关系的观测数据而作出的,现在统计学上把这叫做线性(统计)模型——当然,其含义比最初所赋予它的要广得多.最小二乘法在数理统计学中的显赫地位,大部分来自它与这个模型的联系.另一个原因是它有简单的线性表达式.这不仅使它易于计算,更重要的是,在正态误差的假定下,它有较完善的小样本理论,使基于它的统计推断易于操作且有关的概率计算不难进行.其他的方法虽也可能具有某种优点,但由于缺乏最小二乘法所具备的上述特性,故仍不可能取代最小二乘法的位置,这就是此法得以长盛不衰的原因.

11. 高斯导出误差正态分布

1809年,高斯(Carl Friedrich Gauss,1777—1855)发表了数学和天体力学的名著《绕日天体运动的理论》.在此书末尾,他写了一节有关“数据结合”(data combination)的问题,实际涉及的就是这个误差分布的确定问题.

设真值为?,n个独立测量值为X1,?,Xn.高斯把后者的概率取为

)X?LXn1,f(?X)n??f(Xn??),L(?)?L(?;,(?,;X)?,fX(nX??)X1?f(),n)? (14)

- 15 -

其中f为待定的误差密度函数.到此为止他的做法与拉普拉斯相同.但在往下进行时,他提出了两个创新的想法.

一是他不采取贝叶斯式的推理方式,而径直把使(9)式达到最大的

???(X1,???,Xn)作为?的估计,即使

L(?)?maxL(?)?? (15)

?成立的?.现在我们把L(?)称为样本X1,?,Xn的似然函数,而把满足(15)式的?称为?的极大似然估计.这个称呼是追随费歇尔的,因为他在1912年发表的一篇文章中,明确提到以上概念并非针对一般参数的情形.

如果拉普拉斯采用了高斯这个想法,那他会得出:在已定误差密度为

f(x)?m?m|x|e,???x??.2 (16)

基础上,其中m?0为未知参数.?的估计是样本X1,?,Xn中位数med(X1,?,Xn),即

X1,?,Xn按大小排列居于正中的那一个(n为奇数时),或居于正中的那两个的算

术平均(n为偶数时).这个解不仅计算容易,且在实际意义上,有时比算术平均

X更为合理.不过,即使这样,拉普拉斯的误差分布(16)大概也不可能取得高斯

正态误差那样的地位.原因是X是线性函数,在正态总体下有完善的小样本理论,而med(X1,?,Xn)要用于推断就难于处理了.另外,这里所谈的是一个特定的问题——随机测量误差该如何分布.测量误差由诸多因素形成,每种因素影响都不大.按中心极限定理,其分布近似于正态分布是势所必然.其实,早在1780年左右,拉普拉斯就推广了狄莫佛的结果,得到了中心极限定理的比较一般的形式.可惜的是,他未能把这一成果用到确定误差分布的问题上来.

高斯的第二点创新的想法是:他把问题倒过来,先承认算术平均X是应取的估计,然后去找误差密度函数f以迎合这一点,即找这样的f,使由(15)式决定的?就是X.高斯证明了:这只有在

- 16 -

?