(六)開疆?dāng)U土,正態(tài)分布的進(jìn)一步發(fā)展
2.進(jìn)軍近代統(tǒng)計(jì)學(xué)
花開兩朵,各表一枝。上面說了圍繞正態(tài)分布在概率論中的發(fā)展,現(xiàn)在來看看正態(tài)分布在數(shù)理統(tǒng)計(jì)學(xué)中發(fā)展的故事。 這個故事的領(lǐng)銜主演是 Adolphe Quetelet和高爾頓(Galton)。
由于高斯的工作,正態(tài)分布在誤差分析迅速確定了自己的定位,有了這么好的工具,我們可能拍腦袋就認(rèn)為,正態(tài)分布很快 就被人們用來分析其它的數(shù)據(jù),然而事實(shí)卻出乎我們的意料,正態(tài)分布進(jìn)入社會領(lǐng)域和自然科學(xué)領(lǐng)域,可是經(jīng)過一番周折的。
首先我要告訴大家一個事實(shí):誤差分析和統(tǒng)計(jì)學(xué)是兩個風(fēng)馬牛不相及的兩個學(xué)科。 當(dāng)然這個事實(shí)存在的時間是19世紀(jì)初之前。統(tǒng)計(jì)學(xué)的產(chǎn)生最初是與“編制國情報(bào)告”有關(guān),主要服務(wù)于政府部門。 統(tǒng)計(jì)學(xué)面對的是統(tǒng)計(jì)數(shù)據(jù),是對多個不同對象的測量;而誤差分析研究的是觀測數(shù)據(jù), 是對同一個對象的多次測量。因此觀測數(shù)據(jù)和 統(tǒng)計(jì)數(shù)據(jù)在當(dāng)時被認(rèn)為兩種不同行為獲取得到的數(shù)據(jù),適用于觀測數(shù)據(jù)的規(guī)律未必適用于統(tǒng)計(jì)數(shù)據(jù)。 19世紀(jì)的統(tǒng)計(jì)數(shù)據(jù)分析處于一個很落后的狀態(tài),和概率論沒有多少結(jié)合。 而概率論的產(chǎn)生主要和賭博相關(guān),發(fā)展過程中與誤差分析緊密聯(lián)系, 而與當(dāng)時的統(tǒng)計(jì)學(xué)交集非常小。將統(tǒng)計(jì)學(xué)與概率論真正結(jié)合起來推動數(shù)理統(tǒng)計(jì)學(xué)發(fā)展的便是我們的統(tǒng)計(jì)學(xué)巨星Quetelet。
Quetelet這名字或許不如其它數(shù)學(xué)家那么響亮,估計(jì)很多人不熟悉,所以有必要介紹一下。 Quetelet是比利時人,數(shù)學(xué)博士畢業(yè),年輕的時候曾追誰拉普拉斯學(xué)習(xí)過概率論。 此人學(xué)識淵博,涉獵廣泛,腦門上的桂冠包括統(tǒng)計(jì)學(xué)家、數(shù)學(xué)家、天文學(xué)家、社會學(xué)家、 國際統(tǒng)計(jì)會議之父、近代統(tǒng)計(jì)學(xué)之父、數(shù)理統(tǒng)計(jì)學(xué)派創(chuàng)始人。 Quetelet 的最大的貢獻(xiàn)就是將法國的古典概率引入統(tǒng)計(jì)學(xué),用純數(shù)學(xué)的方法對社會現(xiàn)象進(jìn)行研究。
1831年,Quetelet參與主持新建比利時統(tǒng)計(jì)總局的工作。他開始從事有關(guān)人口問題的統(tǒng)計(jì)學(xué)研究。 在這種研究中,Quetelet發(fā)現(xiàn),以往被人們認(rèn)為雜亂無章的、偶然性占統(tǒng)治地位的社會現(xiàn)象, 如同自然現(xiàn)象一樣也具有一定的規(guī)律性。 Quetelet 搜集了大量關(guān)于人體生理測量的數(shù)據(jù),如體重、身高與胸圍等,并使用概率統(tǒng)計(jì)方法來 對數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。但是當(dāng)時的統(tǒng)計(jì)分析方法遭到了社會學(xué)家的質(zhì)疑, 社會學(xué)家們的反對意見主要在于:社會問題 與科學(xué)實(shí)驗(yàn)不同,其數(shù)據(jù)一般由觀察得到,無法控制且經(jīng)常不了解其異質(zhì)因素,這樣數(shù)據(jù) 的同質(zhì)性連帶其分析結(jié)果往往就有了問題,于是社會統(tǒng)計(jì)工作者就面臨一個如何判 斷數(shù)據(jù)同質(zhì)性的問題。Quetelet大膽地提出:
把一批數(shù)據(jù)是否能很好地?cái)M合正態(tài)分布,作為判斷該批數(shù)據(jù)同質(zhì)的依據(jù)。
Quetelet提出了一個使用正態(tài)曲線擬合數(shù)據(jù)的方法,并廣泛的使用正態(tài)分布去擬合各種類型的數(shù)據(jù)。 由此, Quetelet為正態(tài)分布的應(yīng)用拓展了廣闊的舞臺。 正態(tài)分布如同一把屠龍刀,在Quetelet 的帶領(lǐng)下,學(xué)者們揮舞著這把寶刀在各個領(lǐng)域披荊斬棘, 攻陷了人口、領(lǐng)土、政治、農(nóng)業(yè)、工業(yè)、商業(yè)、道德等社會領(lǐng)域, 并進(jìn)一步攻占天文學(xué)、數(shù)學(xué)、物理學(xué)、生物學(xué)、社會統(tǒng)計(jì)學(xué)及氣象學(xué)等自然科學(xué)領(lǐng)域。
正態(tài)分布的下一個推動力來自生物學(xué)家高爾頓,當(dāng)正態(tài)分布與生物學(xué)聯(lián)姻時,近代統(tǒng)計(jì)學(xué)迎來了一次大發(fā)展。 高爾頓是生物統(tǒng)計(jì)學(xué)派的奠基人,他的表哥達(dá)爾文的巨著《物種起源》問世以后,觸動他用統(tǒng)計(jì)方法研究遺傳進(jìn)化問題。 受Quetelet的啟發(fā),他對正態(tài)分布懷有濃厚的興趣,開始使用正態(tài)分布去擬合人的身高、胸圍、以至考試成績等各類數(shù)據(jù), 發(fā)現(xiàn)正態(tài)分布擬合得非常好。他因此相信正態(tài)曲線是適用于無數(shù)情況的一般法則。
然而,對高爾頓而言,這個無處不在的正態(tài)性給他帶來一些困惑。他考察了親子兩代的身高數(shù)據(jù), 發(fā)現(xiàn)遵從同一的正態(tài)分布,遺傳作為一個顯著因素是如何發(fā)揮作用的?1877年, 高爾頓設(shè)計(jì)了一個 叫高爾頓釘板(quincunx, 或者Galton board)的裝置,模擬正態(tài)分布的性質(zhì)用于解釋遺傳現(xiàn)象。
如下圖中每一點(diǎn)表示釘在板上的一顆釘子,它們彼此的距離均相等。 當(dāng)小圓球向下降落過程中,碰到釘子后皆以
設(shè)想在此裝置的中間某個地方 AB 設(shè)一個擋板把小球截住,小球?qū)⒃贏B處聚成正態(tài)曲線形狀,如果擋板上 有許多閥門,打開一些閥門,則在底部形成多個大小不一的正態(tài)分布,而最終的大正態(tài)分布正式這些小 正態(tài)分布的混合。
高爾頓釘板解釋遺傳現(xiàn)象
高爾頓利用這個裝置創(chuàng)造性的把正態(tài)分布的性質(zhì)用于解釋遺傳現(xiàn)象。 他解釋說身高受到顯著因素和其它較小因素的影響,每個因素的影響可以表達(dá)為 一個正態(tài)分布。遺傳作為一個顯著因素,類似圖中底部大小不一的正態(tài)分布中的比較大的正態(tài)分布, 而多個大小不一正態(tài)分布累加之后其結(jié)果任然得到一個正態(tài)分布。
高爾頓在研究身高的遺傳效應(yīng)的時候,同時發(fā)現(xiàn)一個奇特的現(xiàn)象:高個子父母的子女,其身高有 低于其父母身高的趨勢,而矮個子父母的子女,其身高有高于其父母的趨勢,即有“回歸”到普通人平均身高 去的趨勢,這也是“回歸”一詞最早的含義。高爾頓用二維正態(tài)分布去擬合父代和子代身高的數(shù)據(jù), 同時引進(jìn)了回歸直線、相關(guān)系數(shù)的概念,從而開創(chuàng)了回歸分析這門技術(shù)。
可以說,高爾頓是用統(tǒng)計(jì)方法研究生物學(xué)的第一人,他用實(shí)際行動開拓了Quetelet的思想; 為數(shù)理統(tǒng)計(jì)學(xué)的產(chǎn)生奠定了基礎(chǔ)。 無論是 Quetelet 還是高爾頓,他們的統(tǒng)計(jì)分析工作都是以正態(tài)分布為中心的, 在他們的影響下,正態(tài)分布獲得了普遍認(rèn)可和廣泛應(yīng)用,甚至是被濫用, 以至有些學(xué)者認(rèn)為19世紀(jì)是正態(tài)分布在統(tǒng)計(jì)學(xué)中占統(tǒng)治地位的時代。
3. 數(shù)理統(tǒng)計(jì)三劍客
最后,我們來到了20世紀(jì),正態(tài)分布的命運(yùn)如何呢? 如果說19世紀(jì)是正態(tài)分布在統(tǒng)計(jì)學(xué)中獨(dú)領(lǐng)風(fēng)騷的話,20世紀(jì)則是數(shù)理統(tǒng)計(jì)學(xué)蓬勃發(fā)展、百花齊放的時代。 1901年,高爾頓和他的學(xué)生卡爾.皮爾遜(Karl Pearson)、韋爾登(W.F.R Weldon) 創(chuàng)辦《生物計(jì)量(Biometrika)》雜志,成為生物統(tǒng)計(jì)學(xué)派的一面旗幟,引導(dǎo)了現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的大發(fā)展。 統(tǒng)計(jì)學(xué)的重心逐漸由歐洲大陸向英國轉(zhuǎn)移,使英國在以后幾十年數(shù)理統(tǒng)計(jì)學(xué)發(fā)展的黃金時代充當(dāng)了領(lǐng)頭羊。
在20世紀(jì)以前,統(tǒng)計(jì)學(xué)所處理的數(shù)據(jù)一般都是大量的、自然采集的,所用的方法以 拉普拉斯中心極限定理為依據(jù),總是歸結(jié)到正態(tài)。到了19世紀(jì)末期,數(shù)據(jù)與正態(tài)擬合不好的情況也日漸為人們所注意: 進(jìn)入20世紀(jì)之后,人工試驗(yàn)條件下所得數(shù)據(jù)的統(tǒng)計(jì)分析問題,日漸被人們所重視。 由于試驗(yàn)數(shù)據(jù)量有限,那種依賴于近似正態(tài)分布的傳統(tǒng)方法開始招致質(zhì)疑,這促使人們研 究這種情況下正確的統(tǒng)計(jì)方法問題
在這個背景之下,統(tǒng)計(jì)學(xué)三大分布
第一位劍客就是卡爾.皮爾遜(Karl Pearson),手中的寶劍就是
第二位劍客是戈塞特(Gosset),筆名是大家都熟悉的學(xué)生氏(Student),而他手中的寶劍是
第三位劍客是費(fèi)希爾(R.A.Fisher),手持
費(fèi)希爾還未出道,皮爾遜已經(jīng)是統(tǒng)計(jì)學(xué)的武林盟主了,兩人歲數(shù)相差了33歲,而戈塞特介于他們中間。 三人在統(tǒng)計(jì)學(xué)擂臺上難免切磋劍術(shù)。費(fèi)希爾天賦極高,年少氣盛;而皮爾遜為人強(qiáng)勢, 占著自己武林盟主的地位,難免固執(zhí)己見,以大欺小;費(fèi)希爾著實(shí)受了皮爾遜不少氣。 而戈塞特性格溫和,經(jīng)常在兩人之間調(diào)和。畢竟是長江后浪推前浪,一代新人換舊人, 在眾多擂臺比試中,費(fèi)希爾都技高一籌,而最終取代了皮爾遜成為數(shù)理統(tǒng)計(jì)學(xué)第一大劍客。
由于這三大劍客和統(tǒng)計(jì)三大分布的出現(xiàn),正態(tài)分布在數(shù)理統(tǒng)計(jì)學(xué)中不再是一枝獨(dú)秀, 數(shù)理統(tǒng)計(jì)的領(lǐng)地基本上是被這三大分布搶走了半壁江山。不過這對正態(tài)分布而言并非壞事,我們細(xì)看這三大分布的數(shù)學(xué)細(xì)節(jié): 假設(shè)獨(dú)立隨機(jī)變量
你看這三大分布哪一個不是正態(tài)分布的嫡系血脈,沒有正態(tài)分布就生不出
20世紀(jì)初,統(tǒng)計(jì)學(xué)這三大劍客成為了現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的奠基人。以哥塞特為先驅(qū),費(fèi)歇爾為主將, 掀起了小樣本理論的革命,事實(shí)上提升了正態(tài)分布在統(tǒng)計(jì)學(xué)中的地位。 在數(shù)理統(tǒng)計(jì)學(xué)中,除了以正態(tài)分布為基礎(chǔ)的小樣本理論獲得了空前的勝利,其它分布上都沒有成功的案例, 這不能不讓人對正態(tài)分布刮目相看。在隨后的發(fā)展中,相關(guān)回歸分析、多元分析、方差分析、因子分析、 布朗運(yùn)動、高斯過程等等諸多統(tǒng)計(jì)分析方法陸續(xù)登上了歷史舞臺, 而這些和正態(tài)分布密切相關(guān)的方法,成為推動現(xiàn)代統(tǒng)計(jì)學(xué)飛速發(fā)展的一個強(qiáng)大動力。
聯(lián)系客服