一般說到概率,就喜歡拿拋硬幣做例子。大多數(shù)時(shí)候,會簡單認(rèn)為硬幣正背面的概率各為二分之一,其實(shí)事情遠(yuǎn)沒有這么簡單。這篇文章會以拋硬幣試驗(yàn)為例子并貫穿全文,引出一系列概率論和數(shù)理統(tǒng)計(jì)的基本內(nèi)容。這篇文章會涉及的有古典概型、公理化概率、二項(xiàng)分布、正態(tài)分布、最大似然估計(jì)和假設(shè)檢驗(yàn)等一系列內(nèi)容。主要目的是以拋硬幣試驗(yàn)為例說明現(xiàn)代數(shù)學(xué)觀點(diǎn)下的概率是什么樣子以及以概率論為基礎(chǔ)的一些基本數(shù)理統(tǒng)計(jì)方法。
概率的存在性
好吧,首先我們要回答一個基本問題就是概率為什么是存在的。其實(shí)這不是個數(shù)學(xué)問題,而是哲學(xué)問題(貌似一般存在不存在啥的都是哲學(xué)問題)。之所以要先討論這個問題,是因?yàn)槿魏螖?shù)學(xué)活動都是在一定哲學(xué)觀點(diǎn)前提下進(jìn)行的,如果不明確哲學(xué)前提,數(shù)學(xué)活動就無法進(jìn)行了(例如如果在你的哲學(xué)觀點(diǎn)下概率根本不存在,那還討論啥概率論?。?。
概率的存在是在一定哲學(xué)觀點(diǎn)前提下的,我不想用哲學(xué)術(shù)語拽文,簡單來說,就是你首先得承認(rèn)事物是客觀存在的,并可以通過大量的觀察和實(shí)踐被抽象總結(jié)。舉個例子,我們經(jīng)常會討論“身高”,為什么我們都認(rèn)為身高是存在的?因?yàn)槲覀兘?jīng)過長期的觀察實(shí)踐發(fā)現(xiàn)一個人身體的高度在短期內(nèi)不會出現(xiàn)大幅度的變動,因此我們可以用一個有單位的數(shù)字來描述一個人的身體在一段不算長的時(shí)間內(nèi)相對穩(wěn)定的高度。這就是“身高”作為被普遍承認(rèn)存在的哲學(xué)前提。
與此相似,人們在長期的生活中,發(fā)現(xiàn)世界上有一些事情的結(jié)果是無法預(yù)料的,例如拋硬幣得到正面還是背面,但是,后來有些人發(fā)現(xiàn),雖然單次的結(jié)果不可預(yù)料,但是如果我不斷拋,拋很多次,正面結(jié)果占全部拋硬幣次數(shù)的比率是趨于穩(wěn)定的,而且次數(shù)越多越接近某個固定的數(shù)值。換句話說,拋硬幣這件事,單次結(jié)果不可預(yù)料,但是多次試驗(yàn)的結(jié)果卻在總體上是有規(guī)律可循的(術(shù)語叫統(tǒng)計(jì)規(guī)律)。
下面是歷史上一些著名的拋硬幣試驗(yàn)的數(shù)據(jù)記錄:
試驗(yàn)者試驗(yàn)次數(shù)正面次數(shù)正面占比
德摩根4092204850.05%
蒲豐4040204850.69%
費(fèi)勒10000497949.79%
皮爾遜240001201250.05%
羅曼洛夫斯基806403969949.23%
可以看到,雖然這些試驗(yàn)在不同時(shí)間、不同地點(diǎn)由不同的人完成,但是冥冥中似乎有一股力量將正面的占比固定在50%附近。
后來,人們發(fā)現(xiàn)還有很多其它不可預(yù)測的事情都與拋硬幣類似,例如擲骰子、買六合彩等等,甚至漸漸發(fā)現(xiàn)不只這些簡單的事情,人類社會方方面面從簡單到復(fù)雜的很多不可預(yù)測的事情宏觀上看都具有統(tǒng)計(jì)規(guī)律。于是人們推測,在某些條件下的一些不可預(yù)測事件,都是有統(tǒng)計(jì)規(guī)律的,或者直觀說很多不可預(yù)測結(jié)果的試驗(yàn)在多次進(jìn)行后總體上看結(jié)果會趨近于一些常數(shù)(這個現(xiàn)象后來被嚴(yán)格定義為大數(shù)定律,成為概率論最基礎(chǔ)的定理之一,下文會提到)。這種可觀測現(xiàn)象,成為概率存在的哲學(xué)基礎(chǔ),而這些常數(shù)就是概率在樸素觀點(diǎn)下的定義。
概率模型
在認(rèn)識到上述事實(shí)后,人們希望將這種規(guī)律加以利用(人類文明的發(fā)展不就是發(fā)現(xiàn)和利用規(guī)律么,呵呵),但是想要利用就首先要對概率進(jìn)行嚴(yán)格的形式化定義,也就是要建立數(shù)學(xué)模型。比較知名的數(shù)學(xué)模型有古典概型、幾何概率模型和公理化概率,本文將會討論古典概型和公理化概率。
古典概型
古典概型是人類對概率和統(tǒng)計(jì)規(guī)律最早的建模嘗試,表達(dá)了樸素的數(shù)學(xué)原則下人們對概率的認(rèn)識。在表述古典概型之前,需要先定義一些概念。
首先是隨機(jī)試驗(yàn)。
如果一個同時(shí)試驗(yàn)滿足下面三條原則,則這個試驗(yàn)稱為隨機(jī)試驗(yàn):
1、可在相同條件下(相對來說)重復(fù)進(jìn)行。
2、可能出現(xiàn)的結(jié)果不止一個,但事先明確知道所有可能的結(jié)果(可以是無限個,例如所有自然數(shù),但必須事先明確知道結(jié)果的取值范圍)。
3、事先無法預(yù)測在一次試驗(yàn)中哪一個結(jié)果會出現(xiàn)。
顯然上面的拋硬幣試驗(yàn)是一個隨機(jī)試驗(yàn)。
然后需要定義樣本空間和樣本點(diǎn)。一個隨機(jī)試驗(yàn)的樣本空間是這個試驗(yàn)所有可能結(jié)果組成的集合,而其中每個元素是一個樣本點(diǎn)。例如,拋硬幣試驗(yàn)中,樣本空間為
,其中F表示正面,B表示背面,而F、B就是兩個樣本點(diǎn)。
另一個非常重要的概念就是隨機(jī)事件(簡稱事件):樣本空間的一個子集稱為一個事件。例如,拋硬幣試驗(yàn)有四個不同的事件:
,
,
,
,分別表示“既不出現(xiàn)正面也不出現(xiàn)反面”,“出現(xiàn)正面”,“出現(xiàn)反面”和“出現(xiàn)正面或反面”。在不考慮硬幣立起來等特殊情況時(shí),第一個事件不可能出現(xiàn),但它確實(shí)是一個合乎定義的事件,叫不可能事件;而最后一個事件必然出現(xiàn),叫必然事件。
有了上面概念,就可以定義古典概型了:
如果一個概率模型滿足 1)樣本空間是一個有限集合,2)每一個基本事件(只包含一個樣本點(diǎn)的事件)出現(xiàn)的概率相同,則這是一個古典概型。例如,在上面的拋硬幣試驗(yàn)中,再定義
,
的概率均為0.5,則就構(gòu)成了一個古典概型。
古典概型簡單、直觀,在早期的概率研究中廣泛被使用。但是這個模型太樸素太不嚴(yán)格了,在這種不完善的定義下,根本沒有辦法做嚴(yán)格的數(shù)學(xué)推理,而且有限樣本空間和等可能性在很多現(xiàn)實(shí)隨機(jī)試驗(yàn)中并不滿足,甚至對等可能不同定義會導(dǎo)致不同結(jié)論。因此必須使用一個更嚴(yán)格的定義,以符合現(xiàn)代數(shù)學(xué)公理化推導(dǎo)的要求,這就是公理化概率。
公理化概率
公理化概率對概率做如下定義:
概率是事件集合到實(shí)數(shù)域的一個函數(shù),設(shè)事件集合為E,則如若
滿足:
對于任意事件A,
。
對于必然事件S,
。
對于兩兩互斥的事件,有
。
公理化概率對概率做了嚴(yán)格的數(shù)學(xué)定義,可以較好的基于公理系統(tǒng)進(jìn)行推導(dǎo)和證明。但是,概率模型只是給出了概率“是什么”(定性),沒有回答“是多少”(定量)這個問題。也就是說,僅有概率模型,是不能定量回答拋硬幣問題的。下面介紹對概率進(jìn)行定量分析的方法。
度量與估計(jì)概率
從公理化概率的角度,我們可以這樣定義拋硬幣試驗(yàn)的概率:設(shè)
是全部拋硬幣的次數(shù),而
是正面向上的次數(shù),則如下函數(shù)定義了這個概率:
容易驗(yàn)證,這個定義完全符合公理化概率的所有條件。下面就是確定
和
。不幸的是,顯然N是無法窮盡的,因?yàn)槔碚撋夏悴豢赡軖仧o數(shù)次硬幣。由于不能精確度量這個概率,因此你必須通過某個可以精確度量的值去估計(jì)這個概率,而且還要從數(shù)學(xué)上證明這個估計(jì)方法是靠譜的,最好能定量給出這個估計(jì)量的可信程度。而對不可直接觀測概率的一個估計(jì)度量值就是頻率。
頻率估計(jì)
頻率是這樣定義的:事件A的頻率是在相同條件下重復(fù)一個實(shí)驗(yàn)n次,事件A發(fā)生的次數(shù)在n次實(shí)驗(yàn)中的占比。一種簡單的估計(jì)概率的方法就是用頻率當(dāng)做概率的估計(jì)。
例如,我剛剛拋完十次硬幣,其中六次正面,四次背面,因此根據(jù)此次實(shí)驗(yàn),我估計(jì)我這枚硬幣出現(xiàn)正面的概率為0.6。這就是頻率估計(jì)。
不過你一定有疑惑,為什么可以使用頻率估計(jì)概率?有上面理論依據(jù)?如何對估計(jì)的準(zhǔn)確性做出定理的分析?下面解答這些問題。
大數(shù)定律
頻率估計(jì)的理論基礎(chǔ)是大數(shù)定律。毫不夸張的說,大數(shù)定律是整個現(xiàn)代概率論和統(tǒng)計(jì)學(xué)的最重要基石,幾乎一切統(tǒng)計(jì)方法的正確性都依賴于大數(shù)定律的正確,因此大數(shù)定律被有些人稱為概率論的首要定律。
大數(shù)定律直觀來看表述了這樣一種事實(shí):在相同條件下,隨著隨機(jī)試驗(yàn)次數(shù)的增多,頻率越來越接近于概率。注意大數(shù)定律陳述的是一個隨著n趨向于無窮大時(shí)頻率對真實(shí)概率的一種無限接近的趨勢。
下面給出大數(shù)定律的數(shù)理表述,大數(shù)定律有多重?cái)?shù)學(xué)表述,這里取伯努利大數(shù)定律:
其中
表述在n次試驗(yàn)中事件x出現(xiàn)的次數(shù)。伯努利大數(shù)定律代表的意義是,當(dāng)試驗(yàn)次數(shù)越來越多,頻率與概率相差較大的可能性變得很小。大數(shù)定律從數(shù)學(xué)上嚴(yán)格證明了頻率對概率的收斂性以及穩(wěn)定性。這就是頻率估計(jì)的理論基礎(chǔ)。在后面關(guān)于中心極限定理的部分,還將定量給出估計(jì)的置信度(表示這個估計(jì)有多可靠)。
最大似然估計(jì)
下面給出另一種估計(jì)概率的方法,就是最大似然估計(jì)。最大似然估計(jì)是參數(shù)估計(jì)的一種方法,用于在已知概率分布的情況下對分布函數(shù)的參數(shù)進(jìn)行估計(jì)。而這里分布函數(shù)的參數(shù)剛好是要估計(jì)的概率。
最大似然估計(jì)基于這樣一個樸素的思想:如果已經(jīng)得到一組試驗(yàn)數(shù)據(jù),在概率分布已知的情況下,可以將出現(xiàn)這組試驗(yàn)數(shù)據(jù)的概率表述為分布函數(shù)參數(shù)的函數(shù)。
看到上面的話很多人肯定又暈了,我還是舉個具體的例子吧(非數(shù)學(xué)嚴(yán)格的例子,但思想一致)。我來到一所陌生的大學(xué)門口,想知道這所大學(xué)男生多還是女生多,我蹲在校門口數(shù)了走出校門的100名同學(xué),發(fā)現(xiàn)80個男生20個女生,如果我認(rèn)為這所學(xué)校每個學(xué)生這段時(shí)間內(nèi)出校門的概率都是差不多的,那么我會推斷男生多。因?yàn)槟猩嗟膶W(xué)校更大可能性產(chǎn)生我觀察的結(jié)果。所以,最大似然估計(jì)的核心思想就是:知道了結(jié)果,但不知道結(jié)果所在總體的情況,然后計(jì)算在總體在每種可能下產(chǎn)生這個結(jié)果的概率,哪種情況下產(chǎn)生已知結(jié)果的概率最大,就認(rèn)為這種情況是總體的情況。
下面正式使用這個方法估計(jì)硬幣正面出現(xiàn)的概率。
還是上面的實(shí)驗(yàn),我已經(jīng)得到“拋了十次,六次正面”這個結(jié)果,下面我想知道正面向上的概率。由于這個概率是一定存在的(第一節(jié)已經(jīng)說明了哈,在既定哲學(xué)觀點(diǎn)下),而且這個概率的取值范圍應(yīng)該是0到1的開區(qū)間(正面背面都出現(xiàn)過,所以不可能是0或1):
由一些背景知識知道,每拋十次硬幣,正面出現(xiàn)的次數(shù)服從二項(xiàng)分布:
由于已知n=10,k=6,將其帶入,得到一個函數(shù):
其中p的定義域?yàn)?div id="fbwnfa5u" class='imgcenter'>
。這個函數(shù)表示的是,當(dāng)出現(xiàn)正面的真實(shí)概率為p時(shí),“拋十次六次正面”這個事件出現(xiàn)的概率。我們希望估計(jì)的p讓這個函數(shù)取值最大,以下是求解過程:
因?yàn)樵?0,1)區(qū)間,ln(x)是x的單調(diào)遞增函數(shù),所以最大化lnL(p)就等于最大化L(p)。這樣做主要是取對數(shù)可以讓連乘變成連加,方便后面求導(dǎo)。
由微積分知識可知:
讓這個導(dǎo)數(shù)為0,解得p為0.6,這就是我們對概率的最大似然估計(jì),與概率估計(jì)的結(jié)果一致。
顯著性及假設(shè)檢驗(yàn)
到此為止,我們已經(jīng)說明了概率是存在的、建立了概率的數(shù)學(xué)模型,并能對不可直接觀測的概率進(jìn)行估計(jì)。但似乎還缺點(diǎn)什么。
大數(shù)定律只說明了理論上我們的估計(jì)是靠譜的,但是到底有多靠譜,卻無法通過大數(shù)定律定量計(jì)算。這一節(jié),我們就來解決這個問題:定量計(jì)算出估計(jì)的可靠性(術(shù)語叫顯著性)。
評估顯著性
還是上面我拋那十次硬幣的試驗(yàn)。根據(jù)最優(yōu)的頻率估計(jì)和最大似然估計(jì),均估計(jì)p(出現(xiàn)正面的概率)為0.6。但是如果有人提出異議,說我的估計(jì)可能是錯的,p實(shí)際是0.5,我那個出現(xiàn)六次正面是因?yàn)橹皇桥既恍缘慕Y(jié)果。這時(shí)我需要找證據(jù)反駁他,由于不能做無數(shù)次試驗(yàn),我只能給出一個較高可信度的證據(jù),例如,我想證明至少95%的可能性出現(xiàn)六次正面是因?yàn)閜不等于0.5,也就是說,證明如果p為0.5,則偶然出現(xiàn)我這個結(jié)果的可能性不超過5%(5%稱作顯著水平)。
中心極限定理
要評估顯著性,首先要借助于中心極限定理。中心極限定理也是統(tǒng)計(jì)學(xué)的基石定理之一,它的一種表述是:
設(shè)隨機(jī)變量
獨(dú)立同分布,且數(shù)學(xué)期望為
,方差為
。則其均值
近似服從期望為
,方差為
的正態(tài)分布。等價(jià)的,
近似服從標(biāo)準(zhǔn)正態(tài)分布。
中心極限定理的直觀意義是,隨便一個服從什么的總體中,你獨(dú)立隨機(jī)的抽取一組樣本,那么樣本的均值服從正態(tài)分布,并且可以根據(jù)總體的期望和方差推導(dǎo)出這個均值服從的正態(tài)分布的期望和方差,然后簡單變換一下就可以得到一個服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)量。由于標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)是已知的,那么就可以得到這個量出現(xiàn)的概率。
這樣說貌似太抽象了,我們下面還是看這個定理的應(yīng)用實(shí)例吧。
假設(shè)檢驗(yàn)
上面說過,我要反駁的是拋硬幣得到正面的實(shí)際概率是0.5,那么我就要證明如果p是0.5,則得到這組結(jié)果的概率是很小的(上面要求小于5%)。
設(shè)正面取值為1,背面取值為0。如果p是0.5,則每一次拋硬幣的取值服從一個p為0.5的0-1分布。由期望及方差的定義可知,這個分布的期望和方差分別為:
由中心極限定理
近似服從標(biāo)準(zhǔn)正態(tài)分布。
而我拋的十次硬幣可以看做十個獨(dú)立隨機(jī)抽樣,它們的均值是0.6,變換后的值為
。
標(biāo)準(zhǔn)正態(tài)分布的概率密度公式為:
上面說過,我們希望顯著水平是5%,所以,我需要找到x=z,使得此概率密度函數(shù)從-z到z的定積分為0.95,然后看0.632在不在[-z, z]內(nèi),如果在的話,我會認(rèn)為我確實(shí)錯了,至少我沒有95%以上的把握說p不等于0.5,而如果0.632不再這個范圍內(nèi),則我可以拍著胸脯說,我已經(jīng)從理論上證明我有95%以上的把握,p不是0.5(換句話說,如果p是0.5,拋十次六次正面的可能性不足5%)。
坦白說這個z不是很好算,不過還好由于這東西特別常用,任何一本概率課本后面都可以找到標(biāo)準(zhǔn)正態(tài)分布表(或者很多工具如R語言可以直接計(jì)算分位點(diǎn)),下面就是我在網(wǎng)上找到的一個(來源
http://www.mathsisfun.com/data/standard-normal-distribution-table.html):
這是一個單側(cè)表,要保證顯著水平為5%,則單側(cè)積分上限不能低于0.475,通過查上表,可知0.475對應(yīng)的z是1.96,遠(yuǎn)大于我們算出的0.632。很不幸,我在5%的顯著水平下無法拒絕p=0.5的假設(shè)。同時(shí)通過上表可以看到,0.63對應(yīng)的單側(cè)概率是0.2357,也就是說,通過拋十次得到六次正面,我們只有約50%的把握說出現(xiàn)正面的概率不是0.5。換句話說,拋十次硬幣來做頻率估計(jì)是不太合適的,于是,我們需要增加試驗(yàn)次數(shù)。
假如,我又做了100次實(shí)驗(yàn),拋出了60次正面,40次背面。那么這個試驗(yàn)結(jié)果可以顯著的認(rèn)為p不是0.5嗎?用同樣的方法算出
。很顯然,2.0大于1.96,所以這個試驗(yàn)結(jié)果可以充分(超過95%的可能)說明這枚硬幣正面朝上的概率確實(shí)不是0.5。通過查表可以看到,2.0的顯著水平約為0.046,換句話說,這次試驗(yàn)結(jié)果95.4%以上表明硬幣正面出現(xiàn)的概率不是0.5。當(dāng)然,也有可能結(jié)論是錯誤的,因?yàn)楫吘惯€有4.6%的可能這是在p=0.5的情況下偶然出現(xiàn)的。
通過假設(shè)檢驗(yàn)理論,可以通過增加試驗(yàn)次數(shù),將犯錯的概率縮小到任意小的值。
總結(jié)
這篇文章以拋硬幣試驗(yàn)為引子引出了一系列現(xiàn)代數(shù)學(xué)中概率的基本模型、定理及基本的估計(jì)及顯著性檢驗(yàn)方法。寫這篇文章是我無聊拋硬幣時(shí)一時(shí)興起,其中對很多東西只是給出一個輪廓,沒有處處給出嚴(yán)格的定義和證明,不過大約說明了常用的一些統(tǒng)計(jì)方法及其理論基礎(chǔ),限于篇幅不能面面俱到,例如一個假設(shè)檢驗(yàn)如果展開寫可以單獨(dú)寫一篇文章。目前隨著大數(shù)據(jù)概念的熱炒,基于互聯(lián)網(wǎng)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)也變得火熱,其實(shí)很多數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)都是基于概率和統(tǒng)計(jì)理論的,很多方法甚至只是傳統(tǒng)統(tǒng)計(jì)方法的應(yīng)用。因此如果準(zhǔn)備在這方面深入學(xué)習(xí),不妨考慮先在概率論和數(shù)理統(tǒng)計(jì)方面打好基礎(chǔ)。