在貝葉斯學(xué)派的觀點(diǎn)中,先驗(yàn)概率、后驗(yàn)概率以及共軛分布的概念非常重要。而在機(jī)器學(xué)習(xí)中,我們閱讀很多資料時(shí)也要頻繁地跟他們打交道。所以理清這些概念很有必要。
歡迎關(guān)注白馬負(fù)金羈的博客 http://blog.csdn.net/baimafujinji,為保證公式、圖表得以正確顯示,強(qiáng)烈建議你從該地址上查看原版博文。本博客主要關(guān)注方向包括:數(shù)字圖像處理、算法設(shè)計(jì)與分析、數(shù)據(jù)結(jié)構(gòu)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析方法、自然語(yǔ)言處理。
貝葉斯定理:一個(gè)例子
其實(shí)我們?cè)谥敖榻B樸素貝葉斯分類器時(shí)就介紹過(guò)它,如果你有點(diǎn)忘了,這里就通過(guò)一個(gè)例子來(lái)幫你回憶一下。
假設(shè)有一所學(xué)校,學(xué)生中60%是男生和40%是女生。女生穿褲子與裙子的數(shù)量相同;所有男生穿褲子?,F(xiàn)在有一個(gè)觀察者,隨機(jī)從遠(yuǎn)處看到一名學(xué)生,因?yàn)楹苓h(yuǎn),觀察者只能看到該學(xué)生穿的是褲子,但不能從長(zhǎng)相發(fā)型等其他方面推斷被觀察者的性別。那么該學(xué)生是女生的概率是多少?
用事件 G 表示觀察到的學(xué)生是女生,用事件 T 表示觀察到的學(xué)生穿褲子。于是,現(xiàn)在要計(jì)算的是條件概率 P(G|T) ,我們需要知道:
P(G) 表示一個(gè)學(xué)生是女生的概率。由于觀察者隨機(jī)看到一名學(xué)生,意味著所有的學(xué)生都可能被看到,女生在全體學(xué)生中的占比是 40% ,所以概率是 P(G)=0.4 。注意,這是在沒有任何其他信息下的概率。這也就是先驗(yàn)概率。后面我們還會(huì)詳細(xì)討論。
P(B) 是學(xué)生不是女生的概率,也就是學(xué)生是男生的概率,這同樣也是指在沒有其他任何信息的情況下,學(xué)生是男生的先驗(yàn)概率。 B 事件是 G 事件的互補(bǔ)的事件,于是易得 P(B)=0.6 。
P(T|G) 是在女生中穿褲子的概率,根據(jù)題目描述,女生穿裙子和穿褲子各占一半,所以 P(T|G)=0.5 。這也就是在給定 G 的條件下,T 事件的概率。
P(T|B) 是在男生中穿褲子的概率,這個(gè)值是1。
P(T) 是學(xué)生穿褲子的概率,即任意選一個(gè)學(xué)生,在沒有其他信息的情況下,該名學(xué)生穿褲子的概率。根據(jù)全概率公式 P(T)=∑ni=1P(T|Ai)P(Ai)=P(T|G)P(G)+P(T|B)P(B) ,計(jì)算得到 P(T)=0.5×0.4+1×0.6=0.8。
根據(jù)貝葉斯公式
P(Ai|T)=P(T|Ai)P(Ai)∑ni=1P(T|Ai)P(Ai)=P(T|Ai)P(Ai)P(T)
基于以上所有信息,如果觀察到一個(gè)穿褲子的學(xué)生,并且是女生的概率是
P(G|T)=P(T|G)P(G)P(T)=0.5×0.4÷0.8=0.25.
先驗(yàn)概率(Prior probability)
在貝葉斯統(tǒng)計(jì)中,先驗(yàn)概率分布,即關(guān)于某個(gè)變量 X 的概率分布,是在獲得某些信息或者依據(jù)前,對(duì) X 之不確定性所進(jìn)行的猜測(cè)。這是對(duì)不確定性(而不是隨機(jī)性)賦予一個(gè)量化的數(shù)值的表征,這個(gè)量化數(shù)值可以是一個(gè)參數(shù),或者是一個(gè)潛在的變量。
先驗(yàn)概率僅僅依賴于主觀上的經(jīng)驗(yàn)估計(jì),也就是事先根據(jù)已有的知識(shí)的推斷。例如, X 可以是投一枚硬幣,正面朝上的概率,顯然在我們未獲得任何其他信息的條件下,我們會(huì)認(rèn)為 P(X)=0.5;再比如上面例子中的,P(G)=0.4。
在應(yīng)用貝葉斯理論時(shí),通常將先驗(yàn)概率乘以似然函數(shù)(Likelihood Function)再歸一化后,得到后驗(yàn)概率分布,后驗(yàn)概率分布即在已知給定的數(shù)據(jù)后,對(duì)不確定性的條件分布。
似然函數(shù)(Likelihood function)
似然函數(shù)(也稱作似然),是一個(gè)關(guān)于統(tǒng)計(jì)模型參數(shù)的函數(shù)。也就是這個(gè)函數(shù)中自變量是統(tǒng)計(jì)模型的參數(shù)。對(duì)于觀測(cè)結(jié)果 x ,在參數(shù)集合 θ 上的似然,就是在給定這些參數(shù)值的基礎(chǔ)上,觀察到的結(jié)果的概率 L(θ)=P(x|θ) 。也就是說(shuō),似然是關(guān)于參數(shù)的函數(shù),在參數(shù)給定的條件下,對(duì)于觀察到的 x 的值的條件分布。
似然函數(shù)在統(tǒng)計(jì)推斷中發(fā)揮重要的作用,因?yàn)樗顷P(guān)于統(tǒng)計(jì)參數(shù)的函數(shù),所以可以用來(lái)對(duì)一組統(tǒng)計(jì)參數(shù)進(jìn)行評(píng)估,也就是說(shuō)在一組統(tǒng)計(jì)方案的參數(shù)中,可以用似然函數(shù)做篩選。
你會(huì)發(fā)現(xiàn),“似然”也是一種“概率”。但不同點(diǎn)就在于,觀察值 x 與參數(shù) θ 的不同的角色。概率是用于描述一個(gè)函數(shù),這個(gè)函數(shù)是在給定參數(shù)值的情況下的關(guān)于觀察值的函數(shù)。例如,已知一個(gè)硬幣是均勻的(在拋落中,正反面的概率相等),那連續(xù)10次正面朝上的概率是多少?這是個(gè)概率。
而似然是用于在給定一個(gè)觀察值時(shí),關(guān)于描述參數(shù)的函數(shù)。例如,如果一個(gè)硬幣在10次拋落中正面均朝上,那硬幣是均勻的(在拋落中,正反面的概率相等)概率是多少?這里用了概率這個(gè)詞,但是實(shí)質(zhì)上是“可能性”,也就是似然了。
后驗(yàn)概率(Posterior probability)
后驗(yàn)概率是關(guān)于隨機(jī)事件或者不確定性斷言的條件概率,是在相關(guān)證據(jù)或者背景給定并納入考慮之后的條件概率。后驗(yàn)概率分布就是未知量作為隨機(jī)變量的概率分布,并且是在基于實(shí)驗(yàn)或者調(diào)查所獲得的信息上的條件分布。“后驗(yàn)”在這里意思是,考慮相關(guān)事件已經(jīng)被檢視并且能夠得到一些信息。
后驗(yàn)概率是關(guān)于參數(shù) θ 在給定的證據(jù)信息 X 下的概率,即 P(θ|X) 。若對(duì)比后驗(yàn)概率和似然函數(shù),似然函數(shù)是在給定參數(shù)下的證據(jù)信息 X 的概率分布,即 P(X|θ) 。二者有如下關(guān)系:
我們用 P(θ) 表示概率分布函數(shù),用 P(X|θ) 表示觀測(cè)值 X 的似然函數(shù)。后驗(yàn)概率定義為 P(θ|X)=P(X|θ)P(θ)P(X),注意這也是貝葉斯定理所揭示的內(nèi)容。
鑒于分母是一個(gè)常數(shù),上式可以表達(dá)成如下比例關(guān)系(而且這也是我們更多采用的形式):Posterior probability∝Likelihood×Prior probability
Gamma 函數(shù)
Gamma函數(shù) Γ(x) 定義為
Γ(x)=∫∞0tx?1e?tdt
通過(guò)分部積分法,可以很容易證明Gamma函數(shù)具有如下之遞歸性質(zhì)
Γ(x+1)=xΓ(x)
也是便很容易發(fā)現(xiàn),它還可以看做是階乘在實(shí)數(shù)集上的延拓,即
Γ(x)=(x?1)!
在此基礎(chǔ)上,我們還可以定義Beta函數(shù)如下