Beta分布是一種非常接近直覺的分布,這篇文章主要介紹Beta分布和說明為什么我們需要Beta分布。
對于貝葉斯主義者,從貝葉斯的角度去看伯努利過程,會得到一些重要而且有意思的結(jié)果。
數(shù)學公式說明,需要在段中顯示數(shù)學公式,用的是標準Latex語法,_表示角標,{}表示整體
縮寫說明,pdf:函數(shù)密度函數(shù)
文章結(jié)構(gòu)
伯努利過程
第一個拋硬幣試驗
Beta分布形狀
貝葉斯推斷
第二個拋硬幣試驗
淘寶商家例子
伯努利過程是一系列離散的獨立同分布隨機試驗,當我們具體看伯努利過程的一些分布函數(shù)的時候,會發(fā)現(xiàn)這一類分布有著相似的結(jié)構(gòu)。
二項分布(拋n次硬幣,正面出現(xiàn)k次的概率)
幾何分布(拋硬幣,第一次拋出正面所需次數(shù)的概率)
帕斯卡分布(拋硬幣,第k次出現(xiàn)正面所需次數(shù)的概率)
找到一個統(tǒng)一的公式去描述這些分布,那就是 Beta分布了:
其中 B(a,b) 是標準化函數(shù),他的作用是使總概率為1,a 和 b 是形狀參數(shù),不同的參數(shù)選擇不但可以表示常見的二項分布,幾何分布等,它更有一個好處,那就是你跟本不用去管某個試驗服從什么分布。用形狀參數(shù) a,b 可以調(diào)出任意你想使用的分布圖像。
寫概率論的文章總是一言不合就拋硬幣,這就像是達芬奇畫雞蛋,基礎(chǔ)的掌握也是思維的形成。拋硬幣的試驗可以從幾何學角度來直觀了解Beta分布的工作原理。先撇開Beta分布,來看下簡單的變體,沒有了-1的次方項,也沒有了用于歸一化的常數(shù)。
如果拋硬幣,拋出7次正面,3次反面,如何判斷這個硬幣的概率分布。注意我們都是貝葉斯主義者,硬幣的概率是個隨機變量,不要用頻率主義去把概率當作一個定值。思考最簡單的伯努利過程,7次正面,3次反面,概率分布是關(guān)于x的函數(shù)(隨機變量),那么這個類似 Beta分布的函數(shù)就是:
這幅圖是很直觀的表達,當某次試驗出現(xiàn)正面7次,背面3次的情況下,函數(shù)圖像在0.7附近得到最大值。也就是說,現(xiàn)在的概率極有可能是0.7,當然也有可能是其他的情況,比如說0.5,只是概率更小罷了。這就是我們不知道服從某種特定分布的參數(shù)分布曲線。
更籠統(tǒng)的說,形狀參數(shù) a,b 決定了分布的形狀。
當形狀參數(shù)a,b 取不同的值時,Beta分布會隨之變化。其中有幾種特殊情況。
首先是 a = b 的情況。分別使用動畫和3D來演示。
當 a = b 時, beta分布都是對稱的,如果小于1,分布是u形,這時的pdf也叫做反正弦分布(arcsin distribution),反正弦分布的CDF是反正弦函數(shù)。如果形狀參數(shù)大于1,分布呈山峰狀凸起,特別注意,當 a = b = 1 時,分布為[0,1]均勻分布。當 a = b = 2 時,pdf為拋物線。
3D 圖像顯示了a取不同值時,概率密度函數(shù)分布的變化。
當 a 不等于 b 時, Beta 概率密度函數(shù)呈較大值一方傾斜,a 越大,pdf峰值向1偏移,b 越大,pdf峰值向0偏移。
可以看到Beta分布的另一個特點,當形狀參數(shù)越大時,分布圖像越陡,越對稱,越接近正態(tài)分布。
Beta分布在概率統(tǒng)計中非常好用。因為在貝葉斯推斷下,Beta分布有個非常棒的特點。那么先來看看貝葉斯推斷。
在統(tǒng)計模型中,我們往往關(guān)心的是模型的參數(shù),比如說拋出硬幣的正面概率是多少,一個射擊運動員平均射擊環(huán)數(shù)。在貝葉斯主義看來,這些參數(shù)并不是一個明確的數(shù),而是一個概率分布,在某些地方值大一些,就說明參數(shù)更有可能分布在這些地方。這個參數(shù),被定義為隨機變量 Theta。
隨機變量 Theta 中某一個值 theta 可能就是模型的真值,在這個真值下,我們有做了一些觀察,即
同理這些觀察也都是隨機變量,更進一步,他們是在某參數(shù)下的條件概率,也即聯(lián)合分布。 可以表示為 p_{X|\Theta} 或者 f_{X|\Theta}?,F(xiàn)在有了參數(shù)的分布 p_{\Theta} 或者 f_{\Theta}, 也有了觀察量,根據(jù)條件概率公式,我們就得到了貝葉斯角度的貝葉斯推斷:
這里只給出了離散模型,各部分都可替換成各自的連續(xù)模型。等式右邊的部分我們都有了,分母部分是用來歸一化的,p_{\Theta} 也被稱作先驗概率,p_{X|\Theta}也是似然函數(shù),等式左邊的部分即為在先驗存在下,通過一些觀察,更新的參數(shù)分布概率,也被稱作后驗概率。
既然提到貝葉斯,可不是讓他白來的,Beta 分布的一些特性,讓貝葉斯推斷發(fā)揮出了巨大作用。
暫時先回到拋硬幣的例子中,如果觀察到了某次試驗結(jié)果k,選擇使用Beta分布,不考慮分母常數(shù),也不進行精確計算:
根據(jù)前面所講,我們不論假設(shè)先驗分布是均勻分布,二項分布,幾何分布還是其他伯努利過程中的分布情況,后驗概率都可以得到一個統(tǒng)一的形式:
其中 B(a,b) 是 Beta 函數(shù),發(fā)現(xiàn)新的Beta分布,新的 a = a+k,新的 b = n-k+b,當 a = b = 1 時,形狀參數(shù)為k+1和n-k+1,如果我們認為 a 是拋出正面的次數(shù),b 是拋出反面的次數(shù),這不就是我們拋硬幣的例子的Beta分布嗎?這種特性就是共軛先驗。有著這種特性的函數(shù)并不多,另一個有共軛先驗特性的分布就是正態(tài)分布。
后驗分布與先驗分布是同種類型的分布。這又什么用呢?
首先,可以迭代了。先驗分布通過新的觀察結(jié)果可以更新后驗分布,新的后驗分布又可以做為先驗分布進行下一次的更新。
其次,給貝葉斯推斷提供了理論依據(jù),為什么可以用Beta分布做為觀察模型的先驗分布,每次觀察試驗不會改變分布模型,改變的只是分布形狀。
歸根結(jié)底,共軛先驗讓計算變簡單了。Beta分布的眾數(shù),期望和方差分別為:
免去了計算指數(shù),階乘的復雜運算,只用形狀參數(shù)就足夠了,是不是很方便呢?
這次拋硬幣是對開始那個例子的完善。我們說觀察一枚硬幣,觀察前有人告訴我以前有人拋過這枚硬幣,出現(xiàn)了7次正面,3次反面。我們估計這個硬幣是服從Beta分布的,即 X~Beta(8,4),開始觀察5次拋擲結(jié)果以后,發(fā)現(xiàn)出現(xiàn)了2次正面,3次反面,那我們可以直接計算了:
在新的觀察下,概率分布的峰值從0.7移動向0.6。從整個計算過程中,有沒有發(fā)現(xiàn),我們根本不用去考慮以前的結(jié)果,只要在先驗的基礎(chǔ)上變更形狀參數(shù)就行了。
逛淘寶的時候,想買一雙鞋子,同一雙鞋子發(fā)現(xiàn)了兩個不同的商家,商家A有10條評論,9個好評1個差評。商家B有500條評論,400條好評100個差評。那么應(yīng)該去買哪個商家的鞋子。
鞋子的質(zhì)量是商家的參數(shù),商家一定存在反應(yīng)鞋子質(zhì)量的真值,但是我們不知道。但是,根據(jù)大數(shù)定理,大量的樣本會讓結(jié)果更趨近于真值。商家A可以使用 a = 10,b = 2 的Beta分布,商家B可以使用 a = 401, b = 101 的Beta分布,商家的質(zhì)量在[0,1]內(nèi)表示。得到結(jié)果:
取一個95%的置信區(qū)間,也就是說,真值有95%的概率在這個區(qū)間內(nèi)。商家A[0.58,0.98],商家B[0.76,0.84]。商家A的均值更高,但是方差更大。這里就有兩個不同的策略,如果考慮的是產(chǎn)品質(zhì)量的穩(wěn)定性,就選擇B商家,因為商家B的質(zhì)量標準底線比商家A更高。另一方面,如果你愿意看臉,商家A的商品有很大機率高達0.98的質(zhì)量標準。
這就是Beta分布在生活中直觀的表現(xiàn)。Beta分布的應(yīng)用不止于此,當其進化為更加抽象的狄利克雷分布時,就是無監(jiān)督貝葉斯模型的基礎(chǔ)了。
聯(lián)系客服