數(shù)理統(tǒng)計(jì)中有頻率學(xué)派和貝葉斯學(xué)派之分。關(guān)于兩者的差異,眾說紛紜,網(wǎng)上博客、知乎有專門的討論。
然而,從更高的哲學(xué)上看待這個(gè)問題,就會(huì)發(fā)覺,貝葉斯論和頻率論的真正區(qū)別在于人們?nèi)绾谓忉尭怕手g的哲學(xué)差異。本文將透徹分析貝葉斯背后的哲學(xué)與數(shù)學(xué)思想。讓大家從一個(gè)更高的視角來把應(yīng)用貝葉斯思想及推理,不光是應(yīng)用于機(jī)器學(xué)習(xí)算法,還能指導(dǎo)工作生活。
將A視為關(guān)于世界的一些命題,將B視為一些數(shù)據(jù)或證據(jù)。例如,A代表今天下雨的命題,B代表外面人行道潮濕的證據(jù),那么分析一下這個(gè)貝葉斯推理過程的思想。
p(雨|濕) 問道,'外面潮濕,下雨的幾率是多少?' 為了評(píng)估這個(gè)問題,讓我們來看看方程式的右側(cè)。在看地面之前,下雨的概率是多少, p(下雨)?將此視為對(duì)世界的假設(shè)的合理性。然后我們問在這個(gè)假設(shè)下,外面潮濕的觀察有多少可能性, 即p(潮濕|下雨)?根據(jù)證據(jù),這個(gè)過程有效地更新了我們對(duì)一個(gè)命題的初步信念,在一些觀察的支持下最終衡量了降雨的合理性。
我們的初始信念由先驗(yàn)分布p(下雨)表示,我們的最終信念由后驗(yàn)分布p(雨|濕)表示。分母只是問:'證據(jù)的總合理性是多少?',我們必須考慮所有假設(shè),以確保后驗(yàn)是一個(gè)合適的概率分布。
這種思維方式可以幫助你擺脫對(duì)世界的黑白解釋,而不是通過概率鏡頭來觀察事物和解釋。
從一個(gè)基于證據(jù)的世界觀開始,如果引入新證據(jù),你的初始世界觀的概率會(huì)發(fā)生變化。
貝葉斯定理本質(zhì):
貝葉斯定理是一種基于最佳可用證據(jù)(觀察,數(shù)據(jù),信息)計(jì)算信念(假設(shè),主張,命題)的有效性的方法。最本真的描述:最初的信念加上新的證據(jù)=新的和改進(jìn)的信念。
所以你對(duì)自己信仰的確定性并不是固定的,而是流動(dòng)的、可塑的。您應(yīng)該能夠根據(jù)新證據(jù)修改您的意見。
辯證法強(qiáng)調(diào)不要靜止的看問題,要?jiǎng)討B(tài)的看問題。所以為突出強(qiáng)調(diào)動(dòng)態(tài)看問題的哲學(xué)思想,進(jìn)一步的描述為:
我們用客觀信息修改我們的觀點(diǎn):初始信念+最近的客觀數(shù)據(jù)=新的和改進(jìn)的信念。每次重新計(jì)算系統(tǒng)時(shí),后驗(yàn)都成為新迭代的先驗(yàn)。這是一個(gè)不斷發(fā)展的系統(tǒng),每一點(diǎn)新信息都越來越接近于確定性。
這種思維方式可以幫助人們減少確認(rèn)偏差的影響,從而開啟對(duì)新可能性的看法。
貝葉斯推理過程,是一個(gè)不斷修正的趨近于真理的過程。
貝葉斯定理的另一個(gè)用法是判斷一個(gè)假設(shè)發(fā)生在另一個(gè)假設(shè)上的可能性。
中心前提是第一原則,即這個(gè)世界上大多數(shù)事物都是不確定的。很多時(shí)候你沒有完美的信息,你不知道一切,你需要做出推論。
貝葉斯定理,在一個(gè)充滿不確定性的世界中,為我們的決策提供信息。隨著新信息的出現(xiàn),需要反思這些新證據(jù)如何改變對(duì)事物的看法,然后根據(jù)它進(jìn)行修正。
伯茨麥格雷恩有一個(gè)對(duì)貝葉斯的經(jīng)典陳述:
貝葉斯堅(jiān)信,現(xiàn)代科學(xué)需要客觀性和精確性。貝葉斯是信仰的衡量標(biāo)準(zhǔn)。它說我們甚至可以從缺失和不充分的數(shù)據(jù),近似和無知中學(xué)到東西。
隨著人們開始認(rèn)識(shí)到人類思考和決策方式的固有不完善性,貝葉斯思想的應(yīng)用正在不斷增長。
很長一段時(shí)間,經(jīng)典的經(jīng)濟(jì)學(xué)模型將人視為理性行為者,在開明的自我利益的基礎(chǔ)上做出決策是完美的。現(xiàn)在我們開始意識(shí)到這種觀點(diǎn)是有缺陷的,相反,人類行為經(jīng)濟(jì)學(xué)作為認(rèn)知偏見的犧牲品的觀點(diǎn)正變得越來越普遍。
貝葉斯思維也是我們學(xué)習(xí)方法的一個(gè)很好的近似。納特·西爾弗在《信號(hào)與噪音》中說:
' 相反,它(貝葉斯定理)是一種在數(shù)學(xué)和哲學(xué)上表達(dá)我們?nèi)绾瘟私庥钪娴穆暶鳎何覀兺ㄟ^近似來了解它,在我們收集更多證據(jù)時(shí)越來越接近真相。'
貝葉斯推理是非常強(qiáng)大的工具,可用于對(duì)任何隨機(jī)變量進(jìn)行建模,例如回歸參數(shù)的值、人口統(tǒng)計(jì)數(shù)據(jù)、業(yè)務(wù)KPI或單詞的詞性。對(duì)于在機(jī)器學(xué)習(xí)建模中當(dāng)數(shù)據(jù)有限、擔(dān)心過擬合等情況下更有非常有用。
接下來通過高斯分布估計(jì)來講解貝葉斯在應(yīng)用于參數(shù)估計(jì)中的數(shù)學(xué)思想與方法。
在分布參數(shù)前提下的數(shù)據(jù)的概率:條件概率分布
假設(shè)我們給出了高斯隨機(jī)變量X的樣本數(shù)據(jù)集,D = {x1,...,xN},并且給出數(shù)據(jù)的方差是σ2
我們對(duì)μ的最佳猜測(cè)是什么?這里假設(shè)數(shù)據(jù)是獨(dú)立的并且分布相同。
把高斯分布寫成似然函數(shù)的形式如下,就是在當(dāng)前參數(shù)下數(shù)據(jù)發(fā)生的概率密度函數(shù):
我們希望選擇最大化此表達(dá)式的μ。
貝葉斯概率
對(duì)于上邊高斯分布參數(shù)估計(jì),我們用貝葉斯定理的思想解決,我們的目的是求得參數(shù),換作概率的表達(dá)就是,求在參數(shù)d的概率條件下的θ的概率,即p(θ|d):
p(d|θ)是似然函數(shù),概率的形式,實(shí)質(zhì)上就是上文中寫成條件概率形式的概率密度函數(shù)。p(θ)
是先驗(yàn)概率(先前的信念)。
歸一化常數(shù),也就是證據(jù)的總合理性量度,必須考慮所有假設(shè)。p(θ|d)是后驗(yàn)分布,在面對(duì)數(shù)據(jù)時(shí)重新調(diào)整我們先前的信念(先驗(yàn)概率)。
這樣,我們就把一個(gè)求取參數(shù)的過程轉(zhuǎn)化為貝葉斯定理的求解過程。
最大后驗(yàn)概率估計(jì)MAP
在高斯分布估計(jì)中,假設(shè)我們事先認(rèn)為某個(gè)隨機(jī)變量X的平均值是μ0,我們的信念的方差是σ02,然后我們給出X的樣本數(shù)據(jù)集,d = {x1,...,xN},如下圖所示,并且以某種方式知道數(shù)據(jù)的方差是σ2,本文只給出求取一個(gè)參數(shù)的情況。
現(xiàn)在求后驗(yàn)分布參數(shù)μ?
上面的假設(shè),已知知道高斯分布兩個(gè)參數(shù)如下,即先驗(yàn)。
根據(jù)貝葉斯概率,我們所求即為:
p(d|u)是似然函數(shù),如下圖所示:
p(u)是μ的先驗(yàn)概率:
后驗(yàn)概率可寫為:
根據(jù)兩個(gè)高斯分布的乘積也是高斯分布,后驗(yàn)概率也是高斯:
通過變換形式,最后得到:
聯(lián)系客服