貝葉斯定理變得如此受歡迎,甚至在CBS熱播劇《Big Bang Theory》中「客串」了一把。但就像任何工具一樣,它有利也有弊。
我不確定我第一次聽說貝葉斯定理是在何時。但我真正開始注重它僅是在這過去十年,在我的一些書呆子學(xué)生把它視為引領(lǐng)人生的魔法向?qū)О闳ゴ蹬跛蟆?/span>
我學(xué)生們的夸夸其談讓我困惑,維基百科等處對這個定理的解釋也如此,我發(fā)現(xiàn)它們要么太簡單要么太復(fù)雜。我便輕率地認為貝葉斯不過是一時之風(fēng)尚,并不值得更深入研究。但如今貝葉斯已火熱到無處不在,讓人無法忽視。
「從物理學(xué)到癌癥研究,從生態(tài)學(xué)到心理學(xué),貝葉斯統(tǒng)計正滲透到各個領(lǐng)域,」《紐約時報》如此報道。物理學(xué)家提出用貝葉斯解釋量子力學(xué)以及為弦理論和多重宇宙辯護。哲學(xué)家斷言科學(xué)作為一個整體也可以被看作是一個貝葉斯過程,而貝葉斯區(qū)分科學(xué)與偽科學(xué)的方式比卡爾·波普爾所普及的證偽法更加精確。
人工智能學(xué)者,包括谷歌自動駕駛汽車的設(shè)計者利用貝葉斯軟件幫助機器識別模式和做出決策。Sharon Bertsch McGrayne寫了一本講貝葉斯歷史的暢銷書,他說貝葉斯程序可以「從郵件中篩別垃圾郵件,評估醫(yī)療和國家安全風(fēng)險,解碼DNA,以及其他事情?!乖诰W(wǎng)站Edge上,物理學(xué)家John Mather 則發(fā)愁貝葉斯機器也許會過于智能以至于將人類淘汰。
認知科學(xué)家推測我們的大腦在感知、思考和決策時使用了貝葉斯算法。2015年11月,科學(xué)家和哲學(xué)家在紐約大學(xué)舉辦的主題會議「大腦是貝葉斯式的嗎?」中探索了這個可能性。
狂熱者堅稱如果更多人采用有意識的貝葉斯推理(與大腦可能采用的無意識貝葉斯處理過程相反),世界將會變得更美好。在《貝葉斯定理的直觀解釋(An Intuitive Explanation of Bayes’ Theorem)》中,AI理論家Eliezer Yudkowsky承認了貝葉斯追隨者的崇拜式熱情:
「為什么一個數(shù)學(xué)概念會讓它的學(xué)生產(chǎn)生這種奇怪的熱情?貝葉斯革命正席卷科學(xué)界,并聲稱能將實驗法作為一個特例涵蓋進去。這種貝葉斯革命到底是什么?貝葉斯追隨者知道什么秘密?他們看見了什么曙光?很快你就會知道。很快你就會加入我們的行列?!筜udkowsky 打趣到。他真的只是開玩笑嗎?
考慮到所有這些噪聲,我嘗試去徹底弄清貝葉斯的真相。在網(wǎng)上數(shù)不盡的解釋中,我發(fā)現(xiàn)有一些非常有幫助,包括Yudkowsky的文章、維基百科的參考條目、哲學(xué)家Curtis Brown、計算機科學(xué)家Oscar Bonilla和Kalid Azad的短篇文章。在這篇文章中,我嘗試去解釋——主要是為了我自己的利益——關(guān)于貝葉斯的一切。我相信友善的讀者通常會指出我的錯誤。
貝葉斯理論以它的發(fā)明者——18世紀(jì)長老會的牧師Thomas Bayes命名,它是一種基于能獲得的最好證據(jù)(觀察、數(shù)據(jù)和信息)來計算信念度(或假說、主張、命題)有效性的方法。(「信念度」即Belief,意為對事物的真實性和正確性所具有的信心。)
以下是最直白的描述:原始信念度加上新證據(jù)等于新的改進的信念度。以下是一個更全面的版本:在新證據(jù)基礎(chǔ)上,信念為真的概率等于不考慮證據(jù)的情況下信念為真的概率乘以信念為真的條件下證據(jù)為真的概率再除以不考慮信念是否為真的情況下證據(jù)為真的概率。明白了嗎?
基本的數(shù)學(xué)公式是這種形式: P(B|E) = P(B) × P(E|B) / P(E),P代表概率,B代表信念,E代表證據(jù)。P(B)代表B發(fā)生的概率, P(E)代表E發(fā)生的概率。P(B|E)即在E發(fā)生的條件下B發(fā)生的概率, P(E|B)即在B發(fā)生的條件下E發(fā)生的概率。
醫(yī)療化驗測試經(jīng)常被用來論證這個公式。假設(shè)我們已經(jīng)有先驗知識:在你的這個年齡段,患癌癥的概率為1%。如果這個測試的可信度為100%,你不需要貝葉斯定理就會知道陽性測試結(jié)果意味著什么。但我們還是來用一下貝葉斯定理,只是來看看它的原理是怎樣的。
要解出 P(B|E),你把數(shù)據(jù)代入貝葉斯公式的右側(cè)。P(B)是被測試前你患癌癥的概率,是1%,即0.01.那P(E)即為你將被檢測為陽性的概率。因為它們各自為分子分母,它們相互抵消,剩下就是P(B|E) = P(E|B) = 1。如果你檢測呈陽性,那你必定患有癌癥,反之亦然。
在現(xiàn)實世界中,真正完全可信的測試幾乎是少之又少。所以如果說你的測試是99%可靠。也就是說,100個癌癥患者中的99個測試結(jié)果會呈陽性,而100個健康人中有99個人的測試結(jié)果為陰性。這依然是一個絕妙的測試。如果你的測試是陽性的,那么你得癌癥的可能性是多少呢?
現(xiàn)在該輪到貝葉斯理論展示它的用途了。大多數(shù)人認為答案是99%或是一個接近它的數(shù)字。這正是測試的可靠度,不是嗎?但是,貝葉斯理論的正確答案是,只有50%。
將數(shù)據(jù)代入貝葉斯公式的右邊,我們來看看為什么是這個結(jié)果。P(B)依然是0.01。P(E|B)—如果你有癌癥,測試為陽性的概率現(xiàn)在是0.99。所以P(B)乘以P(E|B)等于0.01乘上0.99,也就是0.0099。這就是你的陽性結(jié)果為真(也就是意味著你患有癌癥)的概率。
分母P(E)呢?這是整個計算變得微妙的一步。P(E)是無論你是否患有癌癥測試結(jié)果為陽性的概率。換句話說,它既包括錯誤的陽性結(jié)果同時也包括正確的陽性結(jié)果。
為了計算錯誤的陽性結(jié)果的概率,你需要將假陽性的比例(即0.01),乘上沒有患癌人群的百分比(即0.99)。結(jié)果為0.0099。是的,太妙了,準(zhǔn)確度為99%的測試結(jié)果中,假陽性和真陽性的比例相同。
讓我們繼續(xù)完成這個運算。為了得到P(E),將假陽性和假陰性結(jié)果相加得到0.0198,然后用0.0099來除以它得到0.5。所以再一次,如果測試結(jié)果為陽性,那么你患癌癥的概率P(B|E)是50%。
如果你再做一次測試,這能大大減少你的結(jié)果的不確定性,因為你患有癌癥的概率P(B)不再是1%,而是50%了。如果你的第二次測試結(jié)果仍然為陽性,貝葉斯理論告訴你,你患有癌癥的概率現(xiàn)在是99%了。如這個例子里所看到的,重復(fù)貝葉斯理論能生成極其精準(zhǔn)的信息。
但是如果你的測試可靠性為90%(這仍然是一個不錯的值),即使你測試兩次為陽性,你實際患有癌癥的機會仍然低于50%。
大多數(shù)人,包括物理學(xué)家,很難理解為什么這些概率能解釋我們對癌癥等疾病的過分診斷和過分治療。這個例子告訴我們貝葉斯方法是正確的:如果更多的人——或是至少更多的關(guān)注健康的消費者和服務(wù)者采用貝葉斯理論,這個世界將會更好。
另一方面,貝葉斯理論只是常識的整理。正如Yudkowsky在他的教義末尾寫到:「從這點來看,貝葉斯理論也許看起來完全是顯而易見或者說甚至是同義重復(fù),而不是令人興奮和新鮮的。如果是這樣,這篇導(dǎo)論已經(jīng)完全實現(xiàn)了它的目的。
考慮癌癥測試的這個例子:貝葉斯理論說如果你的測試結(jié)果為陽性,你患癌癥的概率等于真陽性的概率除以所有陽性的概率(無論真假)。簡而言之,一定要注意假陽性的概率。
這是我對這個原理更一般的解釋:你的信念的可信度取決于你的信念(并且只是你的信念)解釋證據(jù)的程度。對于該條證據(jù)備選的解釋越多,你的信念的可信度就越低。這就是我所認為的貝葉斯理論的本質(zhì)。
「備選解釋」可能包括很多東西。你的證據(jù)也許會是錯誤的,會被失靈的儀器、錯誤的分析、確認偏誤甚至是欺詐給歪曲?;蛟S,盡管你的證據(jù)合理,但卻可以被很多不屬于你的信念或假說所解釋。
換句話說,貝葉斯理論沒什么神奇的。歸根結(jié)底,它就是在說,你的信念只和它的證據(jù)一樣有效。如果你有好的證據(jù),貝葉斯理論就能得到好結(jié)果。如果你的證據(jù)不足為信,貝葉斯理論也就沒什么用。進入的是垃圾,出來的也是垃圾。
貝葉斯濫用的潛質(zhì)始于P(B),也就是你對信念的概率做出的原始估值,經(jīng)常被稱為「先驗概率」(prior)。在上面提到的癌癥測試?yán)又校瑢τ诎┌Y的發(fā)病率,我們有一個很好很精確的先驗概率為1%。在現(xiàn)實世界中,專家們在如何診斷和計算癌癥上沒有達成共識。你的先驗概率通常會包含一個概率的范圍,而不是一個單一的數(shù)值。
在許多案例中,估測先驗概率只能憑猜測,這讓計算中充滿了主觀因素。你也許會猜,某些事情發(fā)生的概率——與癌癥不同——根本不存在,例如弦理論、多重宇宙、暴脹甚至上帝。你也許還會引用一些不令人信服的證據(jù)去支持你那將信將疑的信念。從這個角度來看,貝葉斯理論既能夠促進理性,也能促進迷信與偽科學(xué)的發(fā)展。
貝葉斯理論中嵌入了一種倫理信息:如果你并不偏執(zhí)于尋找證據(jù)的其他解釋,那這種證據(jù)只能讓你更加堅持你已經(jīng)相信的東西??茖W(xué)家常常難免犯這種錯誤,這也說明了為什么許多科學(xué)論斷到最后被證明是錯誤的。貝葉斯主義者宣稱他們的方法能夠幫助科學(xué)家克服偏見,并得到更加可信的結(jié)果,但我對這一點保持懷疑。
就像我上面所提到的,弦理論和多重宇宙的支持者正在愈發(fā)擁護貝葉斯分析。這是為什么呢?因為支持者已經(jīng)疲倦了聽「弦理論和多重宇宙理論是錯誤并且不科學(xué)」的論調(diào),貝葉斯的理論讓他們能夠以更加受支持的角度去提出他們的理論。在這種情況下,貝葉斯理論不僅沒有幫助抵消確認偏誤,反而加劇了它。
如科學(xué)作家Faye Flam最近在《紐約時報》上所說的,貝葉斯統(tǒng)計「無法讓我們從偽科學(xué)中脫離出來」。貝葉斯的理論是一種萬金油,可以服務(wù)任何理論。杰出的貝葉斯統(tǒng)計學(xué)家、哈佛大學(xué)的Donald Rubin為煙草公司提供咨詢,最近正面臨吸煙危害的訴訟。
但是,我卻覺得貝葉斯理論很讓人著迷。它讓我想起了另一種理論——進化論。你看待它的角度不同,它有時候看似出奇的簡單,有時卻又深不可測,有時會帶來膚淺的錯誤,而有時又會啟發(fā)深遠的洞察。
也許這是因為我的大腦是貝葉斯式的,但我已經(jīng)開始意識到了貝葉斯的無處不在。最近,我在Kindle上閱讀愛倫坡的全集時,我在《阿瑟·戈登·皮姆的故事》中看到了這樣一句話:「在沒有一點點偏見的情況下(無論正面還是反面),我們才能從最簡單的數(shù)據(jù)中準(zhǔn)確地推演出整個事情的全貌?!?/span>
在跳上貝葉斯這輛車之前,你最好時刻謹(jǐn)記愛倫坡的警告。
后記
Andrew Gelman,哥倫比亞大學(xué)的貝葉斯統(tǒng)計學(xué)家,他給了我下面這個誠懇的建議:
「我從事社會與環(huán)境科學(xué)政策方面的研究,而不是理論物理,因此我真的沒法用貝葉斯來評判弦理論和多重宇宙?。嶋H上我并不喜歡這個「結(jié)果就是假說為真的概率」的框架。在某些「假說」與概率都定義良好的簡單情況下,它運轉(zhuǎn)良好,例如拼寫檢查(見這篇文章: http://andrewgelman.com/2014/01/22/spell-checking-example/),但是我不認為思考科學(xué)假說的概率為真為假有何意義,可以見這篇文章http://andrewgelman.com/2014/01/22/spell-checking-example/?!?/span>
總而言之,我認為貝葉斯是在模型中進行推理的好方法,但是并不是評估模型或假說是否成立的好方法(我的確認為『模型與假說的概率為真』是一種沒有意義的陳述,除卻在某些范圍狹窄但重要的例子中)。我還注意到你文中的這一段:『在許多案例中,估測先驗概率只能憑猜測,這讓計算中充滿了主觀因素。你也許會猜,某些事情發(fā)生的概率——與癌癥不同——根本不存在,例如弦理論、多重宇宙、暴脹甚至上帝。你也許還會引用一些不令人信服的證據(jù)去支持你那將信將疑的信念。從這個角度來看,貝葉斯理論既能夠促進理性,也能促進迷信與偽科學(xué)的發(fā)展?!晃艺J為這一段話有點誤導(dǎo),因為你說一個模型的所有部分都是猜測而得的?;蛘?,換句話說,一個統(tǒng)計模型的全部都需要去被理解與評估。我反對當(dāng)先驗分布有問題而數(shù)據(jù)模型卻被假定為正確的態(tài)度。這是我關(guān)于這個主題所寫的一些內(nèi)容:http://andrewgelman.com/2015/01/27/perhaps-merely-accident-history-skeptics-subjectivists-alike-strain-gnat-prior-distribution-swallowing-camel-likelihood/ 」
聯(lián)系客服