除了線性代數(shù)之外,概率論(probability theory)也是人工智能研究中必備的數(shù)學(xué)基礎(chǔ)。隨著連接主義學(xué)派的興起,概率統(tǒng)計(jì)已經(jīng)取代了數(shù)理邏輯,成為人工智能研究的主流工具。在數(shù)據(jù)爆炸式增長(zhǎng)和計(jì)算力指數(shù)化增強(qiáng)的今天,概率論已經(jīng)在機(jī)器學(xué)習(xí)中扮演了核心角色。
同線性代數(shù)一樣,概率論也代表了一種看待世界的方式,其關(guān)注的焦點(diǎn)是無(wú)處不在的可能性。對(duì)隨機(jī)事件發(fā)生的可能性進(jìn)行規(guī)范的數(shù)學(xué)描述就是概率論的公理化過(guò)程。概率的公理化結(jié)構(gòu)體現(xiàn)出的是對(duì)概率本質(zhì)的一種認(rèn)識(shí)。
將同一枚硬幣拋擲 10 次,其正面朝上的次數(shù)既可能一次沒(méi)有,也可能全部都是,換算成頻率就分別對(duì)應(yīng)著 0% 和 100%。頻率本身顯然會(huì)隨機(jī)波動(dòng),但隨著重復(fù)試驗(yàn)的次數(shù)不斷增加,特定事件出現(xiàn)的頻率值就會(huì)呈現(xiàn)出穩(wěn)定性,逐漸趨近于某個(gè)常數(shù)。
從事件發(fā)生的頻率認(rèn)識(shí)概率的方法被稱為“頻率學(xué)派”(frequentist probability),頻率學(xué)派口中的“概率”,其實(shí)是一個(gè)可獨(dú)立重復(fù)的隨機(jī)實(shí)驗(yàn)中單個(gè)結(jié)果出現(xiàn)頻率的極限。因?yàn)榉€(wěn)定的頻率是統(tǒng)計(jì)規(guī)律性的體現(xiàn),因而通過(guò)大量的獨(dú)立重復(fù)試驗(yàn)計(jì)算頻率,并用它來(lái)表征事件發(fā)生的可能性是一種合理的思路。
在概率的定量計(jì)算上,頻率學(xué)派依賴的基礎(chǔ)是古典概率模型。在古典概率模型中,試驗(yàn)的結(jié)果只包含有限個(gè)基本事件,且每個(gè)基本事件發(fā)生的可能性相同。如此一來(lái),假設(shè)所有基本事件的數(shù)目為 n,待觀察的隨機(jī)事件 A 中包含的基本事件數(shù)目為 k,則古典概率模型下事件概率的計(jì)算公式為
從這一基本公式就可以推導(dǎo)出復(fù)雜的隨機(jī)事件的概率。前文中的概率定義針對(duì)都是單個(gè)隨機(jī)事件,可如果要刻畫(huà)兩個(gè)隨機(jī)事件之間的關(guān)系,這個(gè)定義就不夠看了。在一場(chǎng)足球比賽中,球隊(duì) 1:0 取勝和在 0:2 落后的情況下 3:2 翻盤的概率顯然是不一樣的。這就需要引入條件概率的概念。
條件概率(conditional probability)是根據(jù)已有信息對(duì)樣本空間進(jìn)行調(diào)整后得到的新的概率分布。假定有兩個(gè)隨機(jī)事件 A 和 B,條件概率就是指事件 A 在事件 B 已經(jīng)發(fā)生的條件下發(fā)生的概率,用以下公式表示
上式中的 P(AB) 稱為聯(lián)合概率(joint probability),表示的是 A 和 B 兩個(gè)事件共同發(fā)生的概率。如果聯(lián)合概率等于兩個(gè)事件各自概率的乘積,即P(AB)=P(A)?P(B),說(shuō)明這兩個(gè)事件的發(fā)生互不影響,即兩者相互獨(dú)立。對(duì)于相互獨(dú)立的事件,條件概率就是自身的概率,即 P(A|B)=P(A)。基于條件概率可以得出全概率公式(law of total probability)。全概率公式的作用在于將復(fù)雜事件的概率求解轉(zhuǎn)化為在不同情況下發(fā)生的簡(jiǎn)單事件的概率求和,即
全概率公式代表了頻率學(xué)派解決概率問(wèn)題的思路,即先做出一些假設(shè)(P(Bi)),再在這些假設(shè)下討論隨機(jī)事件的概率(P(A|Bi))。 對(duì)全概率公式稍作整理,就演化出了求解“逆概率”這一重要問(wèn)題。所謂“逆概率”解決的是在事件結(jié)果已經(jīng)確定的條件下(P(A)),推斷各種假設(shè)發(fā)生的可能性(P(Bi|A))。由于這套理論首先由英國(guó)牧師托馬斯·貝葉斯提出,因而其通用的公式形式被稱為貝葉斯公式:貝葉斯公式可以進(jìn)一步抽象為貝葉斯定理(Bayes' theorem):式中的 P(H) 被稱為先驗(yàn)概率(prior probability),即預(yù)先設(shè)定的假設(shè)成立的概率;P(D|H) 被稱為似然概率(likelihood function),是在假設(shè)成立的前提下觀測(cè)到結(jié)果的概率;P(H|D) 被稱為后驗(yàn)概率(posterior probability),即在觀測(cè)到結(jié)果的前提下假設(shè)成立的概率。從科學(xué)研究的方法論來(lái)看,貝葉斯定理提供了一種全新的邏輯。它根據(jù)觀測(cè)結(jié)果尋找合理的假設(shè),或者說(shuō)根據(jù)觀測(cè)數(shù)據(jù)尋找最佳的理論解釋,其關(guān)注的焦點(diǎn)在于后驗(yàn)概率。概率論的貝葉斯學(xué)派(Bayesian probability)正是誕生于這種理念。
在貝葉斯學(xué)派眼中,概率描述的是隨機(jī)事件的可信程度。如果手機(jī)里的天氣預(yù)報(bào)應(yīng)用給出明天下雨的概率是 85%,這就不能從頻率的角度來(lái)解釋了,而是意味著明天下雨這個(gè)事件的可信度是 85%。
頻率學(xué)派認(rèn)為假設(shè)是客觀存在且不會(huì)改變的,即存在固定的先驗(yàn)分布,只是作為觀察者的我們無(wú)從知曉。因而在計(jì)算具體事件的概率時(shí),要先確定概率分布的類型和參數(shù),以此為基礎(chǔ)進(jìn)行概率推演。
相比之下,貝葉斯學(xué)派則認(rèn)為固定的先驗(yàn)分布是不存在的,參數(shù)本身也是隨機(jī)數(shù)。換言之,假設(shè)本身取決于觀察結(jié)果,是不確定并且可以修正的。數(shù)據(jù)的作用就是對(duì)假設(shè)做出不斷的修正,使觀察者對(duì)概率的主觀認(rèn)識(shí)更加接近客觀實(shí)際。
概率論是線性代數(shù)之外,人工智能的另一個(gè)理論基礎(chǔ),多數(shù)機(jī)器學(xué)習(xí)模型采用的都是基于概率論的方法。但由于實(shí)際任務(wù)中可供使用的訓(xùn)練數(shù)據(jù)有限,因而需要對(duì)概率分布的參數(shù)進(jìn)行估計(jì),這也是機(jī)器學(xué)習(xí)的核心任務(wù)。
概率的估計(jì)有兩種方法:最大似然估計(jì)法(maximum likelihood estimation)和最大后驗(yàn)概率法(maximum a posteriori estimation),兩者分別體現(xiàn)出頻率學(xué)派和貝葉斯學(xué)派對(duì)概率的理解方式。
最大似然估計(jì)法的思想是使訓(xùn)練數(shù)據(jù)出現(xiàn)的概率最大化,依此確定概率分布中的未知參數(shù),估計(jì)出的概率分布也就最符合訓(xùn)練數(shù)據(jù)的分布。最大后驗(yàn)概率法的思想則是根據(jù)訓(xùn)練數(shù)據(jù)和已知的其他條件,使未知參數(shù)出現(xiàn)的可能性最大化,并選取最可能的未知參數(shù)取值作為估計(jì)值。在估計(jì)參數(shù)時(shí),最大似然估計(jì)法只需要使用訓(xùn)練數(shù)據(jù),最大后驗(yàn)概率法除了數(shù)據(jù)外還需要額外的信息,就是貝葉斯公式中的先驗(yàn)概率。
從理論的角度來(lái)說(shuō),頻率學(xué)派和貝葉斯學(xué)派各有千秋,都發(fā)揮著不可替代的作用。但具體到人工智能這一應(yīng)用領(lǐng)域,基于貝葉斯定理的各種方法與人類的認(rèn)知機(jī)制吻合度更高,在機(jī)器學(xué)習(xí)等領(lǐng)域中也扮演著更加重要的角色。
概率論的一個(gè)重要應(yīng)用是描述隨機(jī)變量(random variable)。根據(jù)取值空間的不同,隨機(jī)變量可以分成兩類:離散型隨機(jī)變量(discrete random variable)和連續(xù)型隨機(jī)變量(continuous random variable)。在實(shí)際應(yīng)用中,需要對(duì)隨機(jī)變量的每個(gè)可能取值的概率進(jìn)行描述。
離散變量的每個(gè)可能的取值都具有大于 0 的概率,取值和概率之間一一對(duì)應(yīng)的關(guān)系就是離散型隨機(jī)變量的分布律,也叫概率質(zhì)量函數(shù)(probability mass function)。概率質(zhì)量函數(shù)在連續(xù)型隨機(jī)變量上的對(duì)應(yīng)就是概率密度函數(shù)(probability density function)。
需要說(shuō)明的是,概率密度函數(shù)體現(xiàn)的并非連續(xù)型隨機(jī)變量的真實(shí)概率,而是不同取值可能性之間的相對(duì)關(guān)系。對(duì)連續(xù)型隨機(jī)變量來(lái)說(shuō),其可能取值的數(shù)目為不可列無(wú)限個(gè),當(dāng)歸一化的概率被分配到這無(wú)限個(gè)點(diǎn)上時(shí),每個(gè)點(diǎn)的概率都是個(gè)無(wú)窮小量,取極限的話就等于零。而概率密度函數(shù)的作用就是對(duì)這些無(wú)窮小量加以區(qū)分。雖然在x→∞ 時(shí),1/x 和 2/x 都是無(wú)窮小量,但后者永遠(yuǎn)是前者的 2 倍。這類相對(duì)意義而非絕對(duì)意義上的差別就可以被概率密度函數(shù)所刻畫(huà)。對(duì)概率密度函數(shù)進(jìn)行積分,得到的才是連續(xù)型隨機(jī)變量的取值落在某個(gè)區(qū)間內(nèi)的概率。
定義了概率質(zhì)量函數(shù)與概率密度函數(shù)后,就可以給出一些重要分布的特性。重要的離散分布包括兩點(diǎn)分布、二項(xiàng)分布和泊松分布,重要的連續(xù)分布則包括均勻分布、指數(shù)分布和正態(tài)分布。
當(dāng) μ=0,σ=1 時(shí),上式稱為標(biāo)準(zhǔn)正態(tài)分布。正態(tài)分布是最常見(jiàn)最重要的一種分布,自然界中的很多現(xiàn)象都近似地服從正態(tài)分布。
除了概率質(zhì)量函數(shù)/概率密度函數(shù)之外,另一類描述隨機(jī)變量的參數(shù)是其數(shù)字特征。數(shù)字特征是用于刻畫(huà)隨機(jī)變量某些特性的常數(shù),包括數(shù)學(xué)期望(expected value)、方差(variance)和協(xié)方差(covariance)。
數(shù)學(xué)期望即均值,體現(xiàn)的是隨機(jī)變量可能取值的加權(quán)平均,即根據(jù)每個(gè)取值出現(xiàn)的概率描述作為一個(gè)整體的隨機(jī)變量的規(guī)律。方差表示的則是隨機(jī)變量的取值與其數(shù)學(xué)期望的偏離程度。方差較小意味著隨機(jī)變量的取值集中在數(shù)學(xué)期望附近,方差較大則意味著隨機(jī)變量的取值比較分散。
數(shù)學(xué)期望和方差描述的都是單個(gè)隨機(jī)變量的數(shù)字特征,如果要描述兩個(gè)隨機(jī)變量之間的相互關(guān)系,就需要用到協(xié)方差和相關(guān)系數(shù)。協(xié)方差度量了兩個(gè)隨機(jī)變量之間的線性相關(guān)性,即變量 Y 能否表示成以另一個(gè)變量 X 為自變量的 aX+b 的形式。
根據(jù)協(xié)方差可以進(jìn)一步求出相關(guān)系數(shù)(correlation coefficient),相關(guān)系數(shù)是一個(gè)絕對(duì)值不大于 1 的常數(shù),它等于 1 意味著兩個(gè)隨機(jī)變量滿足完全正相關(guān),等于 -1 意味著兩者滿足完全負(fù)相關(guān),等于 0 則意味著兩者不相關(guān)。需要說(shuō)明的是,無(wú)論是協(xié)方差還是相關(guān)系數(shù),刻畫(huà)的都是線性相關(guān)的關(guān)系。如果隨機(jī)變量之間的關(guān)系滿足 Y=X2,這樣的非線性相關(guān)性就超出了協(xié)方差的表達(dá)能力。
今天我和你分享了人工智能必備的概率論基礎(chǔ),著重于抽象概念的解釋而非具體的數(shù)學(xué)公式,其要點(diǎn)如下:
在今天的機(jī)器學(xué)習(xí)中,大量任務(wù)是根據(jù)已有的數(shù)據(jù)預(yù)測(cè)可能出現(xiàn)的情況,因而貝葉斯定理得到了廣泛應(yīng)用。那么在生活中,你能想到哪些實(shí)例,是從已有的觀測(cè)結(jié)果反過(guò)來(lái)推演假設(shè)成立的呢? 歡迎發(fā)表你的觀點(diǎn)。
聯(lián)系客服