概率與統(tǒng)計(jì)及相關(guān)概念是整個(gè)機(jī)器學(xué)習(xí)的基礎(chǔ)。其與空間幾何、線性代數(shù)一起構(gòu)成了深度學(xué)習(xí)的理論基石。很多機(jī)器學(xué)習(xí)的理論描述都是基于概率的。而概率本身也是理工學(xué)科的基礎(chǔ)性工具,廣泛地應(yīng)用于工程的各個(gè)領(lǐng)域。掌握好概率論是深入學(xué)習(xí)機(jī)器學(xué)習(xí)的基礎(chǔ),可以幫助我們進(jìn)行相關(guān)公式的推演以及系統(tǒng)的描述。
這種概率化描述系統(tǒng)的過程比我們前面確定性的描述過程(空間曲面)更加抽象與難以理解。很多機(jī)器學(xué)習(xí)工作者在這里會(huì)遇到學(xué)習(xí)過程中的一個(gè)很大的障礙—很多機(jī)器學(xué)習(xí)系統(tǒng)是通過概率來進(jìn)行描述的,這種不確定性通常與我們的直覺相悖。
本書在編寫過程中盡量使用兩種方式來描述系統(tǒng),即函數(shù)式描述以及概率式描述,方便對(duì)概率論不甚了解的讀者閱讀本書。如果讀者對(duì)概率概念較為熟悉,則可跳過本章進(jìn)行后續(xù)學(xué)習(xí)。本章將對(duì)概率與統(tǒng)計(jì)領(lǐng)域的基本概念進(jìn)行闡述,需要著重理解什么是建模以及最大似然估計(jì)。
機(jī)器學(xué)習(xí)非常依賴于概率以及相關(guān)的數(shù)學(xué)工具。因此在深度學(xué)習(xí)中與概率相關(guān)的概念的出現(xiàn)頻率非常高。我們習(xí)慣了使用確定性的思維來描述事物,這種確定性的思維在一定程度上類似于函數(shù)。
(2.1)
也就是說,我們給定一個(gè)
就會(huì)有一個(gè)確定的
。但這種描述方式存在缺陷。因?yàn)榄h(huán)境本身可能存在噪聲,這使我們給定
的時(shí)候輸出的值與
之間可能出現(xiàn)偏差,或者由于我們的模型本身復(fù)雜度不足以描述數(shù)據(jù)導(dǎo)致
與
之間可能出現(xiàn)偏差?;仡櫟?章所列舉的超定方程的例子。我們?cè)谟弥本€擬合4個(gè)數(shù)據(jù)點(diǎn)的過程中由于直線形式較為簡(jiǎn)單,因此并不能完美地穿過所有的數(shù)據(jù)點(diǎn),而只能近似。這種近似就是模型本身復(fù)雜度不足所引起的偏差。因此為了描述真實(shí)世界,引入概率是必要的。列舉一個(gè)簡(jiǎn)單的例子:拋硬幣。這是一個(gè)簡(jiǎn)單的隨機(jī)事件,隨機(jī)事件就是在重復(fù)試驗(yàn)中有規(guī)律地出現(xiàn)的事件。拋硬幣只有兩種情況{正面,反面},這種由全體樣本點(diǎn)組成的集合,稱為樣本空間,可以用大寫字母表示。由于在拋硬幣的過程中彼此之間并不影響,出現(xiàn)正面和反面的概率均是0.5,因此我們稱樣本是獨(dú)立同分布的(Independent and Identically Distributed, IID)。
概率與頻率
拋硬幣過程中假設(shè)做了1 000次試驗(yàn),出現(xiàn)了501次正面,那么此時(shí)出現(xiàn)正面的頻率就是。而概率就是樣本無窮大時(shí)的頻率,代表了隨機(jī)事件的特征。通常用p來表示概率—
在這個(gè)過程中我們并未獲取任何知識(shí),因?yàn)閽佊矌旁囼?yàn)本身就是一個(gè)等概率分布。從另外一個(gè)角度來講,我們更加深入地研究了拋硬幣的過程,獲取了更多的特征,這里的特征指的是我們觀測(cè)到拋硬幣試驗(yàn)中拋硬幣的高度、使用力氣的大小、風(fēng)速等一系列觀測(cè)參數(shù)。此時(shí)我們?cè)儆?jì)算硬幣正面的概率就是在這些條件下所得到的概率。
p(正面|高度, 力度, 風(fēng)速,?) (2.2)
實(shí)際上式 (2.2) 就是一個(gè)條件概率,它代表了在我們觀察到外界的情況下對(duì)拋硬幣事件的預(yù)測(cè)。更加通用的條件概率書寫形式如下。
(2.3)
如果此時(shí)概率依然是0.5,那么代表我們實(shí)際上沒有獲取任何知識(shí)。如果我們通過一系列統(tǒng)計(jì)將預(yù)測(cè)硬幣概率為0.9,那么代表我們是可以通過外界的觀察而對(duì)隨機(jī)事件進(jìn)行有效預(yù)測(cè)的。這就是說我們從數(shù)據(jù)中發(fā)現(xiàn)了可用的知識(shí),這是一個(gè)典型的機(jī)器學(xué)習(xí)過程。機(jī)器學(xué)習(xí)就是通過對(duì)觀測(cè)數(shù)據(jù)進(jìn)行分析,從而獲取有用的知識(shí)。
如果拋硬幣試驗(yàn)的樣本空間是離散的,則只有兩種情況。而對(duì)于其他情況,比如說某一電視機(jī)第一次損壞的時(shí)間,這個(gè)時(shí)間是連續(xù)的,這種稱為連續(xù)型隨機(jī)變量。離散型隨機(jī)變量與連續(xù)型隨機(jī)變量對(duì)應(yīng)于機(jī)器學(xué)習(xí)的兩個(gè)基本問題—分類問題與回歸問題。連續(xù)型隨機(jī)變量的概率僅在積分條件下有意義。
(2.4)
對(duì)于電視機(jī)損壞的問題而言,這代表從a時(shí)刻開始到b時(shí)刻之間損壞的概率。
稱為概率密度函數(shù)。概率密度函數(shù)符合下面的約束條件。
(1)
,概率不存在負(fù)值。
(2)
,所有可能情況之和為1。離散類型隨機(jī)變量需將積分改為求和。
如果有多個(gè)隨機(jī)變量,則概率可以寫為如下形式。
(2.5)
此時(shí)稱為聯(lián)合概率分布,其代表了
同時(shí)發(fā)生的概率。舉一個(gè)簡(jiǎn)單的例子,我們有兩枚硬幣A和B,硬幣是不均勻的,A出現(xiàn)正面概率是0.6,B出現(xiàn)正面概率是0.7。那么可以將兩枚硬幣的聯(lián)合概率寫成如表2.1所示的形式。
表2.1 兩枚硬幣試驗(yàn)中條件概率與邊緣概率
由表2.1可以看到,對(duì)于獨(dú)立試驗(yàn)而言,其概率是直接相乘的。拋硬幣A、B這種獨(dú)立試驗(yàn)假設(shè)也是樸素貝葉斯算法的基本假設(shè)。
(2.6)
其中涉及了新的概念—邊緣概率。邊緣概率就是根據(jù)概率的聯(lián)合分布獲取某一隨機(jī)變量的分布。其形式如下。
(2.7)
對(duì)于條件概率和聯(lián)合概率有如下公式。
(2.8)
從另一個(gè)角度來講,條件概率給定了某些事件的依賴關(guān)系,比如濕度過高會(huì)直接導(dǎo)致下雨,而下雨又與降溫有直接關(guān)系,但溫度降低和濕度之間沒有明顯的依賴關(guān)系。這種依賴關(guān)系可以通過圖形化的方式來展示,如圖2.1所示。
圖2.1 概率的有向圖模型
如果濕度、下雨、降溫三者之間沒有明顯的關(guān)系,也就是獨(dú)立的事件,那么可以用式 (2.6)進(jìn)行聯(lián)合概率的分解。但三者之間顯然不是獨(dú)立的。下雨在濕度確定的情況下是獨(dú)立的,而降溫則是在下雨的條件下是獨(dú)立的。因此,概率分解方式應(yīng)該為p(濕度,下雨,降溫)=p(濕度)p(下雨|濕度)p(降溫|下雨)。這種概率分解可以簡(jiǎn)化建模。
這稱為概率圖模型,它代表了隨機(jī)變量的依賴關(guān)系。假設(shè)對(duì)于聯(lián)合概率分布某些變量存在依賴關(guān)系,則其可以寫為如下形式。
(2.9)
此時(shí)概率有向圖的形式如圖2.2所示。
圖2.2 概率有向圖模型
如果概率之間并無依賴關(guān)系,則可以用無向圖來表示,如圖2.3所示。
圖2.3 無向圖表示的概率模型
此時(shí)概率可以分解為如下形式。
(2.10)
這稱為概率無向圖模型或馬爾科夫隨機(jī)場(chǎng),其中Z是歸一化常數(shù)。式 (2.10) 的分解依據(jù)為最大子團(tuán)的分解。任意兩個(gè)節(jié)點(diǎn)間均有線連接,而加入任意新節(jié)點(diǎn)均無法滿足前面的條件,則稱這種結(jié)構(gòu)為最大子團(tuán)。兩種圖模型均可以用來表示聯(lián)合概率分解。這種圖示對(duì)于表示來說是清晰直觀的。
對(duì)于隨機(jī)變量本身,我們很難用確定性的公式來描述,因此可以借助隨機(jī)變量的數(shù)字特征來描述變量?jī)?nèi)在特征。在機(jī)器學(xué)習(xí)中我們所關(guān)注的隨機(jī)變量的數(shù)字特征主要有隨機(jī)變量的數(shù)學(xué)期望、方差、標(biāo)準(zhǔn)差、協(xié)方差等。這其中最簡(jiǎn)單也是最重要的就是期望。期望的公式形式如下。
(2.11)
式 (2.11) 列舉了兩種隨機(jī)變量的表示形式,一種是離散型隨機(jī)變量,另一種是連續(xù)型隨機(jī)變量。一般認(rèn)為積分就是特殊形式的求和,因此兩個(gè)公式并無本質(zhì)區(qū)別。但這里需要說明的一點(diǎn)是,期望(Expected Value)與均值(Arithmetic Mean)是不同的。期望描繪的是數(shù)據(jù)的真實(shí)情況,是概率學(xué)內(nèi)容;均值僅是對(duì)樣本數(shù)據(jù)進(jìn)行的統(tǒng)計(jì),屬于統(tǒng)計(jì)學(xué)范疇。在樣本數(shù)量較多的情況下,由大數(shù)定理可以知道均值和樣本相等。一般認(rèn)為,樣本均值是對(duì)期望的無偏估計(jì)。
(2.12)
僅有數(shù)據(jù)均值是沒有用的。對(duì)于樣本本身分布而言還需要統(tǒng)計(jì)分布的離散程度,這種離散程度稱為方差。方差(Variance)概念的產(chǎn)生就是為了描述變量的離散程度,其表達(dá)方式如下。
(2.13)
標(biāo)準(zhǔn)差是在方差的基礎(chǔ)上開根號(hào),其與方差可以一起用來描述數(shù)據(jù)的分布情況。為了說明問題,我們繪制圖像來展示數(shù)據(jù)分布的描述方式,如圖2.4所示。
圖2.4 數(shù)據(jù)的不同方差圖示
如果數(shù)據(jù)方差越大,則數(shù)據(jù)分布越分散。從統(tǒng)計(jì)條形圖上可以看到,紅色統(tǒng)計(jì)圖數(shù)據(jù)標(biāo)準(zhǔn)差較大,因此看起來分布更加分散。
條形圖
條形圖用來描述數(shù)據(jù)的分布情況,數(shù)據(jù)x軸表示隨機(jī)變量取值,縱軸表示在某一區(qū)間樣本數(shù)量的多少??梢詫?duì)條形圖概率進(jìn)行歸一化,在大樣本情況下歸一化條形圖描繪了樣本的概率分布。
前面兩個(gè)統(tǒng)計(jì)數(shù)據(jù)均值以及方差均是描繪了一維數(shù)據(jù)的特征。如果樣本本身有兩個(gè)屬性,則可以通過協(xié)方差(Covariance)來描述數(shù)據(jù)兩個(gè)屬性之間的線性相關(guān)性。
(2.14)
這里
、
代表數(shù)據(jù)點(diǎn)的兩個(gè)屬性,如果將數(shù)據(jù)存儲(chǔ)為二維矩陣,那么每一行代表一個(gè)樣本,每一列代表數(shù)據(jù)的某一屬性。此時(shí)
、
就是二維矩陣的列向量。如果對(duì)式 (2.14) 使用方差進(jìn)行歸一化,我們得到的就是兩列數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)。
(2.15)
這種歸一化表示是有益的,我們可以通過直接觀察相關(guān)系數(shù)的取值來衡量?jī)闪兄g的相關(guān)性,如圖2.5所示。
圖2.5 不同分布數(shù)據(jù)的線性相關(guān)性
由圖2.5可知,如果兩個(gè)列屬性之間線性相關(guān)性較強(qiáng),則其相關(guān)系數(shù)接近于1或者?1,否則接近于0。
線性相關(guān)性
這里的線性相關(guān)性與第1章中的向量的相關(guān)性是類似的。如果兩個(gè)向量(列向量)具有很強(qiáng)的線性相關(guān)性,則代表一個(gè)向量可以由另一個(gè)向量來表示:。從另一個(gè)角度來講,數(shù)據(jù)內(nèi)部存在冗余,我們僅需要存儲(chǔ)即可表征。
對(duì)于多維向量而言,其組織形式為矩陣:
,其中
代表列向量,矩陣的每一行代表一個(gè)樣本,每一列
代表樣本的元素。對(duì)于這種數(shù)據(jù),需要將協(xié)方差變?yōu)閰f(xié)方差矩陣(Convariance Matrix)來描述線性相關(guān)性。
(2.16)
它用來衡量樣本各列之間的線性相關(guān)性,如果各列之間的線性相關(guān)性比較強(qiáng),則意味著其中一列可以用另一列來表示。這種盡量減少各列數(shù)據(jù)的數(shù)據(jù)相關(guān)性的算法就稱為PCA算法。PCA算法可以有效地減少數(shù)據(jù)冗余,通常用于數(shù)據(jù)預(yù)處理過程。PCA算法的基本思想的公式化描述如下。
(2.17)
假設(shè)
中每一列元素均值為0,那么式 (2.17) 就能成立。由此現(xiàn)在的一個(gè)問題就是找到一個(gè)合適的變換矩陣
使得
能夠變換為
的形式。也就是變換后使各列之間的線性相關(guān)性最小,這樣協(xié)方差矩陣可以對(duì)角化,在此假設(shè)對(duì)
進(jìn)行變換的方式為線性變換。
(2.18)
要使變換后矩陣
可以用式 (2.17) 的形式對(duì)角化,可以對(duì)矩陣
其進(jìn)行特征值分解。
(2.19)
此時(shí)僅需要使
,那么變換后形式如下。
(2.20)
式 (2.18) 中的變換矩陣
就是式 (2.19)中的
。PCA算法實(shí)際上與矩陣的奇異值分解有很大程度的相似性,或者底層算法可以通用。
信息論是概率與統(tǒng)計(jì)的衍生內(nèi)容。很多時(shí)候我們需要對(duì)系統(tǒng)的混亂程度進(jìn)行衡量,通常而言這是難以量化的,在熱力學(xué)中引入了熵的概念。在物理學(xué)中系統(tǒng)總是趨于向熵增大的方向發(fā)展,也就是從有用的機(jī)械能到內(nèi)能的轉(zhuǎn)換,這種轉(zhuǎn)換在孤立系統(tǒng)中是不可逆的。以一個(gè)形象的例子來說:兩種顏色的沙子,在混合前是有規(guī)律的。而在將其混合后整個(gè)系統(tǒng)的混亂程度變得很高,如果要將兩種顏色分開,需要人為挑選,這個(gè)過程需要做功。同樣地,機(jī)器學(xué)習(xí)過程也是如此,在開始過程中系統(tǒng)輸出是無規(guī)律的,我們需要進(jìn)行訓(xùn)練使整個(gè)系統(tǒng)可以進(jìn)行某種預(yù)測(cè)。為了衡量系統(tǒng)本身的復(fù)雜度,在信息論中引入了與熱力學(xué)熵類似的信息熵。在了解信息熵之前,我們需要定義自信息。
(2.21)
自信息在信息學(xué)中是以2為底的
,單位是bit。這個(gè)概念比較容易理解,如果某一概率特別小的事件發(fā)生了,那么說明它帶來了足夠多的有用信息。對(duì)于某一變量而言,我們通常并不關(guān)心它的具體取值,而只是關(guān)注它的分布形式。對(duì)自信息取均值,就得到了信息熵,也稱香農(nóng)熵(Shannon Entropy),其可以用來衡量系統(tǒng)的混亂程度。
(2.22)
這里如果
或1,那么
,式 (2.21) 對(duì)于離散變量就可以寫成求和形式。
這里以拋硬幣來舉例。如果在拋硬幣的過程中,我們得到正反面的概率均為0.5,前面說到這種情況是無法學(xué)到任何知識(shí)的,這種知識(shí)量化就是信息熵,計(jì)算公式如下。
H(硬幣) = - p(正面)log( p(正面) ) - p(反面)log{( p(反面) ) =}1 (2.23)
前面說到,log以2為底,單位是bit。此時(shí),對(duì)于硬幣而言,用1bit信息就可以表示狀態(tài)0或者1。如果通過某種方式,我們預(yù)測(cè)得知正面概率變?yōu)榱?,則計(jì)算可得以下結(jié)果。
H(硬幣) = - p(正面)log( p(正面) ) - p(反面)log{( p(反面) ) =}0 (2.24)
此時(shí)信息熵變小了,也就是系統(tǒng)混亂程度變小了。前面講過我們可以通過一定條件預(yù)測(cè)出拋硬幣的結(jié)果。此時(shí)我們從系統(tǒng)中學(xué)到了有用的知識(shí),從而使系統(tǒng)混亂程度降低。以硬幣正面概率作為變量,以熵作為函數(shù),如圖2.6所示。
圖2.6 預(yù)測(cè)硬幣正反概率所對(duì)應(yīng)的信息熵
因此,機(jī)器學(xué)習(xí)過程就是從數(shù)據(jù)中尋找規(guī)律從而使系統(tǒng)熵變小的過程。
在機(jī)器學(xué)習(xí)中衡量?jī)蓚€(gè)分布相似度的概念是交叉熵(Cross Entropy)。
(2.25)
這也是機(jī)器學(xué)習(xí)中常用的損失函數(shù)之一(損失函數(shù)我們放到后面詳細(xì)描述)。相比傳統(tǒng)的點(diǎn)的距離的損失函數(shù),交叉熵在計(jì)算梯度的過程中通常更加有效。因此,交叉熵在處理多分類問題時(shí)是更加合理的選擇。
在機(jī)器學(xué)習(xí)中很多理論是基于概率的,但是在理論推演過程或者實(shí)現(xiàn)過程中它通常用函數(shù)
來表示,其中
是輸入樣本,
是模型。在這個(gè)過程中,需要在概率與函數(shù)輸出之間進(jìn)行轉(zhuǎn)換,其常用的形式如下。
(2.26)
這里將模型輸出轉(zhuǎn)換為概率形式,
是歸一化常數(shù),m為自定義常數(shù)通常為1。這個(gè)過程稱為Softmax。對(duì)于多分類問題,我們給定的數(shù)據(jù)標(biāo)簽為d,它是一個(gè)多維向量,每一個(gè)維度上都保存了可能屬于某一類的概率。例如,對(duì)于年齡層劃分[青年,中年,老年]的問題,數(shù)據(jù)標(biāo)簽可能為
,表示這個(gè)人屬于老年的概率為100%,這是因?yàn)槲覀冊(cè)跇?biāo)注數(shù)據(jù)時(shí)可以確定這個(gè)人是老年人。這種編碼方式稱為one-hot編碼。
這種編碼方式是對(duì)應(yīng)機(jī)器學(xué)習(xí)問題而產(chǎn)生的,因?yàn)槿绻?、2、3來表示不同的年齡階段,則可能難以訓(xùn)練。而預(yù)測(cè)輸出
,顯然并非概率的表示,因?yàn)楦怕时硎静粫?huì)存在負(fù)數(shù),同時(shí)滿足約束之和為1。
對(duì)于第一個(gè)問題,我們可以通過e指數(shù)的方式解決。將
變?yōu)?/p>
,之后再進(jìn)行歸一化
,整個(gè)過程稱為Softmax。它實(shí)際上解決的問題是將函數(shù)轉(zhuǎn)換為概率表示,也是基于能量的模型。
(2.27)
之后就可以用Softmax的結(jié)果與原有的標(biāo)簽
計(jì)算交叉熵來作為損失函數(shù)。
機(jī)器學(xué)習(xí)模型均可以通過概率的方式進(jìn)行描述。對(duì)于上面所述的一系列變換過程,均可以描繪為概率生成模型。
(2.28)
假設(shè)
是從某種分布
中抽取的向量,對(duì)于線性因子來講,其生成過程如下。
(2.29)
式 (2.29) 中
為噪聲,那么它所描述的生成過程類似于如下公式。
(2.30)
式 (2.30) 描述的是線性變換的過程。因此很多線性變換可以描述成上述形式,這個(gè)過程如圖2.7所示。
圖2.7 線性因子圖示
對(duì)于 PCA 算法來講,式 (2.28) 中的
是線性獨(dú)立的。它的產(chǎn)生方式也是式 (2.30) 所描述的線性方式,而分布是單位分布。
(2.31)
假設(shè)
的協(xié)方差矩陣為單位矩陣,則由其產(chǎn)生的
如下。
(2.32)
這里依然以拋硬幣試驗(yàn)為例。記錄
次隨機(jī)試驗(yàn)
,硬幣正面
,出現(xiàn)正面的概率為
,從頻率學(xué)派的觀點(diǎn)來看,概率
應(yīng)該是僅依賴于現(xiàn)有試驗(yàn)結(jié)果的,也就是通過數(shù)據(jù)取得的。
(2.33)
這個(gè)概率應(yīng)該是令式 (2.33) 取最大值的概率。在假設(shè)了正面出現(xiàn)的概率后,假設(shè)試驗(yàn)是有順序的同時(shí)也是獨(dú)立重復(fù)的,那么可以計(jì)算出現(xiàn)隨機(jī)試驗(yàn)情況下所得的概率。
(2.34)
計(jì)算上述以
為自變量的函數(shù)的最大值。
令函數(shù)為如下形式。
(2.36)
式 (2.36) 取得最小值時(shí)
,由此認(rèn)為取得正面的概率為
。求解硬幣取得正面概率的過程稱為最大似然估計(jì)(MLE)。
貝葉斯學(xué)派則認(rèn)為概率符合一個(gè)先驗(yàn)分布。這個(gè)先驗(yàn)分布可以糾正采樣的偏差。
(2.37)
在式 (2.37) 中
(1)為后驗(yàn)。
(2)為似然。
(3)為先驗(yàn)。
(4)先驗(yàn)概率+數(shù)據(jù)=后驗(yàn)概率。
先驗(yàn)概率是什么意思?假設(shè)為了估計(jì)此次投擲硬幣為正面的概率,我先用自己的硬幣做了
次實(shí)驗(yàn),正面出現(xiàn)了
次,假設(shè)此時(shí)正面概率為
,那么出現(xiàn)這種情況的概率如下。
式 (2.38) 中constant為歸一化常數(shù),稱為Beta函數(shù)。
(2.39)
到此為止,我們都在描述
的分布,也就是硬幣為正面概率的分布??梢钥吹绞褂梦易约旱挠矌殴烙?jì)時(shí),取得0.5的概率是最大的,如圖2.8所示。
這個(gè)概率就可以作為我們的先驗(yàn)分布,它是概率的概率。以這個(gè)先驗(yàn)分布,我們?nèi)ス烙?jì)其他硬幣的試驗(yàn),假設(shè)使用另一枚硬幣,拋4次,出現(xiàn)正面為
次,出現(xiàn)反面為
次,那么在貝葉斯理論下出現(xiàn)正面的概率如下。
圖2.8 硬幣為正面的概率分布
將式 (2.40) 繪制成圖2.9所示的曲線。
圖2.9 融入先驗(yàn)概率后計(jì)算的正面概率分布
此時(shí)硬幣正面概率最大值為0.375。這個(gè)數(shù)值很重要,我們以最大似然估計(jì)預(yù)測(cè)的硬幣正面概率是0.25。此時(shí)是沒有先驗(yàn)分布的,如果引入了先驗(yàn)分布,則取得的正面概率應(yīng)該為0.375。而我們拋硬幣的次數(shù)僅為4次,因此很大可能出現(xiàn)偏差,先驗(yàn)概率的引入則可以糾正這種偏差。從另一個(gè)角度來看相當(dāng)于在最大似然估計(jì)的基礎(chǔ)上加入了正則化項(xiàng),這種估計(jì)稱為最大后驗(yàn)估計(jì)(MAP)。
假設(shè)神經(jīng)網(wǎng)絡(luò)輸出為
,通過Softmax處理。
(2.41)
此時(shí)分類問題神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)過程可以描述為,給定樣本
后輸出屬于某一類的概率
,而神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練參數(shù)為
。
(2.42)
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程則可以描述為如下形式。
式 (2.43) 中,
為one-hot形式的向量??梢钥吹?,最大似然估計(jì)與交叉熵作為損失函數(shù)具有相同的意義。
本文截選自《深度學(xué)習(xí)算法與實(shí)踐》
本書主要內(nèi)容分為3個(gè)部分。
第一部分為深度學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)(第1~4章)。這部分內(nèi)容包括空間幾何與線性代數(shù)、概率與統(tǒng)計(jì)、函數(shù)建模與優(yōu)化、機(jī)器學(xué)習(xí)庫的使用。其中,前兩個(gè)是相對(duì)獨(dú)立的,因此讀者可以根據(jù)自己的基礎(chǔ)進(jìn)行選擇性閱讀;建模與優(yōu)化綜合了線性代數(shù)、概率與統(tǒng)計(jì)的內(nèi)容。
第二部分為深度學(xué)習(xí)基本組件(第5~9章)。這部分內(nèi)容包括深度學(xué)習(xí)模型與全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、循環(huán)神經(jīng)網(wǎng)絡(luò)擴(kuò)展以及深度學(xué)習(xí)優(yōu)化。這些基本組件均配有與訓(xùn)練預(yù)測(cè)過程基本實(shí)現(xiàn)。讀者可以脫離機(jī)器學(xué)習(xí)庫實(shí)現(xiàn)深度學(xué)習(xí)算法,這是理想的學(xué)習(xí)結(jié)果,但并非理想的學(xué)習(xí)過程。作為初學(xué)者應(yīng)當(dāng)在實(shí)踐中逐步深入地進(jìn)行學(xué)習(xí)。
第三部分為深度學(xué)習(xí)中常見的應(yīng)用場(chǎng)景以及相關(guān)模型(第10~12章)。這部分內(nèi)容包括圖像處理(物體檢測(cè)、人臉識(shí)別)、自然語言處理(語音識(shí)別、自然語言翻譯、語音生成)和非監(jiān)督學(xué)習(xí)(對(duì)抗生成網(wǎng)絡(luò)、圖像去噪、增強(qiáng)學(xué)習(xí))。
作為入門圖書,本書會(huì)從簡(jiǎn)單的函數(shù)入手描述深度學(xué)習(xí)(這是編程所必需的),同時(shí)介紹深度學(xué)習(xí)的基本元素與實(shí)現(xiàn)(如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò))。至于更復(fù)雜的理論,僅進(jìn)行預(yù)測(cè)過程公式的說明與機(jī)器學(xué)習(xí)庫版本的實(shí)現(xiàn)(如注意力機(jī)制)。訓(xùn)練過程可能需要借助TensorFlow來完成,但這不代表其本身與TensorFlow是綁定的關(guān)系。希望看完本書的讀者能夠抽出時(shí)間來進(jìn)行更系統(tǒng)的學(xué)習(xí)。比如從空間幾何、統(tǒng)計(jì)理論開始學(xué)習(xí),但作為初學(xué)者,不建議過分糾結(jié)基礎(chǔ)。如果要真正精通機(jī)器學(xué)習(xí)問題,時(shí)間和精力也是必須付出的成本。
聯(lián)系客服