概率與統(tǒng)計(jì)及相關(guān)概念是整個(gè)機(jī)器學(xué)習(xí)的基礎(chǔ)。其與空間幾何、線性代數(shù)一起構(gòu)成了深度學(xué)習(xí)的理論基石。很多機(jī)器學(xué)習(xí)的理論描述都是基于概率的。而概率本身也是理工學(xué)科的基礎(chǔ)性工具，廣泛地應(yīng)用于工程的各個(gè)領(lǐng)域。掌握好概率論是深入學(xué)習(xí)機(jī)器學(xué)習(xí)的基礎(chǔ)，可以幫助我們進(jìn)行相關(guān)公式的推演以及系統(tǒng)的描述。

這種概率化描述系統(tǒng)的過程比我們前面確定性的描述過程（空間曲面）更加抽象與難以理解。很多機(jī)器學(xué)習(xí)工作者在這里會(huì)遇到學(xué)習(xí)過程中的一個(gè)很大的障礙—很多機(jī)器學(xué)習(xí)系統(tǒng)是通過概率來進(jìn)行描述的，這種不確定性通常與我們的直覺相悖。

本書在編寫過程中盡量使用兩種方式來描述系統(tǒng)，即函數(shù)式描述以及概率式描述，方便對(duì)概率論不甚了解的讀者閱讀本書。如果讀者對(duì)概率概念較為熟悉，則可跳過本章進(jìn)行后續(xù)學(xué)習(xí)。本章將對(duì)概率與統(tǒng)計(jì)領(lǐng)域的基本概念進(jìn)行闡述，需要著重理解什么是建模以及最大似然估計(jì)。

2.1　概率基礎(chǔ)概念

機(jī)器學(xué)習(xí)非常依賴于概率以及相關(guān)的數(shù)學(xué)工具。因此在深度學(xué)習(xí)中與概率相關(guān)的概念的出現(xiàn)頻率非常高。我們習(xí)慣了使用確定性的思維來描述事物，這種確定性的思維在一定程度上類似于函數(shù)。

　　(2.1)

也就是說，我們給定一個(gè)

就會(huì)有一個(gè)確定的

。但這種描述方式存在缺陷。因?yàn)榄h(huán)境本身可能存在噪聲，這使我們給定

的時(shí)候輸出的值與

之間可能出現(xiàn)偏差，或者由于我們的模型本身復(fù)雜度不足以描述數(shù)據(jù)導(dǎo)致

與

之間可能出現(xiàn)偏差?；仡櫟?章所列舉的超定方程的例子。我們?cè)谟弥本€擬合4個(gè)數(shù)據(jù)點(diǎn)的過程中由于直線形式較為簡(jiǎn)單，因此并不能完美地穿過所有的數(shù)據(jù)點(diǎn)，而只能近似。這種近似就是模型本身復(fù)雜度不足所引起的偏差。因此為了描述真實(shí)世界，引入概率是必要的。列舉一個(gè)簡(jiǎn)單的例子：拋硬幣。這是一個(gè)簡(jiǎn)單的隨機(jī)事件，隨機(jī)事件就是在重復(fù)試驗(yàn)中有規(guī)律地出現(xiàn)的事件。拋硬幣只有兩種情況{正面，反面}，這種由全體樣本點(diǎn)組成的集合，稱為樣本空間，可以用大寫字母表示。由于在拋硬幣的過程中彼此之間并不影響，出現(xiàn)正面和反面的概率均是0.5，因此我們稱樣本是獨(dú)立同分布的（Independent and Identically Distributed, IID）。

概率與頻率
拋硬幣過程中假設(shè)做了1 000次試驗(yàn)，出現(xiàn)了501次正面，那么此時(shí)出現(xiàn)正面的頻率就是。而概率就是樣本無窮大時(shí)的頻率，代表了隨機(jī)事件的特征。通常用p來表示概率—

在這個(gè)過程中我們并未獲取任何知識(shí)，因?yàn)閽佊矌旁囼?yàn)本身就是一個(gè)等概率分布。從另外一個(gè)角度來講，我們更加深入地研究了拋硬幣的過程，獲取了更多的特征，這里的特征指的是我們觀測(cè)到拋硬幣試驗(yàn)中拋硬幣的高度、使用力氣的大小、風(fēng)速等一系列觀測(cè)參數(shù)。此時(shí)我們?cè)儆?jì)算硬幣正面的概率就是在這些條件下所得到的概率。

p(正面|高度, 力度, 風(fēng)速,?)　　(2.2)

實(shí)際上式 (2.2) 就是一個(gè)條件概率，它代表了在我們觀察到外界的情況下對(duì)拋硬幣事件的預(yù)測(cè)。更加通用的條件概率書寫形式如下。

　　(2.3)

如果此時(shí)概率依然是0.5，那么代表我們實(shí)際上沒有獲取任何知識(shí)。如果我們通過一系列統(tǒng)計(jì)將預(yù)測(cè)硬幣概率為0.9，那么代表我們是可以通過外界的觀察而對(duì)隨機(jī)事件進(jìn)行有效預(yù)測(cè)的。這就是說我們從數(shù)據(jù)中發(fā)現(xiàn)了可用的知識(shí)，這是一個(gè)典型的機(jī)器學(xué)習(xí)過程。機(jī)器學(xué)習(xí)就是通過對(duì)觀測(cè)數(shù)據(jù)進(jìn)行分析，從而獲取有用的知識(shí)。

如果拋硬幣試驗(yàn)的樣本空間是離散的，則只有兩種情況。而對(duì)于其他情況，比如說某一電視機(jī)第一次損壞的時(shí)間，這個(gè)時(shí)間是連續(xù)的，這種稱為連續(xù)型隨機(jī)變量。離散型隨機(jī)變量與連續(xù)型隨機(jī)變量對(duì)應(yīng)于機(jī)器學(xué)習(xí)的兩個(gè)基本問題—分類問題與回歸問題。連續(xù)型隨機(jī)變量的概率僅在積分條件下有意義。

　　(2.4)

對(duì)于電視機(jī)損壞的問題而言，這代表從a時(shí)刻開始到b時(shí)刻之間損壞的概率。

稱為概率密度函數(shù)。概率密度函數(shù)符合下面的約束條件。

（1）

，概率不存在負(fù)值。

（2）

，所有可能情況之和為1。離散類型隨機(jī)變量需將積分改為求和。

如果有多個(gè)隨機(jī)變量，則概率可以寫為如下形式。

　　(2.5)

此時(shí)稱為聯(lián)合概率分布，其代表了

同時(shí)發(fā)生的概率。舉一個(gè)簡(jiǎn)單的例子，我們有兩枚硬幣A和B，硬幣是不均勻的，A出現(xiàn)正面概率是0.6，B出現(xiàn)正面概率是0.7。那么可以將兩枚硬幣的聯(lián)合概率寫成如表2.1所示的形式。

表2.1　兩枚硬幣試驗(yàn)中條件概率與邊緣概率

由表2.1可以看到，對(duì)于獨(dú)立試驗(yàn)而言，其概率是直接相乘的。拋硬幣A、B這種獨(dú)立試驗(yàn)假設(shè)也是樸素貝葉斯算法的基本假設(shè)。

　　(2.6)

其中涉及了新的概念—邊緣概率。邊緣概率就是根據(jù)概率的聯(lián)合分布獲取某一隨機(jī)變量的分布。其形式如下。

　　(2.7)

對(duì)于條件概率和聯(lián)合概率有如下公式。

　　(2.8)

從另一個(gè)角度來講，條件概率給定了某些事件的依賴關(guān)系，比如濕度過高會(huì)直接導(dǎo)致下雨，而下雨又與降溫有直接關(guān)系，但溫度降低和濕度之間沒有明顯的依賴關(guān)系。這種依賴關(guān)系可以通過圖形化的方式來展示，如圖2.1所示。

圖2.1　概率的有向圖模型

如果濕度、下雨、降溫三者之間沒有明顯的關(guān)系，也就是獨(dú)立的事件，那么可以用式 (2.6)進(jìn)行聯(lián)合概率的分解。但三者之間顯然不是獨(dú)立的。下雨在濕度確定的情況下是獨(dú)立的，而降溫則是在下雨的條件下是獨(dú)立的。因此，概率分解方式應(yīng)該為p(濕度，下雨，降溫)=p(濕度)p(下雨|濕度)p(降溫|下雨)。這種概率分解可以簡(jiǎn)化建模。

這稱為概率圖模型，它代表了隨機(jī)變量的依賴關(guān)系。假設(shè)對(duì)于聯(lián)合概率分布某些變量存在依賴關(guān)系，則其可以寫為如下形式。

　　(2.9)

此時(shí)概率有向圖的形式如圖2.2所示。

圖2.2　概率有向圖模型

如果概率之間并無依賴關(guān)系，則可以用無向圖來表示，如圖2.3所示。

圖2.3　無向圖表示的概率模型

此時(shí)概率可以分解為如下形式。

　　(2.10)

這稱為概率無向圖模型或馬爾科夫隨機(jī)場(chǎng)，其中Z是歸一化常數(shù)。式 (2.10) 的分解依據(jù)為最大子團(tuán)的分解。任意兩個(gè)節(jié)點(diǎn)間均有線連接，而加入任意新節(jié)點(diǎn)均無法滿足前面的條件，則稱這種結(jié)構(gòu)為最大子團(tuán)。兩種圖模型均可以用來表示聯(lián)合概率分解。這種圖示對(duì)于表示來說是清晰直觀的。

2.2　隨機(jī)變量數(shù)字特征

對(duì)于隨機(jī)變量本身，我們很難用確定性的公式來描述，因此可以借助隨機(jī)變量的數(shù)字特征來描述變量?jī)?nèi)在特征。在機(jī)器學(xué)習(xí)中我們所關(guān)注的隨機(jī)變量的數(shù)字特征主要有隨機(jī)變量的數(shù)學(xué)期望、方差、標(biāo)準(zhǔn)差、協(xié)方差等。這其中最簡(jiǎn)單也是最重要的就是期望。期望的公式形式如下。

　　(2.11)

式 (2.11) 列舉了兩種隨機(jī)變量的表示形式，一種是離散型隨機(jī)變量，另一種是連續(xù)型隨機(jī)變量。一般認(rèn)為積分就是特殊形式的求和，因此兩個(gè)公式并無本質(zhì)區(qū)別。但這里需要說明的一點(diǎn)是，期望（Expected Value）與均值（Arithmetic Mean）是不同的。期望描繪的是數(shù)據(jù)的真實(shí)情況，是概率學(xué)內(nèi)容；均值僅是對(duì)樣本數(shù)據(jù)進(jìn)行的統(tǒng)計(jì)，屬于統(tǒng)計(jì)學(xué)范疇。在樣本數(shù)量較多的情況下，由大數(shù)定理可以知道均值和樣本相等。一般認(rèn)為，樣本均值是對(duì)期望的無偏估計(jì)。

　　(2.12)

僅有數(shù)據(jù)均值是沒有用的。對(duì)于樣本本身分布而言還需要統(tǒng)計(jì)分布的離散程度，這種離散程度稱為方差。方差（Variance）概念的產(chǎn)生就是為了描述變量的離散程度，其表達(dá)方式如下。

　　(2.13)

標(biāo)準(zhǔn)差是在方差的基礎(chǔ)上開根號(hào)，其與方差可以一起用來描述數(shù)據(jù)的分布情況。為了說明問題，我們繪制圖像來展示數(shù)據(jù)分布的描述方式，如圖2.4所示。

圖2.4　數(shù)據(jù)的不同方差圖示

如果數(shù)據(jù)方差越大，則數(shù)據(jù)分布越分散。從統(tǒng)計(jì)條形圖上可以看到，紅色統(tǒng)計(jì)圖數(shù)據(jù)標(biāo)準(zhǔn)差較大，因此看起來分布更加分散。

條形圖
條形圖用來描述數(shù)據(jù)的分布情況，數(shù)據(jù)x軸表示隨機(jī)變量取值，縱軸表示在某一區(qū)間樣本數(shù)量的多少?？梢詫?duì)條形圖概率進(jìn)行歸一化，在大樣本情況下歸一化條形圖描繪了樣本的概率分布。

前面兩個(gè)統(tǒng)計(jì)數(shù)據(jù)均值以及方差均是描繪了一維數(shù)據(jù)的特征。如果樣本本身有兩個(gè)屬性，則可以通過協(xié)方差（Covariance）來描述數(shù)據(jù)兩個(gè)屬性之間的線性相關(guān)性。

　　(2.14)

這里

、

代表數(shù)據(jù)點(diǎn)的兩個(gè)屬性，如果將數(shù)據(jù)存儲(chǔ)為二維矩陣，那么每一行代表一個(gè)樣本，每一列代表數(shù)據(jù)的某一屬性。此時(shí)

、

就是二維矩陣的列向量。如果對(duì)式 (2.14) 使用方差進(jìn)行歸一化，我們得到的就是兩列數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)。

　　(2.15)

這種歸一化表示是有益的，我們可以通過直接觀察相關(guān)系數(shù)的取值來衡量?jī)闪兄g的相關(guān)性，如圖2.5所示。

圖2.5　不同分布數(shù)據(jù)的線性相關(guān)性

由圖2.5可知，如果兩個(gè)列屬性之間線性相關(guān)性較強(qiáng)，則其相關(guān)系數(shù)接近于1或者?1，否則接近于0。

線性相關(guān)性
這里的線性相關(guān)性與第1章中的向量的相關(guān)性是類似的。如果兩個(gè)向量（列向量）具有很強(qiáng)的線性相關(guān)性，則代表一個(gè)向量可以由另一個(gè)向量來表示：。從另一個(gè)角度來講，數(shù)據(jù)內(nèi)部存在冗余，我們僅需要存儲(chǔ)即可表征。

對(duì)于多維向量而言，其組織形式為矩陣：

，其中

代表列向量，矩陣的每一行代表一個(gè)樣本，每一列

代表樣本的元素。對(duì)于這種數(shù)據(jù)，需要將協(xié)方差變?yōu)閰f(xié)方差矩陣（Convariance Matrix）來描述線性相關(guān)性。

　　(2.16)

衍生算法：主成分分析（PCA）算法

它用來衡量樣本各列之間的線性相關(guān)性，如果各列之間的線性相關(guān)性比較強(qiáng)，則意味著其中一列可以用另一列來表示。這種盡量減少各列數(shù)據(jù)的數(shù)據(jù)相關(guān)性的算法就稱為PCA算法。PCA算法可以有效地減少數(shù)據(jù)冗余，通常用于數(shù)據(jù)預(yù)處理過程。PCA算法的基本思想的公式化描述如下。

　　(2.17)

假設(shè)

中每一列元素均值為0，那么式 (2.17) 就能成立。由此現(xiàn)在的一個(gè)問題就是找到一個(gè)合適的變換矩陣

使得

能夠變換為

的形式。也就是變換后使各列之間的線性相關(guān)性最小，這樣協(xié)方差矩陣可以對(duì)角化，在此假設(shè)對(duì)

進(jìn)行變換的方式為線性變換。

　　(2.18)

要使變換后矩陣

可以用式 (2.17) 的形式對(duì)角化，可以對(duì)矩陣

其進(jìn)行特征值分解。

　　(2.19)

此時(shí)僅需要使

，那么變換后形式如下。

　　(2.20)

式 (2.18) 中的變換矩陣

就是式 (2.19)中的

。PCA算法實(shí)際上與矩陣的奇異值分解有很大程度的相似性，或者底層算法可以通用。

2.3　信息熵

信息論是概率與統(tǒng)計(jì)的衍生內(nèi)容。很多時(shí)候我們需要對(duì)系統(tǒng)的混亂程度進(jìn)行衡量，通常而言這是難以量化的，在熱力學(xué)中引入了熵的概念。在物理學(xué)中系統(tǒng)總是趨于向熵增大的方向發(fā)展，也就是從有用的機(jī)械能到內(nèi)能的轉(zhuǎn)換，這種轉(zhuǎn)換在孤立系統(tǒng)中是不可逆的。以一個(gè)形象的例子來說：兩種顏色的沙子，在混合前是有規(guī)律的。而在將其混合后整個(gè)系統(tǒng)的混亂程度變得很高，如果要將兩種顏色分開，需要人為挑選，這個(gè)過程需要做功。同樣地，機(jī)器學(xué)習(xí)過程也是如此，在開始過程中系統(tǒng)輸出是無規(guī)律的，我們需要進(jìn)行訓(xùn)練使整個(gè)系統(tǒng)可以進(jìn)行某種預(yù)測(cè)。為了衡量系統(tǒng)本身的復(fù)雜度，在信息論中引入了與熱力學(xué)熵類似的信息熵。在了解信息熵之前，我們需要定義自信息。

　　(2.21)

自信息在信息學(xué)中是以2為底的

，單位是bit。這個(gè)概念比較容易理解，如果某一概率特別小的事件發(fā)生了，那么說明它帶來了足夠多的有用信息。對(duì)于某一變量而言，我們通常并不關(guān)心它的具體取值，而只是關(guān)注它的分布形式。對(duì)自信息取均值，就得到了信息熵，也稱香農(nóng)熵（Shannon Entropy），其可以用來衡量系統(tǒng)的混亂程度。

　　(2.22)

這里如果

或1，那么

，式 (2.21) 對(duì)于離散變量就可以寫成求和形式。

這里以拋硬幣來舉例。如果在拋硬幣的過程中，我們得到正反面的概率均為0.5，前面說到這種情況是無法學(xué)到任何知識(shí)的，這種知識(shí)量化就是信息熵，計(jì)算公式如下。

H(硬幣) = - p(正面)log( p(正面) ) - p(反面)log{( p(反面) ) =}1　　(2.23)

前面說到，log以2為底，單位是bit。此時(shí)，對(duì)于硬幣而言，用1bit信息就可以表示狀態(tài)0或者1。如果通過某種方式，我們預(yù)測(cè)得知正面概率變?yōu)榱?，則計(jì)算可得以下結(jié)果。

H(硬幣) = - p(正面)log( p(正面) ) - p(反面)log{( p(反面) ) =}0　　(2.24)

此時(shí)信息熵變小了，也就是系統(tǒng)混亂程度變小了。前面講過我們可以通過一定條件預(yù)測(cè)出拋硬幣的結(jié)果。此時(shí)我們從系統(tǒng)中學(xué)到了有用的知識(shí)，從而使系統(tǒng)混亂程度降低。以硬幣正面概率作為變量，以熵作為函數(shù)，如圖2.6所示。

圖2.6　預(yù)測(cè)硬幣正反概率所對(duì)應(yīng)的信息熵

因此，機(jī)器學(xué)習(xí)過程就是從數(shù)據(jù)中尋找規(guī)律從而使系統(tǒng)熵變小的過程。

在機(jī)器學(xué)習(xí)中衡量?jī)蓚€(gè)分布相似度的概念是交叉熵（Cross Entropy）。

　　(2.25)

這也是機(jī)器學(xué)習(xí)中常用的損失函數(shù)之一（損失函數(shù)我們放到后面詳細(xì)描述）。相比傳統(tǒng)的點(diǎn)的距離的損失函數(shù)，交叉熵在計(jì)算梯度的過程中通常更加有效。因此，交叉熵在處理多分類問題時(shí)是更加合理的選擇。

Softmax

在機(jī)器學(xué)習(xí)中很多理論是基于概率的，但是在理論推演過程或者實(shí)現(xiàn)過程中它通常用函數(shù)

來表示，其中

是輸入樣本，

是模型。在這個(gè)過程中，需要在概率與函數(shù)輸出之間進(jìn)行轉(zhuǎn)換，其常用的形式如下。

　　(2.26)

這里將模型輸出轉(zhuǎn)換為概率形式，

是歸一化常數(shù)，m為自定義常數(shù)通常為1。這個(gè)過程稱為Softmax。對(duì)于多分類問題，我們給定的數(shù)據(jù)標(biāo)簽為d，它是一個(gè)多維向量，每一個(gè)維度上都保存了可能屬于某一類的概率。例如，對(duì)于年齡層劃分［青年,中年,老年］的問題，數(shù)據(jù)標(biāo)簽可能為

，表示這個(gè)人屬于老年的概率為100%，這是因?yàn)槲覀冊(cè)跇?biāo)注數(shù)據(jù)時(shí)可以確定這個(gè)人是老年人。這種編碼方式稱為one-hot編碼。

這種編碼方式是對(duì)應(yīng)機(jī)器學(xué)習(xí)問題而產(chǎn)生的，因?yàn)槿绻?、2、3來表示不同的年齡階段，則可能難以訓(xùn)練。而預(yù)測(cè)輸出

，顯然并非概率的表示，因?yàn)楦怕时硎静粫?huì)存在負(fù)數(shù)，同時(shí)滿足約束之和為1。

對(duì)于第一個(gè)問題，我們可以通過e指數(shù)的方式解決。將

變?yōu)?/p>

，之后再進(jìn)行歸一化

，整個(gè)過程稱為Softmax。它實(shí)際上解決的問題是將函數(shù)轉(zhuǎn)換為概率表示，也是基于能量的模型。

　　(2.27)

之后就可以用Softmax的結(jié)果與原有的標(biāo)簽

計(jì)算交叉熵來作為損失函數(shù)。

2.4　概率模型下的線性變換

機(jī)器學(xué)習(xí)模型均可以通過概率的方式進(jìn)行描述。對(duì)于上面所述的一系列變換過程，均可以描繪為概率生成模型。

　　(2.28)

假設(shè)

是從某種分布

中抽取的向量，對(duì)于線性因子來講，其生成過程如下。

　　(2.29)

式 (2.29) 中

為噪聲，那么它所描述的生成過程類似于如下公式。

　　(2.30)

式 (2.30) 描述的是線性變換的過程。因此很多線性變換可以描述成上述形式，這個(gè)過程如圖2.7所示。

圖2.7　線性因子圖示

對(duì)于 PCA 算法來講，式 (2.28) 中的

是線性獨(dú)立的。它的產(chǎn)生方式也是式 (2.30) 所描述的線性方式，而分布是單位分布。

　　(2.31)

假設(shè)

的協(xié)方差矩陣為單位矩陣，則由其產(chǎn)生的

如下。

　　(2.32)

2.5　最大似然估計(jì)與最大后驗(yàn)估計(jì)

這里依然以拋硬幣試驗(yàn)為例。記錄

次隨機(jī)試驗(yàn)

，硬幣正面

，出現(xiàn)正面的概率為

，從頻率學(xué)派的觀點(diǎn)來看，概率

應(yīng)該是僅依賴于現(xiàn)有試驗(yàn)結(jié)果的，也就是通過數(shù)據(jù)取得的。

　　(2.33)

這個(gè)概率應(yīng)該是令式 (2.33) 取最大值的概率。在假設(shè)了正面出現(xiàn)的概率后，假設(shè)試驗(yàn)是有順序的同時(shí)也是獨(dú)立重復(fù)的，那么可以計(jì)算出現(xiàn)隨機(jī)試驗(yàn)情況下所得的概率。

　　(2.34)

計(jì)算上述以

為自變量的函數(shù)的最大值。

令函數(shù)為如下形式。

　　(2.36)

式 (2.36) 取得最小值時(shí)

，由此認(rèn)為取得正面的概率為

。求解硬幣取得正面概率的過程稱為最大似然估計(jì)（MLE）。

貝葉斯學(xué)派則認(rèn)為概率符合一個(gè)先驗(yàn)分布。這個(gè)先驗(yàn)分布可以糾正采樣的偏差。

　　(2.37)

在式 (2.37) 中
（1）為后驗(yàn)。
（2）為似然。
（3）為先驗(yàn)。
（4）先驗(yàn)概率+數(shù)據(jù)=后驗(yàn)概率。

先驗(yàn)概率是什么意思？假設(shè)為了估計(jì)此次投擲硬幣為正面的概率，我先用自己的硬幣做了

次實(shí)驗(yàn)，正面出現(xiàn)了

次，假設(shè)此時(shí)正面概率為

，那么出現(xiàn)這種情況的概率如下。

式 (2.38) 中constant為歸一化常數(shù)，稱為Beta函數(shù)。

　　(2.39)

到此為止，我們都在描述

的分布，也就是硬幣為正面概率的分布?？梢钥吹绞褂梦易约旱挠矌殴烙?jì)時(shí)，取得0.5的概率是最大的，如圖2.8所示。

這個(gè)概率就可以作為我們的先驗(yàn)分布，它是概率的概率。以這個(gè)先驗(yàn)分布，我們?nèi)ス烙?jì)其他硬幣的試驗(yàn)，假設(shè)使用另一枚硬幣，拋4次，出現(xiàn)正面為

次，出現(xiàn)反面為

次，那么在貝葉斯理論下出現(xiàn)正面的概率如下。

圖2.8　硬幣為正面的概率分布

將式 (2.40) 繪制成圖2.9所示的曲線。

圖2.9　融入先驗(yàn)概率后計(jì)算的正面概率分布

此時(shí)硬幣正面概率最大值為0.375。這個(gè)數(shù)值很重要，我們以最大似然估計(jì)預(yù)測(cè)的硬幣正面概率是0.25。此時(shí)是沒有先驗(yàn)分布的，如果引入了先驗(yàn)分布，則取得的正面概率應(yīng)該為0.375。而我們拋硬幣的次數(shù)僅為4次，因此很大可能出現(xiàn)偏差，先驗(yàn)概率的引入則可以糾正這種偏差。從另一個(gè)角度來看相當(dāng)于在最大似然估計(jì)的基礎(chǔ)上加入了正則化項(xiàng)，這種估計(jì)稱為最大后驗(yàn)估計(jì)（MAP）。

假設(shè)神經(jīng)網(wǎng)絡(luò)輸出為

，通過Softmax處理。

　　(2.41)

此時(shí)分類問題神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)過程可以描述為，給定樣本

后輸出屬于某一類的概率

，而神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練參數(shù)為

。

　　(2.42)

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程則可以描述為如下形式。

式 (2.43) 中，

為one-hot形式的向量?？梢钥吹?，最大似然估計(jì)與交叉熵作為損失函數(shù)具有相同的意義。

本文截選自《深度學(xué)習(xí)算法與實(shí)踐》

本書主要內(nèi)容分為3個(gè)部分。

第一部分為深度學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)（第1～4章）。這部分內(nèi)容包括空間幾何與線性代數(shù)、概率與統(tǒng)計(jì)、函數(shù)建模與優(yōu)化、機(jī)器學(xué)習(xí)庫的使用。其中，前兩個(gè)是相對(duì)獨(dú)立的，因此讀者可以根據(jù)自己的基礎(chǔ)進(jìn)行選擇性閱讀；建模與優(yōu)化綜合了線性代數(shù)、概率與統(tǒng)計(jì)的內(nèi)容。

第二部分為深度學(xué)習(xí)基本組件（第5～9章）。這部分內(nèi)容包括深度學(xué)習(xí)模型與全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、循環(huán)神經(jīng)網(wǎng)絡(luò)擴(kuò)展以及深度學(xué)習(xí)優(yōu)化。這些基本組件均配有與訓(xùn)練預(yù)測(cè)過程基本實(shí)現(xiàn)。讀者可以脫離機(jī)器學(xué)習(xí)庫實(shí)現(xiàn)深度學(xué)習(xí)算法，這是理想的學(xué)習(xí)結(jié)果，但并非理想的學(xué)習(xí)過程。作為初學(xué)者應(yīng)當(dāng)在實(shí)踐中逐步深入地進(jìn)行學(xué)習(xí)。

第三部分為深度學(xué)習(xí)中常見的應(yīng)用場(chǎng)景以及相關(guān)模型（第10～12章）。這部分內(nèi)容包括圖像處理（物體檢測(cè)、人臉識(shí)別）、自然語言處理（語音識(shí)別、自然語言翻譯、語音生成）和非監(jiān)督學(xué)習(xí)（對(duì)抗生成網(wǎng)絡(luò)、圖像去噪、增強(qiáng)學(xué)習(xí)）。

作為入門圖書，本書會(huì)從簡(jiǎn)單的函數(shù)入手描述深度學(xué)習(xí)（這是編程所必需的），同時(shí)介紹深度學(xué)習(xí)的基本元素與實(shí)現(xiàn)（如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)）。至于更復(fù)雜的理論，僅進(jìn)行預(yù)測(cè)過程公式的說明與機(jī)器學(xué)習(xí)庫版本的實(shí)現(xiàn)（如注意力機(jī)制）。訓(xùn)練過程可能需要借助TensorFlow來完成，但這不代表其本身與TensorFlow是綁定的關(guān)系。希望看完本書的讀者能夠抽出時(shí)間來進(jìn)行更系統(tǒng)的學(xué)習(xí)。比如從空間幾何、統(tǒng)計(jì)理論開始學(xué)習(xí)，但作為初學(xué)者，不建議過分糾結(jié)基礎(chǔ)。如果要真正精通機(jī)器學(xué)習(xí)問題，時(shí)間和精力也是必須付出的成本。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

2.1 概率基礎(chǔ)概念

2.2 隨機(jī)變量數(shù)字特征

衍生算法：主成分分析（PCA）算法

2.3 信息熵

Softmax

2.4 概率模型下的線性變換

2.5 最大似然估計(jì)與最大后驗(yàn)估計(jì)

2.1　概率基礎(chǔ)概念

2.2　隨機(jī)變量數(shù)字特征

2.3　信息熵

2.4　概率模型下的線性變換

2.5　最大似然估計(jì)與最大后驗(yàn)估計(jì)