中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
機(jī)器學(xué)習(xí)較常用到的數(shù)學(xué)工具:概率與統(tǒng)計(jì)

概率與統(tǒng)計(jì)及相關(guān)概念是整個(gè)機(jī)器學(xué)習(xí)的基礎(chǔ)。其與空間幾何、線性代數(shù)一起構(gòu)成了深度學(xué)習(xí)的理論基石。很多機(jī)器學(xué)習(xí)的理論描述都是基于概率的。而概率本身也是理工學(xué)科的基礎(chǔ)性工具,廣泛地應(yīng)用于工程的各個(gè)領(lǐng)域。掌握好概率論是深入學(xué)習(xí)機(jī)器學(xué)習(xí)的基礎(chǔ),可以幫助我們進(jìn)行相關(guān)公式的推演以及系統(tǒng)的描述。

這種概率化描述系統(tǒng)的過程比我們前面確定性的描述過程(空間曲面)更加抽象與難以理解。很多機(jī)器學(xué)習(xí)工作者在這里會(huì)遇到學(xué)習(xí)過程中的一個(gè)很大的障礙—很多機(jī)器學(xué)習(xí)系統(tǒng)是通過概率來進(jìn)行描述的,這種不確定性通常與我們的直覺相悖。

本書在編寫過程中盡量使用兩種方式來描述系統(tǒng),即函數(shù)式描述以及概率式描述,方便對(duì)概率論不甚了解的讀者閱讀本書。如果讀者對(duì)概率概念較為熟悉,則可跳過本章進(jìn)行后續(xù)學(xué)習(xí)。本章將對(duì)概率與統(tǒng)計(jì)領(lǐng)域的基本概念進(jìn)行闡述,需要著重理解什么是建模以及最大似然估計(jì)。

2.1 概率基礎(chǔ)概念

機(jī)器學(xué)習(xí)非常依賴于概率以及相關(guān)的數(shù)學(xué)工具。因此在深度學(xué)習(xí)中與概率相關(guān)的概念的出現(xiàn)頻率非常高。我們習(xí)慣了使用確定性的思維來描述事物,這種確定性的思維在一定程度上類似于函數(shù)。

  (2.1)

也就是說,我們給定一個(gè)

就會(huì)有一個(gè)確定的

。但這種描述方式存在缺陷。因?yàn)榄h(huán)境本身可能存在噪聲,這使我們給定

的時(shí)候輸出的值與

之間可能出現(xiàn)偏差,或者由于我們的模型本身復(fù)雜度不足以描述數(shù)據(jù)導(dǎo)致

之間可能出現(xiàn)偏差?;仡櫟?章所列舉的超定方程的例子。我們?cè)谟弥本€擬合4個(gè)數(shù)據(jù)點(diǎn)的過程中由于直線形式較為簡(jiǎn)單,因此并不能完美地穿過所有的數(shù)據(jù)點(diǎn),而只能近似。這種近似就是模型本身復(fù)雜度不足所引起的偏差。因此為了描述真實(shí)世界,引入概率是必要的。列舉一個(gè)簡(jiǎn)單的例子:拋硬幣。這是一個(gè)簡(jiǎn)單的隨機(jī)事件,隨機(jī)事件就是在重復(fù)試驗(yàn)中有規(guī)律地出現(xiàn)的事件。拋硬幣只有兩種情況{正面,反面},這種由全體樣本點(diǎn)組成的集合,稱為樣本空間,可以用大寫字母表示。由于在拋硬幣的過程中彼此之間并不影響,出現(xiàn)正面和反面的概率均是0.5,因此我們稱樣本是獨(dú)立同分布的(Independent and Identically Distributed, IID)。

概率與頻率

拋硬幣過程中假設(shè)做了1 000次試驗(yàn),出現(xiàn)了501次正面,那么此時(shí)出現(xiàn)正面的頻率就是。而概率就是樣本無窮大時(shí)的頻率,代表了隨機(jī)事件的特征。通常用p來表示概率—

在這個(gè)過程中我們并未獲取任何知識(shí),因?yàn)閽佊矌旁囼?yàn)本身就是一個(gè)等概率分布。從另外一個(gè)角度來講,我們更加深入地研究了拋硬幣的過程,獲取了更多的特征,這里的特征指的是我們觀測(cè)到拋硬幣試驗(yàn)中拋硬幣的高度、使用力氣的大小、風(fēng)速等一系列觀測(cè)參數(shù)。此時(shí)我們?cè)儆?jì)算硬幣正面的概率就是在這些條件下所得到的概率。

p(正面|高度, 力度, 風(fēng)速,?)  (2.2)

實(shí)際上式 (2.2) 就是一個(gè)條件概率,它代表了在我們觀察到外界的情況下對(duì)拋硬幣事件的預(yù)測(cè)。更加通用的條件概率書寫形式如下。

  (2.3)

如果此時(shí)概率依然是0.5,那么代表我們實(shí)際上沒有獲取任何知識(shí)。如果我們通過一系列統(tǒng)計(jì)將預(yù)測(cè)硬幣概率為0.9,那么代表我們是可以通過外界的觀察而對(duì)隨機(jī)事件進(jìn)行有效預(yù)測(cè)的。這就是說我們從數(shù)據(jù)中發(fā)現(xiàn)了可用的知識(shí),這是一個(gè)典型的機(jī)器學(xué)習(xí)過程。機(jī)器學(xué)習(xí)就是通過對(duì)觀測(cè)數(shù)據(jù)進(jìn)行分析,從而獲取有用的知識(shí)。

如果拋硬幣試驗(yàn)的樣本空間是離散的,則只有兩種情況。而對(duì)于其他情況,比如說某一電視機(jī)第一次損壞的時(shí)間,這個(gè)時(shí)間是連續(xù)的,這種稱為連續(xù)型隨機(jī)變量。離散型隨機(jī)變量與連續(xù)型隨機(jī)變量對(duì)應(yīng)于機(jī)器學(xué)習(xí)的兩個(gè)基本問題—分類問題與回歸問題。連續(xù)型隨機(jī)變量的概率僅在積分條件下有意義。

  (2.4)

對(duì)于電視機(jī)損壞的問題而言,這代表從a時(shí)刻開始到b時(shí)刻之間損壞的概率。

稱為概率密度函數(shù)。概率密度函數(shù)符合下面的約束條件。

(1)

,概率不存在負(fù)值。

(2)

,所有可能情況之和為1。離散類型隨機(jī)變量需將積分改為求和。

如果有多個(gè)隨機(jī)變量,則概率可以寫為如下形式。

  (2.5)

此時(shí)稱為聯(lián)合概率分布,其代表了

同時(shí)發(fā)生的概率。舉一個(gè)簡(jiǎn)單的例子,我們有兩枚硬幣A和B,硬幣是不均勻的,A出現(xiàn)正面概率是0.6,B出現(xiàn)正面概率是0.7。那么可以將兩枚硬幣的聯(lián)合概率寫成如表2.1所示的形式。

表2.1 兩枚硬幣試驗(yàn)中條件概率與邊緣概率

由表2.1可以看到,對(duì)于獨(dú)立試驗(yàn)而言,其概率是直接相乘的。拋硬幣A、B這種獨(dú)立試驗(yàn)假設(shè)也是樸素貝葉斯算法的基本假設(shè)。

  (2.6)

其中涉及了新的概念—邊緣概率。邊緣概率就是根據(jù)概率的聯(lián)合分布獲取某一隨機(jī)變量的分布。其形式如下。

  (2.7)

對(duì)于條件概率和聯(lián)合概率有如下公式。

  (2.8)

從另一個(gè)角度來講,條件概率給定了某些事件的依賴關(guān)系,比如濕度過高會(huì)直接導(dǎo)致下雨,而下雨又與降溫有直接關(guān)系,但溫度降低和濕度之間沒有明顯的依賴關(guān)系。這種依賴關(guān)系可以通過圖形化的方式來展示,如圖2.1所示。

圖2.1 概率的有向圖模型

如果濕度、下雨、降溫三者之間沒有明顯的關(guān)系,也就是獨(dú)立的事件,那么可以用式 (2.6)進(jìn)行聯(lián)合概率的分解。但三者之間顯然不是獨(dú)立的。下雨在濕度確定的情況下是獨(dú)立的,而降溫則是在下雨的條件下是獨(dú)立的。因此,概率分解方式應(yīng)該為p(濕度,下雨,降溫)=p(濕度)p(下雨|濕度)p(降溫|下雨)。這種概率分解可以簡(jiǎn)化建模。

這稱為概率圖模型,它代表了隨機(jī)變量的依賴關(guān)系。假設(shè)對(duì)于聯(lián)合概率分布某些變量存在依賴關(guān)系,則其可以寫為如下形式。

  (2.9)

此時(shí)概率有向圖的形式如圖2.2所示。

圖2.2 概率有向圖模型

如果概率之間并無依賴關(guān)系,則可以用無向圖來表示,如圖2.3所示。

圖2.3 無向圖表示的概率模型

此時(shí)概率可以分解為如下形式。

  (2.10)

這稱為概率無向圖模型或馬爾科夫隨機(jī)場(chǎng),其中Z是歸一化常數(shù)。式 (2.10) 的分解依據(jù)為最大子團(tuán)的分解。任意兩個(gè)節(jié)點(diǎn)間均有線連接,而加入任意新節(jié)點(diǎn)均無法滿足前面的條件,則稱這種結(jié)構(gòu)為最大子團(tuán)。兩種圖模型均可以用來表示聯(lián)合概率分解。這種圖示對(duì)于表示來說是清晰直觀的。

2.2 隨機(jī)變量數(shù)字特征

對(duì)于隨機(jī)變量本身,我們很難用確定性的公式來描述,因此可以借助隨機(jī)變量的數(shù)字特征來描述變量?jī)?nèi)在特征。在機(jī)器學(xué)習(xí)中我們所關(guān)注的隨機(jī)變量的數(shù)字特征主要有隨機(jī)變量的數(shù)學(xué)期望、方差、標(biāo)準(zhǔn)差、協(xié)方差等。這其中最簡(jiǎn)單也是最重要的就是期望。期望的公式形式如下。

  (2.11)

式 (2.11) 列舉了兩種隨機(jī)變量的表示形式,一種是離散型隨機(jī)變量,另一種是連續(xù)型隨機(jī)變量。一般認(rèn)為積分就是特殊形式的求和,因此兩個(gè)公式并無本質(zhì)區(qū)別。但這里需要說明的一點(diǎn)是,期望(Expected Value)與均值(Arithmetic Mean)是不同的。期望描繪的是數(shù)據(jù)的真實(shí)情況,是概率學(xué)內(nèi)容;均值僅是對(duì)樣本數(shù)據(jù)進(jìn)行的統(tǒng)計(jì),屬于統(tǒng)計(jì)學(xué)范疇。在樣本數(shù)量較多的情況下,由大數(shù)定理可以知道均值和樣本相等。一般認(rèn)為,樣本均值是對(duì)期望的無偏估計(jì)。

  (2.12)

僅有數(shù)據(jù)均值是沒有用的。對(duì)于樣本本身分布而言還需要統(tǒng)計(jì)分布的離散程度,這種離散程度稱為方差。方差(Variance)概念的產(chǎn)生就是為了描述變量的離散程度,其表達(dá)方式如下。

  (2.13)

標(biāo)準(zhǔn)差是在方差的基礎(chǔ)上開根號(hào),其與方差可以一起用來描述數(shù)據(jù)的分布情況。為了說明問題,我們繪制圖像來展示數(shù)據(jù)分布的描述方式,如圖2.4所示。

圖2.4 數(shù)據(jù)的不同方差圖示

如果數(shù)據(jù)方差越大,則數(shù)據(jù)分布越分散。從統(tǒng)計(jì)條形圖上可以看到,紅色統(tǒng)計(jì)圖數(shù)據(jù)標(biāo)準(zhǔn)差較大,因此看起來分布更加分散。

條形圖

條形圖用來描述數(shù)據(jù)的分布情況,數(shù)據(jù)x軸表示隨機(jī)變量取值,縱軸表示在某一區(qū)間樣本數(shù)量的多少??梢詫?duì)條形圖概率進(jìn)行歸一化,在大樣本情況下歸一化條形圖描繪了樣本的概率分布。

前面兩個(gè)統(tǒng)計(jì)數(shù)據(jù)均值以及方差均是描繪了一維數(shù)據(jù)的特征。如果樣本本身有兩個(gè)屬性,則可以通過協(xié)方差(Covariance)來描述數(shù)據(jù)兩個(gè)屬性之間的線性相關(guān)性。

  (2.14)

這里

、

代表數(shù)據(jù)點(diǎn)的兩個(gè)屬性,如果將數(shù)據(jù)存儲(chǔ)為二維矩陣,那么每一行代表一個(gè)樣本,每一列代表數(shù)據(jù)的某一屬性。此時(shí)

就是二維矩陣的列向量。如果對(duì)式 (2.14) 使用方差進(jìn)行歸一化,我們得到的就是兩列數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)。

  (2.15)

這種歸一化表示是有益的,我們可以通過直接觀察相關(guān)系數(shù)的取值來衡量?jī)闪兄g的相關(guān)性,如圖2.5所示。

圖2.5 不同分布數(shù)據(jù)的線性相關(guān)性

由圖2.5可知,如果兩個(gè)列屬性之間線性相關(guān)性較強(qiáng),則其相關(guān)系數(shù)接近于1或者?1,否則接近于0。

線性相關(guān)性

這里的線性相關(guān)性與第1章中的向量的相關(guān)性是類似的。如果兩個(gè)向量(列向量)具有很強(qiáng)的線性相關(guān)性,則代表一個(gè)向量可以由另一個(gè)向量來表示:。從另一個(gè)角度來講,數(shù)據(jù)內(nèi)部存在冗余,我們僅需要存儲(chǔ)即可表征。

對(duì)于多維向量而言,其組織形式為矩陣:

,其中

代表列向量,矩陣的每一行代表一個(gè)樣本,每一列

代表樣本的元素。對(duì)于這種數(shù)據(jù),需要將協(xié)方差變?yōu)閰f(xié)方差矩陣(Convariance Matrix)來描述線性相關(guān)性。

  (2.16)

衍生算法:主成分分析(PCA)算法

它用來衡量樣本各列之間的線性相關(guān)性,如果各列之間的線性相關(guān)性比較強(qiáng),則意味著其中一列可以用另一列來表示。這種盡量減少各列數(shù)據(jù)的數(shù)據(jù)相關(guān)性的算法就稱為PCA算法。PCA算法可以有效地減少數(shù)據(jù)冗余,通常用于數(shù)據(jù)預(yù)處理過程。PCA算法的基本思想的公式化描述如下。

  (2.17)

假設(shè)

中每一列元素均值為0,那么式 (2.17) 就能成立。由此現(xiàn)在的一個(gè)問題就是找到一個(gè)合適的變換矩陣

使得

能夠變換為

的形式。也就是變換后使各列之間的線性相關(guān)性最小,這樣協(xié)方差矩陣可以對(duì)角化,在此假設(shè)對(duì)

進(jìn)行變換的方式為線性變換。

  (2.18)

要使變換后矩陣

可以用式 (2.17) 的形式對(duì)角化,可以對(duì)矩陣

其進(jìn)行特征值分解。

  (2.19)

此時(shí)僅需要使

,那么變換后形式如下。

  (2.20)

式 (2.18) 中的變換矩陣

就是式 (2.19)中的

。PCA算法實(shí)際上與矩陣的奇異值分解有很大程度的相似性,或者底層算法可以通用。

2.3 信息熵

信息論是概率與統(tǒng)計(jì)的衍生內(nèi)容。很多時(shí)候我們需要對(duì)系統(tǒng)的混亂程度進(jìn)行衡量,通常而言這是難以量化的,在熱力學(xué)中引入了熵的概念。在物理學(xué)中系統(tǒng)總是趨于向熵增大的方向發(fā)展,也就是從有用的機(jī)械能到內(nèi)能的轉(zhuǎn)換,這種轉(zhuǎn)換在孤立系統(tǒng)中是不可逆的。以一個(gè)形象的例子來說:兩種顏色的沙子,在混合前是有規(guī)律的。而在將其混合后整個(gè)系統(tǒng)的混亂程度變得很高,如果要將兩種顏色分開,需要人為挑選,這個(gè)過程需要做功。同樣地,機(jī)器學(xué)習(xí)過程也是如此,在開始過程中系統(tǒng)輸出是無規(guī)律的,我們需要進(jìn)行訓(xùn)練使整個(gè)系統(tǒng)可以進(jìn)行某種預(yù)測(cè)。為了衡量系統(tǒng)本身的復(fù)雜度,在信息論中引入了與熱力學(xué)熵類似的信息熵。在了解信息熵之前,我們需要定義自信息。

  (2.21)

自信息在信息學(xué)中是以2為底的

,單位是bit。這個(gè)概念比較容易理解,如果某一概率特別小的事件發(fā)生了,那么說明它帶來了足夠多的有用信息。對(duì)于某一變量而言,我們通常并不關(guān)心它的具體取值,而只是關(guān)注它的分布形式。對(duì)自信息取均值,就得到了信息熵,也稱香農(nóng)熵(Shannon Entropy),其可以用來衡量系統(tǒng)的混亂程度。

  (2.22)

這里如果

或1,那么

,式 (2.21) 對(duì)于離散變量就可以寫成求和形式。

這里以拋硬幣來舉例。如果在拋硬幣的過程中,我們得到正反面的概率均為0.5,前面說到這種情況是無法學(xué)到任何知識(shí)的,這種知識(shí)量化就是信息熵,計(jì)算公式如下。

H(硬幣) = - p(正面)log( p(正面) ) - p(反面)log{( p(反面) ) =}1  (2.23)

前面說到,log以2為底,單位是bit。此時(shí),對(duì)于硬幣而言,用1bit信息就可以表示狀態(tài)0或者1。如果通過某種方式,我們預(yù)測(cè)得知正面概率變?yōu)榱?,則計(jì)算可得以下結(jié)果。

H(硬幣) = - p(正面)log( p(正面) ) - p(反面)log{( p(反面) ) =}0  (2.24)

此時(shí)信息熵變小了,也就是系統(tǒng)混亂程度變小了。前面講過我們可以通過一定條件預(yù)測(cè)出拋硬幣的結(jié)果。此時(shí)我們從系統(tǒng)中學(xué)到了有用的知識(shí),從而使系統(tǒng)混亂程度降低。以硬幣正面概率作為變量,以熵作為函數(shù),如圖2.6所示。

圖2.6 預(yù)測(cè)硬幣正反概率所對(duì)應(yīng)的信息熵

因此,機(jī)器學(xué)習(xí)過程就是從數(shù)據(jù)中尋找規(guī)律從而使系統(tǒng)熵變小的過程。

在機(jī)器學(xué)習(xí)中衡量?jī)蓚€(gè)分布相似度的概念是交叉熵(Cross Entropy)。

  (2.25)

這也是機(jī)器學(xué)習(xí)中常用的損失函數(shù)之一(損失函數(shù)我們放到后面詳細(xì)描述)。相比傳統(tǒng)的點(diǎn)的距離的損失函數(shù),交叉熵在計(jì)算梯度的過程中通常更加有效。因此,交叉熵在處理多分類問題時(shí)是更加合理的選擇。

Softmax

在機(jī)器學(xué)習(xí)中很多理論是基于概率的,但是在理論推演過程或者實(shí)現(xiàn)過程中它通常用函數(shù)

來表示,其中

是輸入樣本,

是模型。在這個(gè)過程中,需要在概率與函數(shù)輸出之間進(jìn)行轉(zhuǎn)換,其常用的形式如下。

  (2.26)

這里將模型輸出轉(zhuǎn)換為概率形式,

是歸一化常數(shù),m為自定義常數(shù)通常為1。這個(gè)過程稱為Softmax。對(duì)于多分類問題,我們給定的數(shù)據(jù)標(biāo)簽為d,它是一個(gè)多維向量,每一個(gè)維度上都保存了可能屬于某一類的概率。例如,對(duì)于年齡層劃分[青年,中年,老年]的問題,數(shù)據(jù)標(biāo)簽可能為

,表示這個(gè)人屬于老年的概率為100%,這是因?yàn)槲覀冊(cè)跇?biāo)注數(shù)據(jù)時(shí)可以確定這個(gè)人是老年人。這種編碼方式稱為one-hot編碼。

這種編碼方式是對(duì)應(yīng)機(jī)器學(xué)習(xí)問題而產(chǎn)生的,因?yàn)槿绻?、2、3來表示不同的年齡階段,則可能難以訓(xùn)練。而預(yù)測(cè)輸出

,顯然并非概率的表示,因?yàn)楦怕时硎静粫?huì)存在負(fù)數(shù),同時(shí)滿足約束之和為1。

對(duì)于第一個(gè)問題,我們可以通過e指數(shù)的方式解決。將

變?yōu)?/p>

,之后再進(jìn)行歸一化

,整個(gè)過程稱為Softmax。它實(shí)際上解決的問題是將函數(shù)轉(zhuǎn)換為概率表示,也是基于能量的模型。

  (2.27)

之后就可以用Softmax的結(jié)果與原有的標(biāo)簽

計(jì)算交叉熵來作為損失函數(shù)。

2.4 概率模型下的線性變換

機(jī)器學(xué)習(xí)模型均可以通過概率的方式進(jìn)行描述。對(duì)于上面所述的一系列變換過程,均可以描繪為概率生成模型。

  (2.28)

假設(shè)

是從某種分布

中抽取的向量,對(duì)于線性因子來講,其生成過程如下。

  (2.29)

式 (2.29) 中

為噪聲,那么它所描述的生成過程類似于如下公式。

  (2.30)

式 (2.30) 描述的是線性變換的過程。因此很多線性變換可以描述成上述形式,這個(gè)過程如圖2.7所示。

圖2.7 線性因子圖示

對(duì)于 PCA 算法來講,式 (2.28) 中的

是線性獨(dú)立的。它的產(chǎn)生方式也是式 (2.30) 所描述的線性方式,而分布是單位分布。

  (2.31)

假設(shè)

的協(xié)方差矩陣為單位矩陣,則由其產(chǎn)生的

如下。

  (2.32)

2.5 最大似然估計(jì)與最大后驗(yàn)估計(jì)

這里依然以拋硬幣試驗(yàn)為例。記錄

次隨機(jī)試驗(yàn)

,硬幣正面

,出現(xiàn)正面的概率為

,從頻率學(xué)派的觀點(diǎn)來看,概率

應(yīng)該是僅依賴于現(xiàn)有試驗(yàn)結(jié)果的,也就是通過數(shù)據(jù)取得的。

  (2.33)

這個(gè)概率應(yīng)該是令式 (2.33) 取最大值的概率。在假設(shè)了正面出現(xiàn)的概率后,假設(shè)試驗(yàn)是有順序的同時(shí)也是獨(dú)立重復(fù)的,那么可以計(jì)算出現(xiàn)隨機(jī)試驗(yàn)情況下所得的概率。

  (2.34)

計(jì)算上述以

為自變量的函數(shù)的最大值。

令函數(shù)為如下形式。

  (2.36)

式 (2.36) 取得最小值時(shí)

,由此認(rèn)為取得正面的概率為

。求解硬幣取得正面概率的過程稱為最大似然估計(jì)(MLE)。

貝葉斯學(xué)派則認(rèn)為概率符合一個(gè)先驗(yàn)分布。這個(gè)先驗(yàn)分布可以糾正采樣的偏差。

  (2.37)

在式 (2.37) 中

(1)為后驗(yàn)。

(2)為似然。

(3)為先驗(yàn)。

(4)先驗(yàn)概率+數(shù)據(jù)=后驗(yàn)概率。

先驗(yàn)概率是什么意思?假設(shè)為了估計(jì)此次投擲硬幣為正面的概率,我先用自己的硬幣做了

次實(shí)驗(yàn),正面出現(xiàn)了

次,假設(shè)此時(shí)正面概率為

,那么出現(xiàn)這種情況的概率如下。

式 (2.38) 中constant為歸一化常數(shù),稱為Beta函數(shù)。

  (2.39)

到此為止,我們都在描述

的分布,也就是硬幣為正面概率的分布??梢钥吹绞褂梦易约旱挠矌殴烙?jì)時(shí),取得0.5的概率是最大的,如圖2.8所示。

這個(gè)概率就可以作為我們的先驗(yàn)分布,它是概率的概率。以這個(gè)先驗(yàn)分布,我們?nèi)ス烙?jì)其他硬幣的試驗(yàn),假設(shè)使用另一枚硬幣,拋4次,出現(xiàn)正面為

次,出現(xiàn)反面為

次,那么在貝葉斯理論下出現(xiàn)正面的概率如下。

圖2.8 硬幣為正面的概率分布

將式 (2.40) 繪制成圖2.9所示的曲線。

圖2.9 融入先驗(yàn)概率后計(jì)算的正面概率分布

此時(shí)硬幣正面概率最大值為0.375。這個(gè)數(shù)值很重要,我們以最大似然估計(jì)預(yù)測(cè)的硬幣正面概率是0.25。此時(shí)是沒有先驗(yàn)分布的,如果引入了先驗(yàn)分布,則取得的正面概率應(yīng)該為0.375。而我們拋硬幣的次數(shù)僅為4次,因此很大可能出現(xiàn)偏差,先驗(yàn)概率的引入則可以糾正這種偏差。從另一個(gè)角度來看相當(dāng)于在最大似然估計(jì)的基礎(chǔ)上加入了正則化項(xiàng),這種估計(jì)稱為最大后驗(yàn)估計(jì)(MAP)。

假設(shè)神經(jīng)網(wǎng)絡(luò)輸出為

,通過Softmax處理。

  (2.41)

此時(shí)分類問題神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)過程可以描述為,給定樣本

后輸出屬于某一類的概率

,而神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練參數(shù)為

。

  (2.42)

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程則可以描述為如下形式。

式 (2.43) 中,

為one-hot形式的向量??梢钥吹?,最大似然估計(jì)與交叉熵作為損失函數(shù)具有相同的意義。

本文截選自《深度學(xué)習(xí)算法與實(shí)踐》

本書主要內(nèi)容分為3個(gè)部分。

第一部分為深度學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)(第1~4章)。這部分內(nèi)容包括空間幾何與線性代數(shù)、概率與統(tǒng)計(jì)、函數(shù)建模與優(yōu)化、機(jī)器學(xué)習(xí)庫的使用。其中,前兩個(gè)是相對(duì)獨(dú)立的,因此讀者可以根據(jù)自己的基礎(chǔ)進(jìn)行選擇性閱讀;建模與優(yōu)化綜合了線性代數(shù)、概率與統(tǒng)計(jì)的內(nèi)容。

第二部分為深度學(xué)習(xí)基本組件(第5~9章)。這部分內(nèi)容包括深度學(xué)習(xí)模型與全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、循環(huán)神經(jīng)網(wǎng)絡(luò)擴(kuò)展以及深度學(xué)習(xí)優(yōu)化。這些基本組件均配有與訓(xùn)練預(yù)測(cè)過程基本實(shí)現(xiàn)。讀者可以脫離機(jī)器學(xué)習(xí)庫實(shí)現(xiàn)深度學(xué)習(xí)算法,這是理想的學(xué)習(xí)結(jié)果,但并非理想的學(xué)習(xí)過程。作為初學(xué)者應(yīng)當(dāng)在實(shí)踐中逐步深入地進(jìn)行學(xué)習(xí)。

第三部分為深度學(xué)習(xí)中常見的應(yīng)用場(chǎng)景以及相關(guān)模型(第10~12章)。這部分內(nèi)容包括圖像處理(物體檢測(cè)、人臉識(shí)別)、自然語言處理(語音識(shí)別、自然語言翻譯、語音生成)和非監(jiān)督學(xué)習(xí)(對(duì)抗生成網(wǎng)絡(luò)、圖像去噪、增強(qiáng)學(xué)習(xí))。

作為入門圖書,本書會(huì)從簡(jiǎn)單的函數(shù)入手描述深度學(xué)習(xí)(這是編程所必需的),同時(shí)介紹深度學(xué)習(xí)的基本元素與實(shí)現(xiàn)(如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò))。至于更復(fù)雜的理論,僅進(jìn)行預(yù)測(cè)過程公式的說明與機(jī)器學(xué)習(xí)庫版本的實(shí)現(xiàn)(如注意力機(jī)制)。訓(xùn)練過程可能需要借助TensorFlow來完成,但這不代表其本身與TensorFlow是綁定的關(guān)系。希望看完本書的讀者能夠抽出時(shí)間來進(jìn)行更系統(tǒng)的學(xué)習(xí)。比如從空間幾何、統(tǒng)計(jì)理論開始學(xué)習(xí),但作為初學(xué)者,不建議過分糾結(jié)基礎(chǔ)。如果要真正精通機(jī)器學(xué)習(xí)問題,時(shí)間和精力也是必須付出的成本。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【經(jīng)典回顧】哈爾?范里安:當(dāng)經(jīng)濟(jì)學(xué)家擁抱大數(shù)據(jù)
五分鐘概率論-Beta 分布
線性回歸——最大似然法
概率漫談 轉(zhuǎn)自 林達(dá)華
深入剖析機(jī)器學(xué)習(xí)中的統(tǒng)計(jì)思想
概率思維——Python貝葉斯推斷指南
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服