機(jī)器學(xué)習(xí)的理論框架
點(diǎn)融黑幫2018.10.31我要分享
概述
機(jī)器學(xué)習(xí)理論由緊密聯(lián)系而又自成體系的三個模塊所構(gòu)成,分別是:模型、學(xué)習(xí)和推斷。其中,模型為具體的問題域提供建模工具;學(xué)習(xí)是理論核心,為設(shè)定學(xué)習(xí)目標(biāo)和學(xué)習(xí)效果提供理論保證;推斷關(guān)注模型的使用性能和準(zhǔn)確性。
本文的目的是對機(jī)器學(xué)習(xí)的總體理論框架做總結(jié),提供原理性地解釋。本文不會對具體的模型、算法做講解(這些內(nèi)容在相關(guān)的教材上都可以找到),只會對各模型、算法間的聯(lián)系性做說明,以便幫助讀者建立一個結(jié)構(gòu)化的知識體系。目標(biāo)讀者需要對機(jī)器學(xué)習(xí)的基本原理、各種模型和算法已經(jīng)有所了解和掌握。
一
模型=假設(shè)=規(guī)律形式上,模型就是一個帶有參數(shù)的函數(shù)表達(dá)式,我們希望模型能夠反映某種關(guān)系或規(guī)律。早在機(jī)器學(xué)習(xí)出現(xiàn)之前,人們就已經(jīng)通過對周圍世界的觀察,歸納出了很多模型。例如,
物理學(xué)中的萬有引力定律和質(zhì)能方程式。這些模型非常穩(wěn)定(至少在我們所在的宇宙是這樣子的)、適用性很強(qiáng)。然而,還有許許多多的規(guī)律( 一般都局限在各個具體的研究領(lǐng)域),雖然適用性小一些,但卻實(shí)實(shí)在在的影響了我們的生活,值得我們?nèi)グl(fā)掘。發(fā)現(xiàn)這些規(guī)律的過程依賴于我們的觀察。隨著
傳感器技術(shù)的發(fā)展,人為的觀察過程逐漸被機(jī)器所取代,觀測的結(jié)果以電子化數(shù)據(jù)的方式被存儲下來?;诮y(tǒng)計學(xué)和計算機(jī)科學(xué),人們希望從這些數(shù)據(jù)中發(fā)現(xiàn)某些統(tǒng)計規(guī)律,并將發(fā)現(xiàn)的規(guī)律應(yīng)用于生產(chǎn)實(shí)踐。由此,便產(chǎn)生了機(jī)器學(xué)習(xí)這一學(xué)科?;氐絼偛耪f的模型,一個看起來顯而易見但卻是本質(zhì)性的問題是:為什么需要模型?如果我們能夠收集到包含足夠信息的數(shù)據(jù),是否可以直接發(fā)現(xiàn)規(guī)律,而跳過建模的過程呢?畢竟,機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)提出了很多“model-free”的思路。
答案是:不能。
要理解這個問題的本質(zhì),首先要理解:什么是模型?模型是一組假設(shè),這組假設(shè)一定是基于某個具體的問題所提出的。也就是說,當(dāng)我們?nèi)ネ瓿梢粋€機(jī)器學(xué)習(xí)的任務(wù)時,一定是為了解決某一個問題,而這個問題本身會對數(shù)據(jù)的類型、數(shù)據(jù)的收集過程、數(shù)據(jù)的預(yù)處理等作出限制,這些限制不能夠直接通過觀察數(shù)據(jù)本身得到(可以認(rèn)為是一種meta-information),所以就需要通過人為的假設(shè)來反映這些元信息。至于一些所謂的model-free的算法,如:聚類、強(qiáng)化學(xué)習(xí)的model-free方法,只是由于所處理的問題域本身對數(shù)據(jù)的限制較少,所以在某些方面不需要很強(qiáng)的假設(shè),但仍然是有一些“隱假設(shè)”和“弱假設(shè)”的。所以,總體上來說,我們希望模型提供一個總體框架,然后用數(shù)據(jù)對框架進(jìn)行微調(diào),最終得到一個比較準(zhǔn)確的可用的模型。用機(jī)器學(xué)習(xí)的術(shù)語來說,就是:先提供一個假設(shè)空間,然后在假設(shè)空間中搜索最合適的假設(shè)。
? 為不確定性建模
大多數(shù)情況下,我們希望模型具有一定的推斷和預(yù)測能力,例如,給定一個用戶信息與信用評級之間的關(guān)系模型:
其中:表示信用評級,取值為1~k,代表k個信用等級,表示由用戶各項(xiàng)信息所組成的向量,是模型的未定參數(shù)。
現(xiàn)實(shí)中,我們不但希望知道給定用戶的信用評級,而且希望知道給出這個評級時模型的確定性程度(也可稱為:可信任度)。概率論為不確定性的建模提供了極好的工具,如下式所示:
其中,p表示概率分布函數(shù),表示條件概率。關(guān)于不確定性的完整建模,涉及到很多其他的理論和概念,包括信息論, 隨機(jī)過程,混沌理論,
貝葉斯定理,模型的固有局限性等,在此不做展開。
? 模型與數(shù)據(jù)結(jié)構(gòu)
實(shí)際應(yīng)用中的模型都比較復(fù)雜,往往包含成千上萬的變量,即X的維數(shù)n很大,所需要確定的參數(shù)也同樣是高維的,并且各個變量之間也有關(guān)聯(lián)關(guān)系,因此我們需要利用先驗(yàn)知識為多個變量間的關(guān)系建模。高維空間相對于低位空間的處理來說比較困難,所以一個重要的直覺是:對高維空間分解成多個子空間,在各個子空間中處理得到解后,再合成高維空間中的解。條件概率的乘法公式可以實(shí)現(xiàn)這樣的分解:
如果兩個變量是相互獨(dú)立的,那么可以進(jìn)一步簡化成:
前面提到,機(jī)器學(xué)習(xí)是統(tǒng)計學(xué)和計算機(jī)科學(xué)的聯(lián)姻,而計算機(jī)科學(xué)提供的最強(qiáng)大的兩個工具是:數(shù)據(jù)結(jié)構(gòu)和算法。在眾多數(shù)據(jù)結(jié)構(gòu)中,圖是最通用的一種數(shù)據(jù)結(jié)構(gòu),如果我們能夠把上述模型的數(shù)學(xué)公式表示成圖的形式,不但可以提供直觀的可視化展示,而且可以借助計算機(jī)科學(xué)中現(xiàn)有的算法來完成各類計算過程。
在上述的概率模型中,如果將變量用圖的節(jié)點(diǎn)來表示,變量間的依賴關(guān)系用有向邊來表示,那么就能夠?qū)崿F(xiàn)模型與圖的對應(yīng)。概率圖模型就是這樣一種思路。通過將模型與各種數(shù)據(jù)結(jié)構(gòu)(圖、樹、森林、鏈表等)的結(jié)合,我們可以得到以下經(jīng)典模型:
貝葉斯網(wǎng)(BN),
馬爾科夫隨機(jī)場(MRF),條件隨機(jī)場(CRF),隱馬爾科夫模型(HMM),決策樹(DT),隨機(jī)森林,神經(jīng)網(wǎng)絡(luò)(NN)等。而其他模型,如支持向量機(jī)(SVM),線性回歸模型,邏輯斯底分類模型都是上述模型的進(jìn)一步簡化。
以下給出一些模型的簡單圖示:
? 小結(jié)
本節(jié)我們介紹了機(jī)器學(xué)習(xí)中模型的一個通用理論框架。接下來,我們需要理解如何通過數(shù)據(jù)來對模型做微調(diào),即:確定參數(shù)。這個過程也稱為“學(xué)習(xí)”或“訓(xùn)練”。
二
學(xué)習(xí)=訓(xùn)練=優(yōu)化=擬合?“學(xué)習(xí)”的本質(zhì)
“學(xué)習(xí)”是一個很能讓人遐想的名稱,它常常和智能聯(lián)系在一起。認(rèn)知科學(xué)試圖直接從自然智能的原理出發(fā),理解學(xué)習(xí)的本質(zhì),但這不是機(jī)器學(xué)習(xí)領(lǐng)域所采用的研究方法。機(jī)器的可學(xué)習(xí)性理論構(gòu)建在統(tǒng)計學(xué)中的大數(shù)定律之上,具有嚴(yán)格的數(shù)學(xué)基礎(chǔ)。
正如本節(jié)標(biāo)題所表明的,在機(jī)器學(xué)習(xí)中,學(xué)習(xí)的本質(zhì)是函數(shù)擬合,即:從可能的假設(shè)空間中,根據(jù)數(shù)據(jù)所提供的信息,找到一個和真實(shí)的函數(shù)最接近或相等的假設(shè)。以概率分布函數(shù)為例,是帶有參數(shù)的概率分布,代表了模型所對應(yīng)的假設(shè)空間,是由采樣得到的數(shù)據(jù)的概率分布,是真實(shí)的概率分布。概率分布之間的相似度的度量是散度(divergence),其通用的定義為f-divergence:
。
(其中,比較常用的是KL散度,之后在講最大似然估計的時候還會提到。)
如上圖所示,我們的目標(biāo)是求取一個,滿足:
代表與之間的差異,根據(jù)大數(shù)定律,當(dāng)所獲取的樣本數(shù)據(jù)滿足獨(dú)立同分布(簡記為:i.i.d.),并且樣本量足夠大時,。這一定律一方面給我們提供了可學(xué)習(xí)性的理論保證,而另一方面也說明了數(shù)據(jù)收集過程的重要性:不管是直接獲取的還是間接獲取的數(shù)據(jù),我們都要驗(yàn)證其是否滿足i.i.d.。由于真實(shí)世界的分布是無法知道的,當(dāng)我們確認(rèn)了數(shù)據(jù)的有效性之后,我們的目標(biāo)就變成了最小化,即:其中代表與之間的差異。只要我們給出的數(shù)學(xué)表達(dá)式,那么上述問題就可以轉(zhuǎn)化為一個傳統(tǒng)的最優(yōu)化問題。(最優(yōu)化理論是一個獨(dú)立的學(xué)科分支,這里不做展開,讀者可以在任何一本相關(guān)的教科書中獲取全面的知識。)一般來說,運(yùn)用梯度下降法,就可以求解這個最優(yōu)化問題。在某些特殊的問題上,也可能會用到EM,二次規(guī)劃和其他一些啟發(fā)式的優(yōu)化算法。? 差異性的度量準(zhǔn)則
在數(shù)學(xué)中,測度論為屬性的度量提供了基礎(chǔ)理論保證,在此之上得以建立對差異性的形式化定義 。根據(jù)處理對象的不同,差異性會具體化成不同的概念。
例如:
● 在歐式空間,我們使用歐式距離來度量空間中的兩個點(diǎn)的位置的差異。
● 在線性空間,我們用范數(shù),余弦距離來度量兩個向量之間的差異。
● 在概率分布函數(shù)空間中,我們用散度來度量兩個分布之間的差異。
● 在信息論中,我們用交叉熵來度量兩個信息源所包含信息量的差異。
● 在決策理論中,我們用損失函數(shù),風(fēng)險 來度量兩個不同的決策的有效性之間的差異。
● 在統(tǒng)計學(xué)中,我們用似然性來度量模型與數(shù)據(jù)之間的切合程度,本質(zhì)上也是一種差異性的度量。
理解了上述各種差異性的度量方法,我們就不難理解為什么目標(biāo)函數(shù)在不同的假設(shè)條件下會有那么多不同的名稱和組成部分:f-散度,損失函數(shù), 風(fēng)險,似然,交叉熵。? 損失函數(shù)與f-散度的對偶性
損失函數(shù)和f-散度在決定學(xué)習(xí)目標(biāo)時,實(shí)際上說的是同一件事情。也就是說,當(dāng)我們從損失的角度,定義了優(yōu)化目標(biāo)(如:最小化均方誤差),其實(shí)本質(zhì)上也是在最小化某個 f-散度(如:K-L散度)。同樣的,如果我們定義的學(xué)習(xí)目標(biāo)是最小化某個f-散度,其實(shí)質(zhì)也是在最小化某個損失函數(shù)。具體從哪個角度來定義學(xué)習(xí)目標(biāo),要看情況而定。一般來說,損失函數(shù)比較直觀,可以優(yōu)先考慮。f-散度比較抽象,如果對數(shù)據(jù)的分布有可靠的了解的話,可以直接用散度來定義學(xué)習(xí)目標(biāo)。
例如,如果我們定義損失函數(shù)為負(fù)對數(shù)似然,那么經(jīng)過數(shù)學(xué)推導(dǎo),我們可以證明:最小化負(fù)對數(shù)似然的損失與最小化K-L散度的等價性。證明如下:
給定:
簡記為,稱為經(jīng)驗(yàn)風(fēng)險。是損失函數(shù)。
同時,根據(jù)交叉熵的定義,可知:
因?yàn)楫?dāng)前數(shù)據(jù)的概率分布是給定的,所以與無關(guān),從而可得:
同時,我們也可以看到:
由此得出如下洞察:
● 最大似然估計是經(jīng)驗(yàn)風(fēng)險在損失函數(shù)取負(fù)對數(shù)似然情況下的一個特例;
● 以負(fù)對數(shù)似然作為損失的經(jīng)驗(yàn)風(fēng)險等價于經(jīng)驗(yàn)分布和模型分布之間的交叉熵。
更進(jìn)一步,如果給定模型分布為高斯分布,,可以證明:負(fù)對數(shù)似然的損失函數(shù)與均方誤差是等價的(從略)。
? 結(jié)構(gòu)風(fēng)險與后驗(yàn)概率的等價性
上一節(jié)中,我們假設(shè)如果數(shù)據(jù)量“足夠大”時,只需要通過最小化經(jīng)驗(yàn)損失就能夠得到較好的模型。然而在實(shí)際中,由于各種技術(shù)條件的限制,數(shù)據(jù)量往往不能夠達(dá)到“足夠大” 。尤其是當(dāng)模型比較復(fù)雜時,其對應(yīng)的假設(shè)空間相對于數(shù)據(jù)量來說太大,這樣就會給優(yōu)化算法尋找良好假設(shè)的效率和準(zhǔn)確性造成影響。要么學(xué)習(xí)的速度很慢,要么即使找到了滿足數(shù)據(jù)的假設(shè),但離正確的假設(shè)仍然差距很大(稱為:過擬合)。所以,我們需要更多的限制條件來對參數(shù)作出限制,指導(dǎo)優(yōu)化算法更快更好的找到正確的模型。我們稱這一過程為:正則化。由此,我們可以定義結(jié)構(gòu)風(fēng)險,作為學(xué)習(xí)的目標(biāo):
表示模型的復(fù)雜度,稱為正則項(xiàng),對其意義的解釋也頗具
哲學(xué)意味:如果我們使經(jīng)驗(yàn)風(fēng)險非常小時,說明模型對數(shù)據(jù)的擬合很好,這時模型一般都比較復(fù)雜。但是我們并不希望擬合太好,因?yàn)槟P涂赡軐W(xué)到了一些只有當(dāng)前的采樣數(shù)據(jù)所具有的特征,并不具備通用性。所以過多的復(fù)雜性對最后模型的性能來說,也是一種損失,需要被考慮到總的風(fēng)險(結(jié)構(gòu)風(fēng)險)中。至于復(fù)雜度與損失之間的具體關(guān)系以及應(yīng)該要施加多大的懲罰,需要根據(jù)具體的問題來設(shè)計和。而對具體問題的理解,代表了我們的先驗(yàn)知識。對于概率模型來說,我們也希望能夠加入這些先驗(yàn)知識。
貝葉斯定理為注入先驗(yàn)知識提供了理論框架。根據(jù)貝葉斯學(xué)習(xí)理論,學(xué)習(xí)過程就是用獲得的數(shù)據(jù)來推測模型的參數(shù),其形式化定義如下:
稱為后驗(yàn)概率,是似然函數(shù),是先驗(yàn)分布。給定時,與無關(guān),所以用一正數(shù)表示。直觀上可知,給定數(shù)據(jù)下的最大后驗(yàn)概率所對應(yīng)的為要找的參數(shù),即
可以得到,此時的損失函數(shù)為:一方面,是的先驗(yàn)分布,另一方面,從結(jié)構(gòu)風(fēng)險的角度,我們得到:即證明了:最大后驗(yàn)概率與最小化結(jié)構(gòu)風(fēng)險之間的等價性。
假設(shè),可得:可以看出,如果參數(shù)的先驗(yàn)分布為高斯分布,這時對應(yīng)的是正則化。
如上圖所示,通過引入正則項(xiàng)(或先驗(yàn)分布),我們可以在不完全擬合采樣數(shù)據(jù)的情況下,得出更優(yōu)的結(jié)果,即:相較于更接近于真實(shí)分布。當(dāng)然,前提條件是,我們注入的先驗(yàn)是合理的。三
推斷=預(yù)測當(dāng)模型訓(xùn)練完成,即參數(shù)確定后,就可以用模型做預(yù)測或推斷的任務(wù)。正如第1節(jié)所示,模型的本質(zhì)是函數(shù)關(guān)系,那么推斷任務(wù)的本質(zhì)就是函數(shù)調(diào)用:給定一個輸入變量,經(jīng)過計算后,就會得到輸出。
一般來說,實(shí)踐中的函數(shù)都比較復(fù)雜,會執(zhí)行大量高維向量和矩陣之間的乘法操作。矩陣乘法的高效算法屬于數(shù)值計算領(lǐng)域的問題,當(dāng)前的主要方式是通過大規(guī)模的
并行計算來高效實(shí)現(xiàn),因此,
GPU在其中得到了廣泛的應(yīng)用。
能夠執(zhí)行矩陣乘法的前提條件是:求解的函數(shù)表達(dá)式有解析式,這個問題在對概率密度函數(shù)(以下簡稱為PDF: Probability Density Function)的積分計算中變得很棘手。我們知道,對于概率模型的推斷往往都會涉及到對PDF的積分,但由于PDF非常復(fù)雜,對它做積分,一般都是沒有閉式解的。因此,我們需要設(shè)計專門的算法來處理這個問題。當(dāng)前,主要有以下幾類方法和其變種:
● 變量消除
● 蒙特卡洛采樣
● 變分法
這些算法按精確性來分,主要分為精確推斷和近似推斷。精確推斷利用了計算過程中發(fā)現(xiàn)的冗余步驟,通過消除這些冗余步驟來提供算法效率。底層的通用算法基礎(chǔ)是動態(tài)規(guī)劃。近似推斷中,主要有兩類算法:蒙特卡洛采樣和變分法。
蒙特卡洛采樣是一個神奇的算法,當(dāng)我第一次聽說這個算法的時候,簡直是嘆服。其理論基礎(chǔ)也是大數(shù)定律,用樣本均值來近似估計總體均值。關(guān)鍵技術(shù)是確保采樣過程具有足夠的隨機(jī)性。隨著計算機(jī)技術(shù)的發(fā)展,采樣效率的提高,該算法在概率積分求解中起到非常大的作用。目前該算法的理論已經(jīng)比較成熟,最常使用的是Importance采樣,MCMC和Gibbs采樣。
變分法的數(shù)學(xué)基礎(chǔ)是泛函,相對比較抽象。但直覺上還是比較容易理解的:既然現(xiàn)在的PDF很復(fù)雜,那么能否找一組簡單的PDF,用這組簡單的PDF的線性組合來近似原來的PDF,而這組簡單的PDF對于要處理的積分是有解析式或者比較容易求解。而變分法就提供了找出這組簡單PDF的工具。
四
機(jī)器學(xué)習(xí)的分支領(lǐng)域在1~3節(jié)中,我們已經(jīng)完成了對機(jī)器學(xué)習(xí)的基礎(chǔ)理論框架的全部論述。然而,隨著機(jī)器學(xué)習(xí)的進(jìn)一步發(fā)展,產(chǎn)生了兩個有重要影響的子領(lǐng)域:
深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),雖然它們?nèi)匀皇菢?gòu)建在統(tǒng)計學(xué)習(xí)理論之上的,但是在其內(nèi)部已經(jīng)形成了自己的理論架構(gòu),值得我們單獨(dú)列出來進(jìn)行闡述。
其中,深度學(xué)習(xí)試圖解決手工特征提取的問題,而強(qiáng)化學(xué)習(xí)試圖解決決策推理的問題。隨著上述兩個問題被逐步解決,就有希望消除人的參與,讓機(jī)器自動適應(yīng)環(huán)境并作出決策,最終使得真正的AI成為可能。
? 深度學(xué)習(xí)
1.1?感知計算問題
計算機(jī)技術(shù)完全構(gòu)建在數(shù)學(xué)和邏輯之上,從它誕生的那刻起,就非常擅長于求解定義明確、輸入輸出可量化的形式化問題。而形式化問題(如:公式推導(dǎo),矩陣運(yùn)算)對大多數(shù)人來說是一件非常困難的事情,以至于人們曾一度樂觀的認(rèn)為,21世紀(jì)之前就可以通過計算機(jī)實(shí)現(xiàn)真正的
人工智能。直到研究人員在
計算機(jī)視覺、
語音識別、自然語言理解領(lǐng)域遭遇一次次的挫敗,人們才漸漸意識到智能問題遠(yuǎn)比我們想象的復(fù)雜。
我們每天都在與他人進(jìn)行互動,當(dāng)我們走進(jìn)一個會議的房間,立馬就能夠感受到氛圍的變化,別人細(xì)微的一個表情或身體姿態(tài)的變化,我們立刻就能捕捉到。人類實(shí)在是太擅長這一技能了,以至于我們把它看做是想當(dāng)然的簡單的本能反應(yīng),而殊不知這種簡單的本能反應(yīng)是大自然給了我們數(shù)十億年的時間,經(jīng)過無數(shù)次的優(yōu)勝劣汰才進(jìn)化出來的!而計算機(jī)只有幾十年的發(fā)展歷程,對這一類問題(我們稱之為:感知計算問題)是沒有經(jīng)驗(yàn)準(zhǔn)備的。
1.2?感知計算問題的困難
混沌理論表明了現(xiàn)實(shí)環(huán)境內(nèi)在的隨機(jī)性和復(fù)雜性:無數(shù)變量在各個層面(
原子,分子,細(xì)胞,生物,團(tuán)體,經(jīng)濟(jì)體)通過各種關(guān)系(引力,化學(xué)鍵,生物電,血液循環(huán),電子通信,貨幣)相互影響,構(gòu)成一個嵌套的、多層次的動態(tài)系統(tǒng)。這樣一個動態(tài)系統(tǒng)包含的信息量近乎無窮。而人類自身以及目前所發(fā)明的所有
傳感器,由于受到精度、存儲、計算能力和成本的限制,只能收集到其中很小一部分的數(shù)據(jù)。更重要的是,所有和人類活動相關(guān)的現(xiàn)象,都受到人類的文化、觀念、情緒的影響,而這一類變量是抽象的,壓根就無法進(jìn)行直接測量。退一步講,即使我們能夠獲取所有我們想要的數(shù)據(jù),如何分析這些數(shù)據(jù)呢?畢竟,計算機(jī)看到的都是01比特,如何才能將這些比特映射成合理的語義信息?
1.3?智能與表征學(xué)習(xí)
現(xiàn)實(shí)看起來如此艱難,但畢竟人類
大腦還是克服了這個看似不可能的困難,成功的認(rèn)識了這個世界。認(rèn)知科學(xué)研究的核心是理解
大腦對知識的表征形式,并認(rèn)為智能的首要特征是:有一個良好的表征系統(tǒng)。這一洞見和我們對數(shù)據(jù)結(jié)構(gòu)的認(rèn)識是一致的:只有在良好定義的數(shù)據(jù)結(jié)構(gòu)之上,才能開發(fā)出高效的算法。
通過對腦科學(xué)和人類視覺皮層的研究,我們得到了兩個啟發(fā):
● 復(fù)雜的智能行為是由相對簡單的神經(jīng)元通過網(wǎng)絡(luò)結(jié)構(gòu)組合而產(chǎn)生的
● 不同的神經(jīng)元負(fù)責(zé)感知不同的視覺元素,并通過層層傳遞的方式來構(gòu)成更復(fù)雜、抽象的信息
深度神經(jīng)網(wǎng)絡(luò)就是由此啟發(fā)而產(chǎn)生的,而其重點(diǎn)就是表征學(xué)習(xí)。其設(shè)計的核心理念有兩條:
● 組合泛化
● 層次化
之后的所有架構(gòu)設(shè)計都是圍繞這兩個理念,并結(jié)合具體的問題域而展開的。
1.4?架構(gòu)設(shè)計
深度學(xué)習(xí)的核心組件是深度神經(jīng)網(wǎng)絡(luò),“深”的意義在于提供了近乎無限的函數(shù)擬合能力。但是為了駕馭好這種能力,需要通過網(wǎng)絡(luò)架構(gòu)的設(shè)計,植入先驗(yàn),引導(dǎo)神經(jīng)網(wǎng)絡(luò)擬合出我們想要的函數(shù)關(guān)系。
網(wǎng)絡(luò)架構(gòu)的設(shè)計屬于模型設(shè)計的范疇,針對不同的問題領(lǐng)域,都需要有相適應(yīng)的架構(gòu)與之匹配。目前主流的架構(gòu)主要包括以下3個系列:CNNs,RNNs,GANs。這些網(wǎng)絡(luò)主要針對以下幾類組件進(jìn)行設(shè)計和選擇:
● 神經(jīng)元
神經(jīng)元的設(shè)計就是激活函數(shù)的設(shè)計,目前主要的激活函數(shù)有:ReLU, ELU, LReLU, PReLU, CReLU。不同的激活函數(shù)都有各自的優(yōu)缺點(diǎn),但總的來說差別不大。
● 層內(nèi)結(jié)構(gòu)
主要包括:向量,樹,圖
● 網(wǎng)絡(luò)寬度
和輸入數(shù)據(jù)的維度 (如:圖像的大小,音頻的長度,文字的含義復(fù)雜度)以及輸出結(jié)果的維度(如:分類數(shù))有關(guān)
● 網(wǎng)絡(luò)層數(shù)
和數(shù)據(jù)所包含的概念、特征的抽象層次數(shù)成正比。
● 層之間的連接關(guān)系和順序
跳躍連接,反饋連接,全連接,卷積連接(普通卷積,空洞卷積,3D卷積等),池化連接,拼接與分拆(一對多,多對一)
●多個網(wǎng)絡(luò)的組合
在無監(jiān)督表示學(xué)習(xí)中常被使用,如:自動編碼器,GAN。
可以看出,對不同的架構(gòu)設(shè)計選擇進(jìn)行排列組合后,就可以得到不同的網(wǎng)絡(luò)。這些排列組合構(gòu)成了一個巨大的超參數(shù)空間。如何在這個超參數(shù)空間中找出最優(yōu)解,依賴于經(jīng)驗(yàn)和領(lǐng)域知識。當(dāng)然,也有人試圖通過強(qiáng)化學(xué)習(xí),來自動搜索出最優(yōu)解,如:
Google的NASNet.
1.5?學(xué)習(xí)范式
除了具體網(wǎng)絡(luò)架構(gòu)上的設(shè)計考量外,在學(xué)習(xí)范式上,有如下設(shè)計思路:
● 預(yù)訓(xùn)練
● 對抗訓(xùn)練
● 端到端學(xué)習(xí)
● 遷移學(xué)習(xí)
● 多任務(wù)學(xué)習(xí)
● 多模態(tài)學(xué)習(xí)
● 課程學(xué)習(xí)
● 自監(jiān)督學(xué)習(xí)
● 主動學(xué)習(xí)
這些思路很多借鑒了人類的學(xué)習(xí)過程,主要的目的是:希望通過更少的數(shù)據(jù),更少的人工標(biāo)注,更高效的訓(xùn)練,學(xué)習(xí)到更好的表示,以便具有更好的泛化能力。這些范式不是深度學(xué)習(xí)所獨(dú)有的,但當(dāng)前主要的應(yīng)用都是基于深度學(xué)習(xí)的。
? 強(qiáng)化學(xué)習(xí)
2.1?從觀察者變?yōu)閰⑴c者
大部分的機(jī)器學(xué)習(xí)都是對外部世界的建模,其隱含假設(shè)是:觀察者是獨(dú)立于外部環(huán)境的,并且不會對當(dāng)前要觀察的環(huán)境產(chǎn)生影響。而現(xiàn)實(shí)中的智能體除了要理解外部環(huán)境的規(guī)律外,還需要與環(huán)境互動,在互動的過程中理解環(huán)境的動態(tài)性,并為制定決策提供經(jīng)驗(yàn)和理論基礎(chǔ)。強(qiáng)化學(xué)習(xí)就是為這類問題建模的工具。其基本建??蚣芸梢杂孟聢D來表示:
從上圖可以看出該模型的三個特點(diǎn):
● 環(huán)境的動態(tài)性與交互性:P(s'|s,a),環(huán)境的未來狀態(tài)同時受到當(dāng)前狀態(tài)和
Agent動作的影響。
● 不確定性:所有互動的結(jié)果都是不確定的,包括:對環(huán)境狀態(tài)的觀察結(jié)果P(o|s),采取動作后的獎勵結(jié)果P(r|s,a)和環(huán)境變化結(jié)果P(s'|s,a)。
● 時序性:整個互動過程是循環(huán)推進(jìn)的,形成一個不斷重復(fù)的(State,Observation,Action,Reward)序列。
2.2?理論基礎(chǔ)
除了統(tǒng)計理論外,強(qiáng)化學(xué)習(xí)的主要理論基礎(chǔ)是決策理論。決策理論本身是一個龐大的學(xué)科分支,按照單人/多人,一次性/多次性,單因素/多因素這三個維度可以分成不同的子領(lǐng)域,舉例如下:
● 簡單決策
● 多人博弈
● 序列式?jīng)Q策
強(qiáng)化學(xué)習(xí)解決的就是序列式?jīng)Q策問題,既有單人的,也有多人博弈的情況。序列式?jīng)Q策的基本模型是
MDP(
馬爾科夫決策過程),如果模型的參數(shù)已知,則可以通過動態(tài)規(guī)劃算法得出最優(yōu)決策策略,如果模型參數(shù)未知,則Agent需要通過和環(huán)境互動,收集數(shù)據(jù),從數(shù)據(jù)中學(xué)習(xí)到環(huán)境的一些性質(zhì),來幫助制定最優(yōu)決策。其中,收集的數(shù)據(jù)是State,Action,Reward組成的序列,學(xué)習(xí)的方法可以大致分成三大類:
● Q-Learning, Sarsa:用收集到數(shù)據(jù)來求解某些統(tǒng)計量(如:不同狀態(tài)下的期望回報),進(jìn)而求解Bellman方程,以獲得最優(yōu)的值函數(shù)或動作-值函數(shù),進(jìn)而求出策略函數(shù)。
● Policy Gradient:先定義一個含參的策略函數(shù),然后根據(jù)策略函數(shù),設(shè)計一個目標(biāo)函數(shù)(一般是某個總的價值量),然后利用梯度下降法,求出參數(shù),進(jìn)而得到策略函數(shù)。
● Model-Based: 先根據(jù)數(shù)據(jù),求出MDP模型,然后根據(jù)模型,運(yùn)用動態(tài)規(guī)劃方法,直接設(shè)計出策略。
整個學(xué)習(xí)過程是迭代完成的,分成:Prediction和Control兩個階段。在具體實(shí)操上,會有更多的設(shè)計權(quán)衡,主要?dú)w納如下:
● On-Policy VS Off-Policy
● Monte Carlo VS TD
● Exploration VS Exploitation
● Experience Replay
2.3?與深度學(xué)習(xí)的結(jié)合
同其他傳統(tǒng)的機(jī)器學(xué)習(xí)算法一樣,強(qiáng)化學(xué)習(xí)在早期遇到的一個很重要的困難是:狀態(tài)空間太大而沒有一個很好的表示方法。例如:如果要通過強(qiáng)化學(xué)習(xí)讓
機(jī)器人學(xué)會擺放物品,機(jī)器人需要看到各種物品的圖像。假設(shè)圖像的大小是400*400,那么我們所面臨的狀態(tài)空間的大小至少是:(這還不包括其他
機(jī)器人所需要感知到的狀態(tài),如當(dāng)前的位置,電量等)。所以,我們需要通過深度學(xué)習(xí)學(xué)到一個關(guān)于環(huán)境狀態(tài)的緊湊的表示,用這樣一個表示作為策略函數(shù)的輸入?yún)?shù)。除了節(jié)約了保存狀態(tài)的
內(nèi)存和計算資源外,這樣做的另一個好處是:為強(qiáng)化學(xué)習(xí)提供更好的環(huán)境適應(yīng)能力(泛化),因?yàn)樵诂F(xiàn)實(shí)環(huán)境中,Agent幾乎不可能遇到兩次一模一樣的情況,它需要能對“似曾相識”的情境做出有效的決策。
2.4?與監(jiān)督學(xué)習(xí)的異同
強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)都需要收集很多數(shù)據(jù)來進(jìn)行訓(xùn)練,但強(qiáng)化學(xué)習(xí)的數(shù)據(jù)是在
Agent與環(huán)境的互動過程中,一邊學(xué)習(xí)一邊收集的。強(qiáng)化學(xué)習(xí)不依賴于數(shù)據(jù)標(biāo)簽,但依賴于獎勵信號??梢詫ⅹ剟钚盘柨醋魇恰把訒r的標(biāo)簽”,也正因?yàn)檫@樣的標(biāo)簽是延時的,所以需要一個回溯迭代的過程來求得最優(yōu)解,這是強(qiáng)化學(xué)習(xí)所特有的。
因?yàn)樾枰c環(huán)境互動來獲得數(shù)據(jù),強(qiáng)化學(xué)習(xí)往往比監(jiān)督學(xué)習(xí)花費(fèi)更多的時間來做訓(xùn)練, 所以有時候需要通過off-policy的學(xué)習(xí)方式來部分解決這個問題。
還有一個很重要的區(qū)別是:強(qiáng)化學(xué)習(xí)所收集到的數(shù)據(jù)不符合獨(dú)立同分布的要求,所以,不能夠直接用于回歸。這里有兩種處理方式:
● 在每個給定的policy訓(xùn)練完后,丟棄到之前的數(shù)據(jù),然后重新采集。這樣做比較直觀,但同時也帶來了Sample Efficiency的問題。
● 將所有采集到的數(shù)據(jù)建立一個Buffer,然后采用隨機(jī)抽樣的方式來選出樣本數(shù)據(jù),這樣抽取的樣本是基本符合i.i.d. 的,就可以用作回歸學(xué)習(xí)了。
2.5?與動態(tài)貝葉斯網(wǎng)的關(guān)系
如果將MDP用概率圖模型的方式表示出來,可以得到下圖:
可以看出,MDP本質(zhì)上是就是一個動態(tài)貝葉斯網(wǎng),或者進(jìn)一步,也可以認(rèn)為是一個決策網(wǎng)絡(luò)。如果我們能夠收集到足夠的數(shù)據(jù)的話,也可以通過動態(tài)貝葉斯網(wǎng)的各種算法來求解出這個模型,然后用求出的模型做概率推斷,來得到最優(yōu)策略。但這就要求我們窮舉出每一種Policy,并針對每一種Policy,收集足夠多的數(shù)據(jù)?,F(xiàn)實(shí)中,這樣做的效率很低,成本是不可接受的。這里,問題的本質(zhì)上是建模的有效性:
MDP針對序列式?jīng)Q策問題內(nèi)建了很多假設(shè)條件,顯著減小了不必要的假設(shè)空間的大小,所以相對于動態(tài)貝葉斯網(wǎng),是一種更加高效、準(zhǔn)確的模型。
五
總結(jié)與展望當(dāng)我去理解機(jī)器學(xué)習(xí)乃至AI領(lǐng)域的發(fā)展歷史和現(xiàn)狀的時候,我一直會問自己這樣的問題:我們現(xiàn)在在哪?我們是否走在正確的理論道路上?如果我們的方向是對的,那么就應(yīng)該有一個整體性的框架來框定正確的方向,設(shè)定邊界,為后續(xù)的研究提供理論保證。下圖是我對當(dāng)前
機(jī)器學(xué)習(xí)和AI發(fā)展的看法:
如圖所示,我認(rèn)為過去60年人類對智能的理解就像是:剝洋蔥,從外到內(nèi),不斷取得突破,不斷加深著我們對智能的理解。先是對知識本身,通過對各領(lǐng)域知識的分析、歸納,整體,然后將其編碼進(jìn)計算機(jī)系統(tǒng),形成了各類知識庫,邏輯推理程序,和各種高效的算法。當(dāng)手工的知識編碼遇到瓶頸時,統(tǒng)計學(xué)習(xí)方法登上舞臺。然而,基于統(tǒng)計的學(xué)習(xí)算法(包括
深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí))本質(zhì)上還是函數(shù)擬合,它缺乏對這個世界的基本認(rèn)識和常識。因此,我們需要一個關(guān)于世界基本運(yùn)行規(guī)律的模型。而要能夠建立這樣一個世界模型,需要我們對智能的本質(zhì)有更深刻的理解,我們需要理解人是如何學(xué)習(xí)的,人是如何學(xué)會學(xué)習(xí)的。人從生下來的時候,就開始觀察這個世界,并不斷學(xué)習(xí),掌握知識。這種能夠?qū)W習(xí)的能力本身也許是智能最本質(zhì)的特征。我們把它稱為:元學(xué)習(xí)。它是智能得以產(chǎn)生和發(fā)展的內(nèi)核。
因此,要理解智能的本質(zhì),就需要理解人腦的先天機(jī)制。這是腦科學(xué)和認(rèn)知科學(xué)需要研究的主題,也是智能科學(xué)賴于繼續(xù)發(fā)展的前提,同時也是
哲學(xué)所探討的一個重要主題(“先驗(yàn)”一詞最早出現(xiàn)在康德的《純粹理性批判》,當(dāng)時提出的主要目的是用于調(diào)和經(jīng)驗(yàn)主義和理性主義的矛盾)。在心理學(xué)領(lǐng)域,精神分析學(xué)派的榮格提出了“集體無意識”,在我看來,也是對先驗(yàn)的另一種闡述。
這樣一來,人仿佛所有和人相關(guān)的學(xué)科都指向了同一個內(nèi)核:腦先天的運(yùn)作原理。而要理解人腦的運(yùn)作原理,需要從進(jìn)化的角度,把智能看做是生命適應(yīng)環(huán)境的產(chǎn)物。也許,一切都是自然而然產(chǎn)生的。適應(yīng)環(huán)境的過程就是學(xué)習(xí)的過程,只要給足時間(50億年?),任何智能體都會隨著環(huán)境不斷進(jìn)化和升級。如果一定要給出一個關(guān)于學(xué)習(xí)的通用理論框架,我認(rèn)為應(yīng)該是這樣的:
● 模型:存儲+隨機(jī)訪問
● 學(xué)習(xí)目標(biāo):生存下去
● 學(xué)習(xí)算法:信息反饋+誤差糾正