韩国美女极品写真1000集视频,刘亦菲视频,美女视频黄频免费大全

機(jī)器學(xué)習(xí)的理論框架

點(diǎn)融黑幫2018.10.31我要分享

概述

機(jī)器學(xué)習(xí)理論由緊密聯(lián)系而又自成體系的三個模塊所構(gòu)成，分別是：模型、學(xué)習(xí)和推斷。其中，模型為具體的問題域提供建模工具；學(xué)習(xí)是理論核心，為設(shè)定學(xué)習(xí)目標(biāo)和學(xué)習(xí)效果提供理論保證；推斷關(guān)注模型的使用性能和準(zhǔn)確性。

本文的目的是對機(jī)器學(xué)習(xí)的總體理論框架做總結(jié)，提供原理性地解釋。本文不會對具體的模型、算法做講解（這些內(nèi)容在相關(guān)的教材上都可以找到），只會對各模型、算法間的聯(lián)系性做說明，以便幫助讀者建立一個結(jié)構(gòu)化的知識體系。目標(biāo)讀者需要對機(jī)器學(xué)習(xí)的基本原理、各種模型和算法已經(jīng)有所了解和掌握。

一

模型=假設(shè)=規(guī)律形式上，模型就是一個帶有參數(shù)的函數(shù)表達(dá)式，我們希望模型能夠反映某種關(guān)系或規(guī)律。早在機(jī)器學(xué)習(xí)出現(xiàn)之前，人們就已經(jīng)通過對周圍世界的觀察，歸納出了很多模型。例如，物理學(xué)中的萬有引力定律和質(zhì)能方程式。這些模型非常穩(wěn)定（至少在我們所在的宇宙是這樣子的）、適用性很強(qiáng)。然而，還有許許多多的規(guī)律（一般都局限在各個具體的研究領(lǐng)域），雖然適用性小一些，但卻實(shí)實(shí)在在的影響了我們的生活，值得我們?nèi)グl(fā)掘。發(fā)現(xiàn)這些規(guī)律的過程依賴于我們的觀察。隨著傳感器技術(shù)的發(fā)展，人為的觀察過程逐漸被機(jī)器所取代，觀測的結(jié)果以電子化數(shù)據(jù)的方式被存儲下來?；诮y(tǒng)計學(xué)和計算機(jī)科學(xué)，人們希望從這些數(shù)據(jù)中發(fā)現(xiàn)某些統(tǒng)計規(guī)律，并將發(fā)現(xiàn)的規(guī)律應(yīng)用于生產(chǎn)實(shí)踐。由此，便產(chǎn)生了機(jī)器學(xué)習(xí)這一學(xué)科?；氐絼偛耪f的模型，一個看起來顯而易見但卻是本質(zhì)性的問題是：為什么需要模型？如果我們能夠收集到包含足夠信息的數(shù)據(jù)，是否可以直接發(fā)現(xiàn)規(guī)律，而跳過建模的過程呢？畢竟，機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)提出了很多“model-free”的思路。

答案是：不能。

要理解這個問題的本質(zhì)，首先要理解：什么是模型？模型是一組假設(shè)，這組假設(shè)一定是基于某個具體的問題所提出的。也就是說，當(dāng)我們?nèi)ネ瓿梢粋€機(jī)器學(xué)習(xí)的任務(wù)時，一定是為了解決某一個問題，而這個問題本身會對數(shù)據(jù)的類型、數(shù)據(jù)的收集過程、數(shù)據(jù)的預(yù)處理等作出限制，這些限制不能夠直接通過觀察數(shù)據(jù)本身得到（可以認(rèn)為是一種meta-information），所以就需要通過人為的假設(shè)來反映這些元信息。至于一些所謂的model-free的算法，如：聚類、強(qiáng)化學(xué)習(xí)的model-free方法，只是由于所處理的問題域本身對數(shù)據(jù)的限制較少，所以在某些方面不需要很強(qiáng)的假設(shè)，但仍然是有一些“隱假設(shè)”和“弱假設(shè)”的。所以，總體上來說，我們希望模型提供一個總體框架，然后用數(shù)據(jù)對框架進(jìn)行微調(diào)，最終得到一個比較準(zhǔn)確的可用的模型。用機(jī)器學(xué)習(xí)的術(shù)語來說，就是：先提供一個假設(shè)空間，然后在假設(shè)空間中搜索最合適的假設(shè)。

? 為不確定性建模

大多數(shù)情況下，我們希望模型具有一定的推斷和預(yù)測能力，例如，給定一個用戶信息與信用評級之間的關(guān)系模型：

其中：表示信用評級，取值為1~k，代表k個信用等級，表示由用戶各項(xiàng)信息所組成的向量，是模型的未定參數(shù)。

現(xiàn)實(shí)中，我們不但希望知道給定用戶的信用評級，而且希望知道給出這個評級時模型的確定性程度（也可稱為：可信任度）。概率論為不確定性的建模提供了極好的工具，如下式所示：

其中，p表示概率分布函數(shù)，表示條件概率。關(guān)于不確定性的完整建模，涉及到很多其他的理論和概念，包括信息論，隨機(jī)過程，混沌理論，貝葉斯定理，模型的固有局限性等，在此不做展開。

? 模型與數(shù)據(jù)結(jié)構(gòu)

實(shí)際應(yīng)用中的模型都比較復(fù)雜，往往包含成千上萬的變量，即X的維數(shù)n很大，所需要確定的參數(shù)也同樣是高維的，并且各個變量之間也有關(guān)聯(lián)關(guān)系，因此我們需要利用先驗(yàn)知識為多個變量間的關(guān)系建模。高維空間相對于低位空間的處理來說比較困難，所以一個重要的直覺是：對高維空間分解成多個子空間，在各個子空間中處理得到解后，再合成高維空間中的解。條件概率的乘法公式可以實(shí)現(xiàn)這樣的分解：

如果兩個變量是相互獨(dú)立的，那么可以進(jìn)一步簡化成：

前面提到，機(jī)器學(xué)習(xí)是統(tǒng)計學(xué)和計算機(jī)科學(xué)的聯(lián)姻，而計算機(jī)科學(xué)提供的最強(qiáng)大的兩個工具是：數(shù)據(jù)結(jié)構(gòu)和算法。在眾多數(shù)據(jù)結(jié)構(gòu)中，圖是最通用的一種數(shù)據(jù)結(jié)構(gòu)，如果我們能夠把上述模型的數(shù)學(xué)公式表示成圖的形式，不但可以提供直觀的可視化展示，而且可以借助計算機(jī)科學(xué)中現(xiàn)有的算法來完成各類計算過程。

在上述的概率模型中，如果將變量用圖的節(jié)點(diǎn)來表示，變量間的依賴關(guān)系用有向邊來表示，那么就能夠?qū)崿F(xiàn)模型與圖的對應(yīng)。概率圖模型就是這樣一種思路。通過將模型與各種數(shù)據(jù)結(jié)構(gòu)（圖、樹、森林、鏈表等）的結(jié)合，我們可以得到以下經(jīng)典模型：

貝葉斯網(wǎng)（BN），馬爾科夫隨機(jī)場（MRF），條件隨機(jī)場（CRF），隱馬爾科夫模型（HMM），決策樹（DT），隨機(jī)森林，神經(jīng)網(wǎng)絡(luò)（NN）等。而其他模型，如支持向量機(jī)（SVM），線性回歸模型，邏輯斯底分類模型都是上述模型的進(jìn)一步簡化。

以下給出一些模型的簡單圖示：

? 小結(jié)

本節(jié)我們介紹了機(jī)器學(xué)習(xí)中模型的一個通用理論框架。接下來，我們需要理解如何通過數(shù)據(jù)來對模型做微調(diào)，即：確定參數(shù)。這個過程也稱為“學(xué)習(xí)”或“訓(xùn)練”。

二

學(xué)習(xí)=訓(xùn)練=優(yōu)化=擬合?“學(xué)習(xí)”的本質(zhì)

“學(xué)習(xí)”是一個很能讓人遐想的名稱，它常常和智能聯(lián)系在一起。認(rèn)知科學(xué)試圖直接從自然智能的原理出發(fā)，理解學(xué)習(xí)的本質(zhì)，但這不是機(jī)器學(xué)習(xí)領(lǐng)域所采用的研究方法。機(jī)器的可學(xué)習(xí)性理論構(gòu)建在統(tǒng)計學(xué)中的大數(shù)定律之上，具有嚴(yán)格的數(shù)學(xué)基礎(chǔ)。

正如本節(jié)標(biāo)題所表明的，在機(jī)器學(xué)習(xí)中，學(xué)習(xí)的本質(zhì)是函數(shù)擬合，即：從可能的假設(shè)空間中，根據(jù)數(shù)據(jù)所提供的信息，找到一個和真實(shí)的函數(shù)最接近或相等的假設(shè)。以概率分布函數(shù)為例，是帶有參數(shù)的概率分布，代表了模型所對應(yīng)的假設(shè)空間，是由采樣得到的數(shù)據(jù)的概率分布，是真實(shí)的概率分布。概率分布之間的相似度的度量是散度（divergence），其通用的定義為f-divergence：

。

（其中，比較常用的是KL散度，之后在講最大似然估計的時候還會提到。）

如上圖所示，我們的目標(biāo)是求取一個，滿足：

代表與之間的差異，根據(jù)大數(shù)定律，當(dāng)所獲取的樣本數(shù)據(jù)滿足獨(dú)立同分布（簡記為：i.i.d.），并且樣本量足夠大時，。這一定律一方面給我們提供了可學(xué)習(xí)性的理論保證，而另一方面也說明了數(shù)據(jù)收集過程的重要性：不管是直接獲取的還是間接獲取的數(shù)據(jù)，我們都要驗(yàn)證其是否滿足i.i.d.。由于真實(shí)世界的分布是無法知道的，當(dāng)我們確認(rèn)了數(shù)據(jù)的有效性之后，我們的目標(biāo)就變成了最小化，即：其中代表與之間的差異。只要我們給出的數(shù)學(xué)表達(dá)式，那么上述問題就可以轉(zhuǎn)化為一個傳統(tǒng)的最優(yōu)化問題。（最優(yōu)化理論是一個獨(dú)立的學(xué)科分支，這里不做展開，讀者可以在任何一本相關(guān)的教科書中獲取全面的知識。）一般來說，運(yùn)用梯度下降法，就可以求解這個最優(yōu)化問題。在某些特殊的問題上，也可能會用到EM，二次規(guī)劃和其他一些啟發(fā)式的優(yōu)化算法。? 差異性的度量準(zhǔn)則

在數(shù)學(xué)中，測度論為屬性的度量提供了基礎(chǔ)理論保證，在此之上得以建立對差異性的形式化定義。根據(jù)處理對象的不同，差異性會具體化成不同的概念。

例如：

● 在歐式空間，我們使用歐式距離來度量空間中的兩個點(diǎn)的位置的差異。

● 在線性空間，我們用范數(shù)，余弦距離來度量兩個向量之間的差異。

● 在概率分布函數(shù)空間中，我們用散度來度量兩個分布之間的差異。

● 在信息論中，我們用交叉熵來度量兩個信息源所包含信息量的差異。

● 在決策理論中，我們用損失函數(shù)，風(fēng)險來度量兩個不同的決策的有效性之間的差異。

● 在統(tǒng)計學(xué)中，我們用似然性來度量模型與數(shù)據(jù)之間的切合程度，本質(zhì)上也是一種差異性的度量。

理解了上述各種差異性的度量方法，我們就不難理解為什么目標(biāo)函數(shù)在不同的假設(shè)條件下會有那么多不同的名稱和組成部分：f-散度，損失函數(shù)，風(fēng)險，似然，交叉熵。? 損失函數(shù)與f-散度的對偶性

損失函數(shù)和f-散度在決定學(xué)習(xí)目標(biāo)時，實(shí)際上說的是同一件事情。也就是說，當(dāng)我們從損失的角度，定義了優(yōu)化目標(biāo)（如：最小化均方誤差），其實(shí)本質(zhì)上也是在最小化某個 f-散度（如：K-L散度）。同樣的，如果我們定義的學(xué)習(xí)目標(biāo)是最小化某個f-散度，其實(shí)質(zhì)也是在最小化某個損失函數(shù)。具體從哪個角度來定義學(xué)習(xí)目標(biāo)，要看情況而定。一般來說，損失函數(shù)比較直觀，可以優(yōu)先考慮。f-散度比較抽象，如果對數(shù)據(jù)的分布有可靠的了解的話，可以直接用散度來定義學(xué)習(xí)目標(biāo)。

例如，如果我們定義損失函數(shù)為負(fù)對數(shù)似然，那么經(jīng)過數(shù)學(xué)推導(dǎo)，我們可以證明:最小化負(fù)對數(shù)似然的損失與最小化K-L散度的等價性。證明如下：

給定：

簡記為，稱為經(jīng)驗(yàn)風(fēng)險。是損失函數(shù)。

同時，根據(jù)交叉熵的定義，可知：

因?yàn)楫?dāng)前數(shù)據(jù)的概率分布是給定的，所以與無關(guān)，從而可得：

同時，我們也可以看到：

由此得出如下洞察：

● 最大似然估計是經(jīng)驗(yàn)風(fēng)險在損失函數(shù)取負(fù)對數(shù)似然情況下的一個特例；

● 以負(fù)對數(shù)似然作為損失的經(jīng)驗(yàn)風(fēng)險等價于經(jīng)驗(yàn)分布和模型分布之間的交叉熵。

更進(jìn)一步，如果給定模型分布為高斯分布，，可以證明：負(fù)對數(shù)似然的損失函數(shù)與均方誤差是等價的（從略）。

? 結(jié)構(gòu)風(fēng)險與后驗(yàn)概率的等價性

上一節(jié)中，我們假設(shè)如果數(shù)據(jù)量“足夠大”時，只需要通過最小化經(jīng)驗(yàn)損失就能夠得到較好的模型。然而在實(shí)際中，由于各種技術(shù)條件的限制，數(shù)據(jù)量往往不能夠達(dá)到“足夠大” 。尤其是當(dāng)模型比較復(fù)雜時，其對應(yīng)的假設(shè)空間相對于數(shù)據(jù)量來說太大，這樣就會給優(yōu)化算法尋找良好假設(shè)的效率和準(zhǔn)確性造成影響。要么學(xué)習(xí)的速度很慢，要么即使找到了滿足數(shù)據(jù)的假設(shè)，但離正確的假設(shè)仍然差距很大（稱為：過擬合）。所以，我們需要更多的限制條件來對參數(shù)作出限制，指導(dǎo)優(yōu)化算法更快更好的找到正確的模型。我們稱這一過程為：正則化。由此，我們可以定義結(jié)構(gòu)風(fēng)險，作為學(xué)習(xí)的目標(biāo)：

表示模型的復(fù)雜度，稱為正則項(xiàng)，對其意義的解釋也頗具哲學(xué)意味：如果我們使經(jīng)驗(yàn)風(fēng)險非常小時，說明模型對數(shù)據(jù)的擬合很好，這時模型一般都比較復(fù)雜。但是我們并不希望擬合太好，因?yàn)槟Ｐ涂赡軐W(xué)到了一些只有當(dāng)前的采樣數(shù)據(jù)所具有的特征，并不具備通用性。所以過多的復(fù)雜性對最后模型的性能來說，也是一種損失，需要被考慮到總的風(fēng)險（結(jié)構(gòu)風(fēng)險）中。至于復(fù)雜度與損失之間的具體關(guān)系以及應(yīng)該要施加多大的懲罰，需要根據(jù)具體的問題來設(shè)計和。而對具體問題的理解，代表了我們的先驗(yàn)知識。對于概率模型來說，我們也希望能夠加入這些先驗(yàn)知識。貝葉斯定理為注入先驗(yàn)知識提供了理論框架。根據(jù)貝葉斯學(xué)習(xí)理論，學(xué)習(xí)過程就是用獲得的數(shù)據(jù)來推測模型的參數(shù)，其形式化定義如下：

稱為后驗(yàn)概率，是似然函數(shù)，是先驗(yàn)分布。給定時，與無關(guān)，所以用一正數(shù)表示。直觀上可知，給定數(shù)據(jù)下的最大后驗(yàn)概率所對應(yīng)的為要找的參數(shù)，即

可以得到，此時的損失函數(shù)為：一方面，是的先驗(yàn)分布，另一方面，從結(jié)構(gòu)風(fēng)險的角度，我們得到：即證明了：最大后驗(yàn)概率與最小化結(jié)構(gòu)風(fēng)險之間的等價性。

假設(shè)，可得：可以看出，如果參數(shù)的先驗(yàn)分布為高斯分布，這時對應(yīng)的是正則化。

如上圖所示，通過引入正則項(xiàng)（或先驗(yàn)分布），我們可以在不完全擬合采樣數(shù)據(jù)的情況下，得出更優(yōu)的結(jié)果，即：相較于更接近于真實(shí)分布。當(dāng)然，前提條件是，我們注入的先驗(yàn)是合理的。三

推斷=預(yù)測當(dāng)模型訓(xùn)練完成，即參數(shù)確定后，就可以用模型做預(yù)測或推斷的任務(wù)。正如第1節(jié)所示，模型的本質(zhì)是函數(shù)關(guān)系，那么推斷任務(wù)的本質(zhì)就是函數(shù)調(diào)用：給定一個輸入變量，經(jīng)過計算后，就會得到輸出。

一般來說，實(shí)踐中的函數(shù)都比較復(fù)雜，會執(zhí)行大量高維向量和矩陣之間的乘法操作。矩陣乘法的高效算法屬于數(shù)值計算領(lǐng)域的問題，當(dāng)前的主要方式是通過大規(guī)模的并行計算來高效實(shí)現(xiàn)，因此，GPU在其中得到了廣泛的應(yīng)用。

能夠執(zhí)行矩陣乘法的前提條件是：求解的函數(shù)表達(dá)式有解析式，這個問題在對概率密度函數(shù)（以下簡稱為PDF: Probability Density Function）的積分計算中變得很棘手。我們知道，對于概率模型的推斷往往都會涉及到對PDF的積分，但由于PDF非常復(fù)雜，對它做積分，一般都是沒有閉式解的。因此，我們需要設(shè)計專門的算法來處理這個問題。當(dāng)前，主要有以下幾類方法和其變種：

● 變量消除

● 蒙特卡洛采樣

● 變分法

這些算法按精確性來分，主要分為精確推斷和近似推斷。精確推斷利用了計算過程中發(fā)現(xiàn)的冗余步驟，通過消除這些冗余步驟來提供算法效率。底層的通用算法基礎(chǔ)是動態(tài)規(guī)劃。近似推斷中，主要有兩類算法：蒙特卡洛采樣和變分法。

蒙特卡洛采樣是一個神奇的算法，當(dāng)我第一次聽說這個算法的時候，簡直是嘆服。其理論基礎(chǔ)也是大數(shù)定律，用樣本均值來近似估計總體均值。關(guān)鍵技術(shù)是確保采樣過程具有足夠的隨機(jī)性。隨著計算機(jī)技術(shù)的發(fā)展，采樣效率的提高，該算法在概率積分求解中起到非常大的作用。目前該算法的理論已經(jīng)比較成熟，最常使用的是Importance采樣，MCMC和Gibbs采樣。

變分法的數(shù)學(xué)基礎(chǔ)是泛函，相對比較抽象。但直覺上還是比較容易理解的：既然現(xiàn)在的PDF很復(fù)雜，那么能否找一組簡單的PDF，用這組簡單的PDF的線性組合來近似原來的PDF，而這組簡單的PDF對于要處理的積分是有解析式或者比較容易求解。而變分法就提供了找出這組簡單PDF的工具。

四

機(jī)器學(xué)習(xí)的分支領(lǐng)域在1~3節(jié)中，我們已經(jīng)完成了對機(jī)器學(xué)習(xí)的基礎(chǔ)理論框架的全部論述。然而，隨著機(jī)器學(xué)習(xí)的進(jìn)一步發(fā)展，產(chǎn)生了兩個有重要影響的子領(lǐng)域：深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，雖然它們?nèi)匀皇菢?gòu)建在統(tǒng)計學(xué)習(xí)理論之上的，但是在其內(nèi)部已經(jīng)形成了自己的理論架構(gòu)，值得我們單獨(dú)列出來進(jìn)行闡述。

其中，深度學(xué)習(xí)試圖解決手工特征提取的問題，而強(qiáng)化學(xué)習(xí)試圖解決決策推理的問題。隨著上述兩個問題被逐步解決，就有希望消除人的參與，讓機(jī)器自動適應(yīng)環(huán)境并作出決策，最終使得真正的AI成為可能。

? 深度學(xué)習(xí)

1.1?感知計算問題

計算機(jī)技術(shù)完全構(gòu)建在數(shù)學(xué)和邏輯之上，從它誕生的那刻起，就非常擅長于求解定義明確、輸入輸出可量化的形式化問題。而形式化問題（如：公式推導(dǎo)，矩陣運(yùn)算）對大多數(shù)人來說是一件非常困難的事情，以至于人們曾一度樂觀的認(rèn)為，21世紀(jì)之前就可以通過計算機(jī)實(shí)現(xiàn)真正的人工智能。直到研究人員在計算機(jī)視覺、語音識別、自然語言理解領(lǐng)域遭遇一次次的挫敗，人們才漸漸意識到智能問題遠(yuǎn)比我們想象的復(fù)雜。

我們每天都在與他人進(jìn)行互動，當(dāng)我們走進(jìn)一個會議的房間，立馬就能夠感受到氛圍的變化，別人細(xì)微的一個表情或身體姿態(tài)的變化，我們立刻就能捕捉到。人類實(shí)在是太擅長這一技能了，以至于我們把它看做是想當(dāng)然的簡單的本能反應(yīng)，而殊不知這種簡單的本能反應(yīng)是大自然給了我們數(shù)十億年的時間，經(jīng)過無數(shù)次的優(yōu)勝劣汰才進(jìn)化出來的！而計算機(jī)只有幾十年的發(fā)展歷程，對這一類問題（我們稱之為：感知計算問題）是沒有經(jīng)驗(yàn)準(zhǔn)備的。

1.2?感知計算問題的困難

混沌理論表明了現(xiàn)實(shí)環(huán)境內(nèi)在的隨機(jī)性和復(fù)雜性：無數(shù)變量在各個層面（原子，分子，細(xì)胞，生物，團(tuán)體，經(jīng)濟(jì)體）通過各種關(guān)系（引力，化學(xué)鍵，生物電，血液循環(huán)，電子通信，貨幣）相互影響，構(gòu)成一個嵌套的、多層次的動態(tài)系統(tǒng)。這樣一個動態(tài)系統(tǒng)包含的信息量近乎無窮。而人類自身以及目前所發(fā)明的所有傳感器，由于受到精度、存儲、計算能力和成本的限制，只能收集到其中很小一部分的數(shù)據(jù)。更重要的是，所有和人類活動相關(guān)的現(xiàn)象，都受到人類的文化、觀念、情緒的影響，而這一類變量是抽象的，壓根就無法進(jìn)行直接測量。退一步講，即使我們能夠獲取所有我們想要的數(shù)據(jù)，如何分析這些數(shù)據(jù)呢？畢竟，計算機(jī)看到的都是01比特，如何才能將這些比特映射成合理的語義信息？

1.3?智能與表征學(xué)習(xí)

現(xiàn)實(shí)看起來如此艱難，但畢竟人類大腦還是克服了這個看似不可能的困難，成功的認(rèn)識了這個世界。認(rèn)知科學(xué)研究的核心是理解大腦對知識的表征形式，并認(rèn)為智能的首要特征是：有一個良好的表征系統(tǒng)。這一洞見和我們對數(shù)據(jù)結(jié)構(gòu)的認(rèn)識是一致的：只有在良好定義的數(shù)據(jù)結(jié)構(gòu)之上，才能開發(fā)出高效的算法。

通過對腦科學(xué)和人類視覺皮層的研究，我們得到了兩個啟發(fā)：

● 復(fù)雜的智能行為是由相對簡單的神經(jīng)元通過網(wǎng)絡(luò)結(jié)構(gòu)組合而產(chǎn)生的

● 不同的神經(jīng)元負(fù)責(zé)感知不同的視覺元素，并通過層層傳遞的方式來構(gòu)成更復(fù)雜、抽象的信息

深度神經(jīng)網(wǎng)絡(luò)就是由此啟發(fā)而產(chǎn)生的，而其重點(diǎn)就是表征學(xué)習(xí)。其設(shè)計的核心理念有兩條：

● 組合泛化

● 層次化

之后的所有架構(gòu)設(shè)計都是圍繞這兩個理念，并結(jié)合具體的問題域而展開的。

1.4?架構(gòu)設(shè)計

深度學(xué)習(xí)的核心組件是深度神經(jīng)網(wǎng)絡(luò)，“深”的意義在于提供了近乎無限的函數(shù)擬合能力。但是為了駕馭好這種能力，需要通過網(wǎng)絡(luò)架構(gòu)的設(shè)計，植入先驗(yàn)，引導(dǎo)神經(jīng)網(wǎng)絡(luò)擬合出我們想要的函數(shù)關(guān)系。

網(wǎng)絡(luò)架構(gòu)的設(shè)計屬于模型設(shè)計的范疇，針對不同的問題領(lǐng)域，都需要有相適應(yīng)的架構(gòu)與之匹配。目前主流的架構(gòu)主要包括以下3個系列：CNNs，RNNs，GANs。這些網(wǎng)絡(luò)主要針對以下幾類組件進(jìn)行設(shè)計和選擇：

● 神經(jīng)元

神經(jīng)元的設(shè)計就是激活函數(shù)的設(shè)計，目前主要的激活函數(shù)有：ReLU, ELU, LReLU, PReLU, CReLU。不同的激活函數(shù)都有各自的優(yōu)缺點(diǎn)，但總的來說差別不大。

● 層內(nèi)結(jié)構(gòu)

主要包括：向量，樹，圖

● 網(wǎng)絡(luò)寬度

和輸入數(shù)據(jù)的維度（如：圖像的大小，音頻的長度，文字的含義復(fù)雜度）以及輸出結(jié)果的維度（如：分類數(shù)）有關(guān)

● 網(wǎng)絡(luò)層數(shù)

和數(shù)據(jù)所包含的概念、特征的抽象層次數(shù)成正比。

● 層之間的連接關(guān)系和順序

跳躍連接，反饋連接，全連接，卷積連接（普通卷積，空洞卷積，3D卷積等），池化連接，拼接與分拆（一對多，多對一）

●多個網(wǎng)絡(luò)的組合

在無監(jiān)督表示學(xué)習(xí)中常被使用，如：自動編碼器，GAN。

可以看出，對不同的架構(gòu)設(shè)計選擇進(jìn)行排列組合后，就可以得到不同的網(wǎng)絡(luò)。這些排列組合構(gòu)成了一個巨大的超參數(shù)空間。如何在這個超參數(shù)空間中找出最優(yōu)解，依賴于經(jīng)驗(yàn)和領(lǐng)域知識。當(dāng)然，也有人試圖通過強(qiáng)化學(xué)習(xí)，來自動搜索出最優(yōu)解，如：Google的NASNet.

1.5?學(xué)習(xí)范式

除了具體網(wǎng)絡(luò)架構(gòu)上的設(shè)計考量外，在學(xué)習(xí)范式上，有如下設(shè)計思路：

● 預(yù)訓(xùn)練

● 對抗訓(xùn)練

● 端到端學(xué)習(xí)

● 遷移學(xué)習(xí)

● 多任務(wù)學(xué)習(xí)

● 多模態(tài)學(xué)習(xí)

● 課程學(xué)習(xí)

● 自監(jiān)督學(xué)習(xí)

● 主動學(xué)習(xí)

這些思路很多借鑒了人類的學(xué)習(xí)過程，主要的目的是：希望通過更少的數(shù)據(jù)，更少的人工標(biāo)注，更高效的訓(xùn)練，學(xué)習(xí)到更好的表示，以便具有更好的泛化能力。這些范式不是深度學(xué)習(xí)所獨(dú)有的，但當(dāng)前主要的應(yīng)用都是基于深度學(xué)習(xí)的。

? 強(qiáng)化學(xué)習(xí)

2.1?從觀察者變?yōu)閰⑴c者

大部分的機(jī)器學(xué)習(xí)都是對外部世界的建模，其隱含假設(shè)是：觀察者是獨(dú)立于外部環(huán)境的，并且不會對當(dāng)前要觀察的環(huán)境產(chǎn)生影響。而現(xiàn)實(shí)中的智能體除了要理解外部環(huán)境的規(guī)律外，還需要與環(huán)境互動，在互動的過程中理解環(huán)境的動態(tài)性，并為制定決策提供經(jīng)驗(yàn)和理論基礎(chǔ)。強(qiáng)化學(xué)習(xí)就是為這類問題建模的工具。其基本建?？蚣芸梢杂孟聢D來表示：

從上圖可以看出該模型的三個特點(diǎn)：

● 環(huán)境的動態(tài)性與交互性：P(s'|s,a)，環(huán)境的未來狀態(tài)同時受到當(dāng)前狀態(tài)和Agent動作的影響。

● 不確定性：所有互動的結(jié)果都是不確定的，包括：對環(huán)境狀態(tài)的觀察結(jié)果P(o|s)，采取動作后的獎勵結(jié)果P(r|s,a)和環(huán)境變化結(jié)果P(s'|s,a)。

● 時序性：整個互動過程是循環(huán)推進(jìn)的，形成一個不斷重復(fù)的（State，Observation，Action，Reward）序列。

2.2?理論基礎(chǔ)

除了統(tǒng)計理論外，強(qiáng)化學(xué)習(xí)的主要理論基礎(chǔ)是決策理論。決策理論本身是一個龐大的學(xué)科分支，按照單人/多人，一次性/多次性，單因素/多因素這三個維度可以分成不同的子領(lǐng)域，舉例如下：

● 簡單決策

● 多人博弈

● 序列式?jīng)Q策

強(qiáng)化學(xué)習(xí)解決的就是序列式?jīng)Q策問題，既有單人的，也有多人博弈的情況。序列式?jīng)Q策的基本模型是MDP（馬爾科夫決策過程），如果模型的參數(shù)已知，則可以通過動態(tài)規(guī)劃算法得出最優(yōu)決策策略，如果模型參數(shù)未知，則Agent需要通過和環(huán)境互動，收集數(shù)據(jù)，從數(shù)據(jù)中學(xué)習(xí)到環(huán)境的一些性質(zhì)，來幫助制定最優(yōu)決策。其中，收集的數(shù)據(jù)是State，Action，Reward組成的序列，學(xué)習(xí)的方法可以大致分成三大類：

● Q-Learning, Sarsa：用收集到數(shù)據(jù)來求解某些統(tǒng)計量（如：不同狀態(tài)下的期望回報），進(jìn)而求解Bellman方程，以獲得最優(yōu)的值函數(shù)或動作-值函數(shù)，進(jìn)而求出策略函數(shù)。

● Policy Gradient：先定義一個含參的策略函數(shù)，然后根據(jù)策略函數(shù)，設(shè)計一個目標(biāo)函數(shù)（一般是某個總的價值量），然后利用梯度下降法，求出參數(shù)，進(jìn)而得到策略函數(shù)。

● Model-Based: 先根據(jù)數(shù)據(jù)，求出MDP模型，然后根據(jù)模型，運(yùn)用動態(tài)規(guī)劃方法，直接設(shè)計出策略。

整個學(xué)習(xí)過程是迭代完成的，分成：Prediction和Control兩個階段。在具體實(shí)操上，會有更多的設(shè)計權(quán)衡，主要?dú)w納如下：

● On-Policy VS Off-Policy

● Monte Carlo VS TD

● Exploration VS Exploitation

● Experience Replay

2.3?與深度學(xué)習(xí)的結(jié)合

同其他傳統(tǒng)的機(jī)器學(xué)習(xí)算法一樣，強(qiáng)化學(xué)習(xí)在早期遇到的一個很重要的困難是：狀態(tài)空間太大而沒有一個很好的表示方法。例如：如果要通過強(qiáng)化學(xué)習(xí)讓機(jī)器人學(xué)會擺放物品，機(jī)器人需要看到各種物品的圖像。假設(shè)圖像的大小是400*400，那么我們所面臨的狀態(tài)空間的大小至少是：（這還不包括其他機(jī)器人所需要感知到的狀態(tài)，如當(dāng)前的位置，電量等）。所以，我們需要通過深度學(xué)習(xí)學(xué)到一個關(guān)于環(huán)境狀態(tài)的緊湊的表示，用這樣一個表示作為策略函數(shù)的輸入?yún)?shù)。除了節(jié)約了保存狀態(tài)的內(nèi)存和計算資源外，這樣做的另一個好處是：為強(qiáng)化學(xué)習(xí)提供更好的環(huán)境適應(yīng)能力（泛化），因?yàn)樵诂F(xiàn)實(shí)環(huán)境中，Agent幾乎不可能遇到兩次一模一樣的情況，它需要能對“似曾相識”的情境做出有效的決策。

2.4?與監(jiān)督學(xué)習(xí)的異同

強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)都需要收集很多數(shù)據(jù)來進(jìn)行訓(xùn)練，但強(qiáng)化學(xué)習(xí)的數(shù)據(jù)是在Agent與環(huán)境的互動過程中，一邊學(xué)習(xí)一邊收集的。強(qiáng)化學(xué)習(xí)不依賴于數(shù)據(jù)標(biāo)簽，但依賴于獎勵信號?？梢詫ⅹ剟钚盘柨醋魇恰把訒r的標(biāo)簽”，也正因?yàn)檫@樣的標(biāo)簽是延時的，所以需要一個回溯迭代的過程來求得最優(yōu)解，這是強(qiáng)化學(xué)習(xí)所特有的。

因?yàn)樾枰c環(huán)境互動來獲得數(shù)據(jù)，強(qiáng)化學(xué)習(xí)往往比監(jiān)督學(xué)習(xí)花費(fèi)更多的時間來做訓(xùn)練，所以有時候需要通過off-policy的學(xué)習(xí)方式來部分解決這個問題。

還有一個很重要的區(qū)別是：強(qiáng)化學(xué)習(xí)所收集到的數(shù)據(jù)不符合獨(dú)立同分布的要求，所以，不能夠直接用于回歸。這里有兩種處理方式：

● 在每個給定的policy訓(xùn)練完后，丟棄到之前的數(shù)據(jù)，然后重新采集。這樣做比較直觀，但同時也帶來了Sample Efficiency的問題。

● 將所有采集到的數(shù)據(jù)建立一個Buffer，然后采用隨機(jī)抽樣的方式來選出樣本數(shù)據(jù)，這樣抽取的樣本是基本符合i.i.d. 的，就可以用作回歸學(xué)習(xí)了。

2.5?與動態(tài)貝葉斯網(wǎng)的關(guān)系

如果將MDP用概率圖模型的方式表示出來，可以得到下圖：

可以看出，MDP本質(zhì)上是就是一個動態(tài)貝葉斯網(wǎng)，或者進(jìn)一步，也可以認(rèn)為是一個決策網(wǎng)絡(luò)。如果我們能夠收集到足夠的數(shù)據(jù)的話，也可以通過動態(tài)貝葉斯網(wǎng)的各種算法來求解出這個模型，然后用求出的模型做概率推斷，來得到最優(yōu)策略。但這就要求我們窮舉出每一種Policy，并針對每一種Policy，收集足夠多的數(shù)據(jù)?，F(xiàn)實(shí)中，這樣做的效率很低，成本是不可接受的。這里，問題的本質(zhì)上是建模的有效性：MDP針對序列式?jīng)Q策問題內(nèi)建了很多假設(shè)條件，顯著減小了不必要的假設(shè)空間的大小，所以相對于動態(tài)貝葉斯網(wǎng)，是一種更加高效、準(zhǔn)確的模型。

五

總結(jié)與展望當(dāng)我去理解機(jī)器學(xué)習(xí)乃至AI領(lǐng)域的發(fā)展歷史和現(xiàn)狀的時候，我一直會問自己這樣的問題：我們現(xiàn)在在哪？我們是否走在正確的理論道路上？如果我們的方向是對的，那么就應(yīng)該有一個整體性的框架來框定正確的方向，設(shè)定邊界，為后續(xù)的研究提供理論保證。下圖是我對當(dāng)前機(jī)器學(xué)習(xí)和AI發(fā)展的看法：

如圖所示，我認(rèn)為過去60年人類對智能的理解就像是：剝洋蔥，從外到內(nèi)，不斷取得突破，不斷加深著我們對智能的理解。先是對知識本身，通過對各領(lǐng)域知識的分析、歸納，整體，然后將其編碼進(jìn)計算機(jī)系統(tǒng)，形成了各類知識庫，邏輯推理程序，和各種高效的算法。當(dāng)手工的知識編碼遇到瓶頸時，統(tǒng)計學(xué)習(xí)方法登上舞臺。然而，基于統(tǒng)計的學(xué)習(xí)算法（包括深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)）本質(zhì)上還是函數(shù)擬合，它缺乏對這個世界的基本認(rèn)識和常識。因此，我們需要一個關(guān)于世界基本運(yùn)行規(guī)律的模型。而要能夠建立這樣一個世界模型，需要我們對智能的本質(zhì)有更深刻的理解，我們需要理解人是如何學(xué)習(xí)的，人是如何學(xué)會學(xué)習(xí)的。人從生下來的時候，就開始觀察這個世界，并不斷學(xué)習(xí)，掌握知識。這種能夠?qū)W習(xí)的能力本身也許是智能最本質(zhì)的特征。我們把它稱為：元學(xué)習(xí)。它是智能得以產(chǎn)生和發(fā)展的內(nèi)核。

因此，要理解智能的本質(zhì)，就需要理解人腦的先天機(jī)制。這是腦科學(xué)和認(rèn)知科學(xué)需要研究的主題，也是智能科學(xué)賴于繼續(xù)發(fā)展的前提，同時也是哲學(xué)所探討的一個重要主題（“先驗(yàn)”一詞最早出現(xiàn)在康德的《純粹理性批判》，當(dāng)時提出的主要目的是用于調(diào)和經(jīng)驗(yàn)主義和理性主義的矛盾）。在心理學(xué)領(lǐng)域，精神分析學(xué)派的榮格提出了“集體無意識”，在我看來，也是對先驗(yàn)的另一種闡述。

這樣一來，人仿佛所有和人相關(guān)的學(xué)科都指向了同一個內(nèi)核：腦先天的運(yùn)作原理。而要理解人腦的運(yùn)作原理，需要從進(jìn)化的角度，把智能看做是生命適應(yīng)環(huán)境的產(chǎn)物。也許，一切都是自然而然產(chǎn)生的。適應(yīng)環(huán)境的過程就是學(xué)習(xí)的過程，只要給足時間（50億年？），任何智能體都會隨著環(huán)境不斷進(jìn)化和升級。如果一定要給出一個關(guān)于學(xué)習(xí)的通用理論框架，我認(rèn)為應(yīng)該是這樣的：

● 模型：存儲+隨機(jī)訪問

● 學(xué)習(xí)目標(biāo)：生存下去

● 學(xué)習(xí)算法：信息反饋+誤差糾正

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频