中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
【獨家】25張圖讓你讀懂神經(jīng)網(wǎng)絡(luò)架構(gòu)

由于新的神經(jīng)網(wǎng)絡(luò)架構(gòu)無時無刻不在涌現(xiàn),想要記錄所有的神經(jīng)網(wǎng)絡(luò)是很困難的事情。要把所有這些縮略語指代的網(wǎng)絡(luò)(DCIGN,IiLSTM,DCGAN等)都弄清,一開始估計還無從下手。


下表包含了大部分常用的模型(大部分是神經(jīng)網(wǎng)絡(luò)還有一些其他的模型)。雖然這些架構(gòu)都是新奇獨特的,但當(dāng)我開始把它們的結(jié)果畫下來的時候,每種架構(gòu)的底層關(guān)系就會清晰。



顯然這些節(jié)點圖并不能顯示各個模型的內(nèi)部工作過程。例如變分自動編碼器(VAE)和自動編碼器(AE)節(jié)點圖看起來一樣,但是二者的訓(xùn)練過程實際上是完全不同的,訓(xùn)練后模型的使用場景更加不同。VAE是生成器,用于在樣本中插入噪聲。而 AE 則僅僅是將它們得到的輸入映射到它們“記憶”中最近的訓(xùn)練樣本!本文不詳細(xì)介紹每個不同構(gòu)架內(nèi)部如何工作。


雖然大多數(shù)縮寫已經(jīng)被普遍接受,但也會出現(xiàn)一些沖突。例如RNN通常指復(fù)發(fā)神經(jīng)網(wǎng)絡(luò),有時也指遞歸神經(jīng)網(wǎng)絡(luò),甚至在許多地方只是泛指各種復(fù)發(fā)架構(gòu)(包括LSTM,GRU甚至雙向變體)。AE也一樣,VAE和DAE等都被簡單的稱為AE。此外,同一個模型的縮寫也會出現(xiàn)后綴N的個數(shù)不同的問題。同一個模型可以將其稱為卷積神經(jīng)網(wǎng)絡(luò)也可稱作卷積網(wǎng)絡(luò),對應(yīng)的縮寫就成了CNN或CN


將本文作為完整的神經(jīng)網(wǎng)絡(luò)列表幾乎是不可能的,因為新的架構(gòu)一直被發(fā)明,即使新架構(gòu)發(fā)布了,想要找到他們也是困難的。因此本文可能會為您提供一些對AI世界的見解,但絕對不是所有; 特別是您在這篇文章發(fā)表很久之后才看到。


對于上圖中描繪的每個架構(gòu),本文做了非常簡短的描述。如果您對某些架構(gòu)非常熟悉,您可能會發(fā)現(xiàn)其中一些有用。




感知器(P左圖)和前饋神經(jīng)網(wǎng)絡(luò)(FF或FFNN右圖)非常直觀,它們將信息從前端輸入,再從后端輸出。神經(jīng)網(wǎng)絡(luò)通常被描述為具有層(輸入,隱藏或輸出層),其中每層由并行的單元組成。通常同一層不具有連接、兩個相鄰層完全連接(每一層的每一個神經(jīng)元到另一層的每個神經(jīng)元)。最簡單的實用網(wǎng)絡(luò)有兩個輸入單元和一個輸出單元,可用于建立邏輯模型( 用做判斷是否)。通常通過反向傳播方法來訓(xùn)練FFNN,數(shù)據(jù)集由配對的輸入和輸出結(jié)果組成(這被稱為監(jiān)督學(xué)習(xí))。我們只給它輸入,讓網(wǎng)絡(luò)填充輸出。反向傳播的誤差通常是填充輸出和實際輸出之間差異的一些變化(如MSE或僅僅線性差異)。鑒于網(wǎng)絡(luò)具有足夠的隱藏神經(jīng)元,理論上可以總是對輸入和輸出之間的關(guān)系建模。實際上它們的應(yīng)用是很有限的,通常將它們與其他網(wǎng)絡(luò)結(jié)合形成新的網(wǎng)絡(luò)。



徑向基函數(shù)(RBF)網(wǎng)絡(luò)就是以徑向基函數(shù)作為激活函數(shù)的FFNN網(wǎng)絡(luò)。但是RBFNN有其區(qū)別于FFNN的使用場景(由于發(fā)明時間問題大多數(shù)具有其他激活功能的FFNN都沒有自己的名字)。



Hopfield網(wǎng)絡(luò)(HN)的每個神經(jīng)元被連接到其他神經(jīng)元; 它的結(jié)構(gòu)像一盤完全糾纏的意大利面板。每個節(jié)點在訓(xùn)練前輸入,然后在訓(xùn)練期間隱藏并輸出。通過將神經(jīng)元的值設(shè)置為期望的模式來訓(xùn)練網(wǎng)絡(luò),此后權(quán)重不變。一旦訓(xùn)練了一個或多個模式,網(wǎng)絡(luò)將總是會收斂到其中一個學(xué)習(xí)模式,因為網(wǎng)絡(luò)在這個狀態(tài)中是穩(wěn)定的。需要注意的是,HN 不會總是與理想的狀態(tài)保持一致。網(wǎng)絡(luò)穩(wěn)定的部分原因在于總的“能量”或“溫度”在訓(xùn)練過程中逐漸縮小。每個神經(jīng)元都有一個被激活的閾值,隨溫度發(fā)生變化,一旦超過輸入的總合,就會導(dǎo)致神經(jīng)元變成兩個狀態(tài)中的一個(通常是 -1 或 1,有時候是 0 或 1)。更新網(wǎng)絡(luò)可以同步進(jìn)行,也可以依次輪流進(jìn)行,后者更為常見。當(dāng)輪流更新網(wǎng)絡(luò)時,一個公平的隨機(jī)序列會被生成,每個單元會按照規(guī)定的次序進(jìn)行更新。因此,當(dāng)每個單元都經(jīng)過更新而且不再發(fā)生變化時,你就能判斷出網(wǎng)絡(luò)是穩(wěn)定的(不再收斂)。這些網(wǎng)絡(luò)也被稱為聯(lián)存儲器,因為它們會收斂到與輸入最相似的狀態(tài);當(dāng)人類看到半張桌子的時候,我們會想象出桌子的另一半,如果輸入一半噪音、一半桌子,HN 將收斂成一張桌子。


馬可夫鏈(MC或離散時間馬爾可夫鏈,DTMC)是BM和HN的前身。它可以這樣理解:從我現(xiàn)在的這個節(jié)點,我去任何一個鄰居節(jié)點的幾率是無記,這意味著你最終選擇的節(jié)點完全取決于當(dāng)前的所處的節(jié)點,l與過去所處的節(jié)點無關(guān)。這雖然不是真正的神經(jīng)網(wǎng)絡(luò),但類似于神經(jīng)網(wǎng)絡(luò),并且構(gòu)成了BM和HNs的理論基礎(chǔ)。就像BM、RBM和HN一樣,MC并不總是被認(rèn)為是神經(jīng)網(wǎng)絡(luò)。此外,馬爾科夫鏈也并不總是完全連接。



波爾茲曼機(jī)(BM)很像HN,區(qū)別在于只有一些神經(jīng)元被標(biāo)記為輸入神經(jīng)元,而其他神經(jīng)元保持“隱藏”。輸入神經(jīng)元在完整的網(wǎng)絡(luò)更新結(jié)束時成為輸出神經(jīng)元。它以隨機(jī)權(quán)重開始,并通過反向傳播學(xué)習(xí)或通過對比分歧(一種馬爾科夫鏈用于確定兩個信息增益之間的梯度)訓(xùn)練模型。與HN相比,BM的神經(jīng)元大多具有二元激活模式。由于被MC訓(xùn)練,BM是隨機(jī)網(wǎng)絡(luò)。BM的訓(xùn)練和運(yùn)行過程與HN非常相似:將輸入神經(jīng)元設(shè)置為某些鉗位值,從而釋放網(wǎng)絡(luò)。雖然釋放節(jié)點可以獲得任何值,但這樣導(dǎo)致在輸入和隱藏層之間多次反復(fù)。激活由全局閾值控制。這種全局誤差逐漸降的過程導(dǎo)致網(wǎng)絡(luò)最終達(dá)到平衡。




限制玻爾茲曼機(jī)(RBM)與BM非常相似,也與HN類似。BM和RBM之間的最大區(qū)別是,RBM有更好的可用性,因為它受到更多的限制。RBM不會將每個神經(jīng)元連接到每個其他神經(jīng)元,但只將每個神經(jīng)元組連接到每個其他組,因此沒有輸入神經(jīng)元直接連接到其他輸入神經(jīng)元,也不會有隱藏層直接連接到隱藏層。RBM可以像FFNN一樣進(jìn)行訓(xùn)練,而不是將數(shù)據(jù)向前傳播然后反向傳播。



自編碼器(Autoencoders, AE)與前饋神經(jīng)網(wǎng)絡(luò)(FFNN)有點相似。與其說它是一個完全不同的網(wǎng)絡(luò)結(jié)構(gòu),不如說它是前饋神經(jīng)網(wǎng)絡(luò)的不同應(yīng)用。自編碼器的基本思想是:自動編碼信息(如壓縮,而非加密)。由此,而得名。整個網(wǎng)絡(luò)在形狀上像一個漏斗:它的隱藏層單元總是比輸入層和輸出層少。自編碼器總是關(guān)于中央層對稱(中央層是一個還是兩個取決于網(wǎng)絡(luò)的層數(shù):如果是奇數(shù),關(guān)于最中間一層對稱;如果是偶數(shù),關(guān)于最中間的兩層對稱)。最小的隱藏層總是處在中央層,這也是信息最壓縮的地方(被稱為網(wǎng)絡(luò)的阻塞點)。從輸入層到中央層叫做編碼部分,從中央層到輸出層叫做解碼部分,中央層叫做編碼(code)。可以使用反向傳播算法來訓(xùn)練自編碼器,將數(shù)據(jù)輸入網(wǎng)絡(luò),將誤差設(shè)置為輸入數(shù)據(jù)與網(wǎng)絡(luò)輸出數(shù)據(jù)之間的差異。自編碼器的權(quán)重也是對稱的,即編碼權(quán)重和解碼權(quán)重是一樣的。




稀疏自編碼器(Sparse autoencoders, SAE)在某種程度上與自編碼器相反。不同于我們訓(xùn)練一個網(wǎng)絡(luò)在更低維的空間和結(jié)點上去表征一堆信息,在這里我們嘗試著在更高維的空間上編碼信息。所以在中央層,網(wǎng)絡(luò)不是收斂的,而是擴(kuò)張的。這種類型的網(wǎng)絡(luò)可以用于提取數(shù)據(jù)集的特征。如果我們用訓(xùn)練自編碼器的方法來訓(xùn)練稀疏自編碼,幾乎在所有的情況下,會得到一個完全無用的恒等網(wǎng)絡(luò)(即,輸入什么,網(wǎng)絡(luò)就會輸出什么,沒有任何轉(zhuǎn)換或者分解)。為了避免這種情況,在反饋輸入的過程中會加上一個稀疏驅(qū)動。這個稀疏驅(qū)動可以采用閾值過濾的形式,即只有特定的誤差可以逆?zhèn)鞑ゲ⒈挥?xùn)練,其他誤差被視為訓(xùn)練無關(guān)的并被設(shè)置為零。某種程度上,這和脈沖神經(jīng)網(wǎng)絡(luò)相似:并非所有的神經(jīng)元在每個時刻都會被激活(這在生物學(xué)上有一定的合理性)



變分自編碼器(Variational autoencoders, VAE)和自編碼器有相同的網(wǎng)絡(luò)結(jié)構(gòu),但是模型學(xué)到的一些其他的東西:輸入樣本的近似概率分布。這一點和玻爾茲曼機(jī)(BM)、受限玻爾茲曼機(jī)(RBM)更相似。然而,他們依賴于貝葉斯數(shù)學(xué),這涉及到概率推斷和獨立性,以及再參數(shù)化(reparametrisation)技巧以獲得不同的表征。概率推斷和獨立性部分有直觀的意義,但是他們依賴于復(fù)雜的數(shù)學(xué)知識?;驹砣缦拢簩⒂绊懣紤]進(jìn)去。如果一件事在一個地方發(fā)生,而另一件事在其他地方發(fā)生,那么它們未必是相關(guān)的。如果它們不相關(guān),那么誤差逆?zhèn)鞑サ倪^程中應(yīng)該考慮這個。這種方法是有用的,因為神經(jīng)網(wǎng)絡(luò)是大型圖(在某種程度上),所以當(dāng)進(jìn)入更深的網(wǎng)絡(luò)層時,你可以排除一些結(jié)點對于其他結(jié)點的影響。



去噪自編碼器(Denoising autoencoders, DAE)是一種自編碼器。在去噪自編碼器中,我們不是輸入原始數(shù)據(jù),而是輸入帶噪聲的數(shù)據(jù)(好比讓圖像更加的顆?;?。但是我們用和之前一樣的方法計算誤差。所以網(wǎng)絡(luò)的輸出是和沒有噪音的原始輸入數(shù)據(jù)相比較的。這鼓勵網(wǎng)絡(luò)不僅僅學(xué)習(xí)細(xì)節(jié),而且學(xué)習(xí)到更廣的特征。因為特征可能隨著噪音而不斷變化,所以一般網(wǎng)絡(luò)學(xué)習(xí)到的特征通常地錯誤的。


深度信念網(wǎng)絡(luò)(Deep belief networks, DBN)是受限玻爾茲曼機(jī)或者變分自編碼器的堆疊結(jié)構(gòu)。這些網(wǎng)絡(luò)已經(jīng)被證明是可有效訓(xùn)練的。其中,每個自編碼器或者玻爾茲曼機(jī)只需要學(xué)習(xí)對之前的網(wǎng)絡(luò)進(jìn)行編碼。這種技術(shù)也被稱為貪婪訓(xùn)練。貪婪是指在下降的過程中只求解局部最優(yōu)解,這個局部最優(yōu)解可能并非全局最優(yōu)解。深度信念網(wǎng)絡(luò)能夠通過對比散度(contrastive divergence)或者反向傳播來訓(xùn)練,并像常規(guī)的受限玻爾茲曼機(jī)或變分自編碼器那樣,學(xué)習(xí)將數(shù)據(jù)表示成概率模型。一旦模型通過無監(jiān)督學(xué)習(xí)被訓(xùn)練或收斂到一個(更)穩(wěn)定的狀態(tài),它可以被用作生成新數(shù)據(jù)。如果使用對比散度訓(xùn)練,它甚至可以對現(xiàn)有數(shù)據(jù)進(jìn)行分類,因為神經(jīng)元被教導(dǎo)尋找不同的特征。



卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN, or Deep convolutional neural networks, DCNN)和大多數(shù)其他網(wǎng)絡(luò)完全不同。它們主要用于圖像處理,但也可用于其他類型的輸入,如音頻。卷積神經(jīng)網(wǎng)絡(luò)的一個典型應(yīng)用是:將圖片輸入網(wǎng)絡(luò),網(wǎng)絡(luò)將對圖片進(jìn)行分類。例如,如果你輸入一張貓的圖片,它將輸出“貓”;如果你輸入一張狗的圖片,它將輸出“狗”。卷積神經(jīng)網(wǎng)絡(luò)傾向于使用一個輸入“掃描儀”,而不是一次性解析所有的訓(xùn)練數(shù)據(jù)。舉個例子,為了輸入一張200 x 200像素的圖片,你不需要使用一個有40000個結(jié)點的輸入層。相反,你只要創(chuàng)建一個掃描層,這個輸入層只有20 x 20個結(jié)點,你可以輸入圖片最開始的20 x 20像素(通常從圖片的左上角開始)。一旦你傳遞了這20 x 20像素數(shù)據(jù)(可能使用它進(jìn)行了訓(xùn)練),你又可以輸入下一個20 x 20像素:將“掃描儀”向右移動一個像素。注意,不要移動超過20個像素(或者其他“掃描儀”寬度)。你不是將圖像解剖為20 x 20的塊,而是在一點點移動“掃描儀“。然后,這些輸入數(shù)據(jù)前饋到卷積層而非普通層。卷積層的結(jié)點并不是全連接的。每個結(jié)點只和它鄰近的節(jié)點(cell)相關(guān)聯(lián)(多靠近取決于應(yīng)用實現(xiàn),但是通常不會超過幾個)。這些卷積層隨著網(wǎng)絡(luò)的加深會逐漸收縮,通常卷積層數(shù)是輸入的因子。(所以,如果輸入是20,可能接下來的卷積層是10,再接下來是5)。2的冪是經(jīng)常被使用的,因為它們能夠被整除:32,16,8,4,2,1。除了卷積層,還有特征池化層。池化是一種過濾細(xì)節(jié)的方法:最常用的池化技術(shù)是最大池化(max pooling)。比如,使用2 x 2像素,取這四個像素中數(shù)值最大的那個。為了將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到音頻,逐段輸入剪輯長度的輸入音頻波。卷積神經(jīng)網(wǎng)絡(luò)在真實世界的應(yīng)用通常會在最后加入一個前饋神經(jīng)網(wǎng)絡(luò)(FFNN)以進(jìn)一步處理數(shù)據(jù),這允許了高度非線性特征映射。這些網(wǎng)絡(luò)被稱為DCNN,但是這些名字和縮寫通常是可以交換使用的。



反卷積神經(jīng)網(wǎng)絡(luò)(Deconvolutional networks, DN),也叫做逆向圖網(wǎng)絡(luò)(inverse graphics networks, IGN)。它是反向卷積神經(jīng)網(wǎng)絡(luò)。想象一下,將一個單詞”貓“輸入神經(jīng)網(wǎng)絡(luò),并通過比較網(wǎng)絡(luò)輸出和真實貓的圖片之間的差異來訓(xùn)練網(wǎng)絡(luò)模型,最終產(chǎn)生一個看上去像貓的圖片。反卷積神經(jīng)網(wǎng)絡(luò)可以像常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)一樣結(jié)合前饋神經(jīng)網(wǎng)絡(luò)使用,但是這可能涉及到新的名字縮寫。它們可能是深度反卷積神經(jīng)網(wǎng)絡(luò),但是你可能傾向于:當(dāng)你在反卷積神經(jīng)網(wǎng)絡(luò)前面或者后面加上前饋神經(jīng)網(wǎng)絡(luò),它們可能是新的網(wǎng)絡(luò)結(jié)構(gòu)而應(yīng)該取新的名字。值得注意的事,在真實的應(yīng)用中,你不可能直接把文本輸入網(wǎng)絡(luò),而應(yīng)該輸入一個二分類向量。如,<0,1>是貓,<1,0>是狗,而<1,1>是貓和狗。在卷積神經(jīng)網(wǎng)絡(luò)中有池化層,在這里通常被相似的反向操作替代,通常是有偏的插補(bǔ)或者外推(比如,如果池化層使用最大池化,當(dāng)反向操作時,可以產(chǎn)生其他更低的新數(shù)據(jù)來填充)



深度卷積逆向圖網(wǎng)絡(luò)(Deep convolutional inverse graphics networks , DCIGN),這個名字具有一定的誤導(dǎo)性,因為事實上它們是變分自編碼器(VAE),只是在編碼器和解碼器中分別有卷積神經(jīng)網(wǎng)絡(luò)(CNN)和反卷積神經(jīng)網(wǎng)絡(luò)(DNN)。這些網(wǎng)絡(luò)嘗試在編碼的過程中對“特征“進(jìn)行概率建模,這樣一來,你只要用貓和狗的獨照,就能讓網(wǎng)絡(luò)學(xué)會生成一張貓和狗的合照。同樣的,你可以輸入一張貓的照片,如果貓的旁邊有一只惱人的鄰居家的狗,你可以讓網(wǎng)絡(luò)將狗去掉。實驗顯示,這些網(wǎng)絡(luò)也可以用來學(xué)習(xí)對圖像進(jìn)行復(fù)雜轉(zhuǎn)換,比如,改變3D物體的光源或者對物體進(jìn)行旋轉(zhuǎn)操作。這些網(wǎng)絡(luò)通常用反向傳播進(jìn)行訓(xùn)練。



生成式對抗網(wǎng)絡(luò)(Generative adversarial networks , GAN)是一種新的網(wǎng)絡(luò)。網(wǎng)絡(luò)是成對出現(xiàn)的:兩個網(wǎng)絡(luò)一起工作。生成式對抗網(wǎng)絡(luò)可以由任何兩個網(wǎng)絡(luò)構(gòu)成(盡管通常情況下是前饋神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)配對),其中一個網(wǎng)絡(luò)負(fù)責(zé)生成內(nèi)容,另外一個負(fù)責(zé)對內(nèi)容進(jìn)行判別。判別網(wǎng)絡(luò)同時接收訓(xùn)練數(shù)據(jù)和生成網(wǎng)絡(luò)生成的數(shù)據(jù)。判別網(wǎng)絡(luò)能夠正確地預(yù)測數(shù)據(jù)源,然后被用作生成網(wǎng)絡(luò)的誤差部分。這形成了一種對抗:判別器在辨識真實數(shù)據(jù)和生成數(shù)據(jù)方面做得越來越好,而生成器努力地生成判別器難以辨識的數(shù)據(jù)。這種網(wǎng)絡(luò)取得了比較好的效果,部分原因是:即使是很復(fù)雜的噪音模式最終也是可以預(yù)測的,但生成與輸入數(shù)據(jù)相似的特征的內(nèi)容更難辨別。生成式對抗網(wǎng)絡(luò)很難訓(xùn)練,因為你不僅僅要訓(xùn)練兩個網(wǎng)絡(luò)(它們中的任意一個都有自己的問題),而且還要考慮兩個網(wǎng)絡(luò)的動態(tài)平衡。如果預(yù)測或者生成部分變得比另一個好,那么網(wǎng)絡(luò)最終不會收斂。



循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks , RNN)是考慮時間的前饋神經(jīng)網(wǎng)絡(luò):它們并不是無狀態(tài)的;通道與通道之間通過時間存在這一定聯(lián)系。神經(jīng)元不僅接收來上一層神經(jīng)網(wǎng)絡(luò)的信息,還接收上一通道的信息。這就意味著你輸入神經(jīng)網(wǎng)絡(luò)以及用來訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)的順序很重要:輸入”牛奶“、”餅干“和輸入”餅干“、”牛奶“會產(chǎn)生不一樣的結(jié)果。循環(huán)神經(jīng)網(wǎng)絡(luò)最大的問題是梯度消失(或者梯度爆炸),這取決于使用的激活函數(shù)。在這種情況下,隨著時間信息會快速消失,正如隨著前饋神經(jīng)網(wǎng)絡(luò)的深度增加,信息會丟失。直觀上,這并不是一個大問題,因為它們只是權(quán)重而非神經(jīng)元狀態(tài)。但是隨著時間,權(quán)重已經(jīng)存儲了過去的信息。如果權(quán)重達(dá)到了0或者1000000,先前的狀態(tài)就變得沒有信息價值了。卷積神經(jīng)網(wǎng)絡(luò)可以應(yīng)用到很多領(lǐng)域,大部分形式的數(shù)據(jù)并沒有真正的時間軸(不像聲音、視頻),但是可以表示為序列形式。對于一張圖片或者是一段文本的字符串,可以在每個時間點一次輸入一個像素或者一個字符。所以,依賴于時間的權(quán)重能夠用于表示序列前一秒的信息,而不是幾秒前的信息。通常,對于預(yù)測未來信息或者補(bǔ)全信息,循環(huán)神經(jīng)網(wǎng)絡(luò)是一個好的選擇,比如自動補(bǔ)全功能。



長短時記憶網(wǎng)絡(luò)(Long / short term memory , LSTM)通過引入門結(jié)構(gòu)(gate)和一個明確定義的記憶單元(memory cell)來嘗試克服梯度消失或者梯度爆炸的問題。這一思想大部分是從電路學(xué)中獲得的啟發(fā),而不是從生物學(xué)。每個神經(jīng)元有一個記憶單元和是三個門結(jié)構(gòu):輸入、輸出和忘記。這些門結(jié)構(gòu)的功能是通過禁止或允許信息的流動來保護(hù)信息。輸入門結(jié)構(gòu)決定了有多少來自上一層的信息被存儲當(dāng)前記憶單元。輸出門結(jié)構(gòu)承擔(dān)了另一端的工作,決定下一層可以了解到多少這一層的信息。忘記門結(jié)構(gòu)初看很奇怪,但是有時候忘記是必要的:


如果網(wǎng)絡(luò)正在學(xué)習(xí)一本書,并開始了新的章節(jié),那么忘記前一章的一些人物角色是有必要的。


長短時記憶網(wǎng)絡(luò)被證明能夠?qū)W習(xí)復(fù)雜的序列,比如:像莎士比亞一樣寫作,或者合成簡單的音樂。值得注意的是,這些門結(jié)構(gòu)中的每一個都對前一個神經(jīng)元中的記憶單元賦有權(quán)重,所以一般需要更多的資源來運(yùn)行。



門控循環(huán)單元(Gated recurrent units , GRU)是長短時記憶網(wǎng)絡(luò)的一種變體。不同之處在于,沒有輸入門、輸出門、忘記門,它只有一個更新門。該更新門確定了從上一個狀態(tài)保留多少信息以及有多少來自上一層的信息得以保留。 這個復(fù)位門的功能很像LSTM的忘記門,但它的位置略有不同。 它總是發(fā)出全部狀態(tài),但是沒有輸出門。 在大多數(shù)情況下,它們與LSTM的功能非常相似,最大的區(qū)別在于GRU稍快,運(yùn)行容易(但表達(dá)能力更差)。 在實踐中,這些往往會相互抵消,因為當(dāng)你需要一個更大的網(wǎng)絡(luò)來獲得更強(qiáng)的表現(xiàn)力時,往往會抵消性能優(yōu)勢。在不需要額外表現(xiàn)力的情況下,GRU可能優(yōu)于LSTM。



神經(jīng)圖靈機(jī)(Neural Turing machines , NTM)可以被理解為LSTM的抽象,它試圖去黑箱化(使我們能夠洞察到發(fā)生了什么)。神經(jīng)圖靈機(jī)并非直接編碼記憶單元到神經(jīng)元中,它的記憶單元是分離的。它試圖將常規(guī)數(shù)字存儲的效率和永久性以及神經(jīng)網(wǎng)絡(luò)的效率和表達(dá)力結(jié)合起來。這種想法基于有一個內(nèi)容尋址的記憶庫,神經(jīng)網(wǎng)絡(luò)可以從中讀寫。神經(jīng)圖靈機(jī)中的”圖靈“(Turing)來自于圖靈完備(Turing complete):基于它所讀取的內(nèi)容讀、寫和改變狀態(tài)的能力,這意味著它能表達(dá)一個通用圖靈機(jī)可表達(dá)的一切事情。


雙向循環(huán)神經(jīng)網(wǎng)絡(luò)、雙向長短時記憶網(wǎng)絡(luò)、雙向門控循環(huán)單元(Bidirectional recurrent neural networks, BiRNN; bidirectional long / short term memory networks, BiLSTM; bidirectional gated recurrent units, BiGRU)在表中沒有展示出來,因為它們看起來和相應(yīng)的單向網(wǎng)絡(luò)是一樣的。不同之處在于這些網(wǎng)絡(luò)不僅聯(lián)系過去,還與未來相關(guān)聯(lián)。比如,單向長短時記憶網(wǎng)絡(luò)被用來預(yù)測單詞”fish“的訓(xùn)練過程是這樣的:逐個字母地輸入單詞“fish”, 在這里循環(huán)連接隨時間記住最后的值。而雙向長短時記憶網(wǎng)絡(luò)為了提供未來的信息,會在反向通道中會輸入下一個字母。這種方法訓(xùn)練網(wǎng)絡(luò)以填補(bǔ)空白而非預(yù)測未來信息,比如,在圖像處理中,它并非擴(kuò)展圖像的邊界,而是可以填補(bǔ)一張圖片中的缺失。



深度殘差網(wǎng)絡(luò)(Deep residual networks , DRN)是具有非常深度的前饋神經(jīng)網(wǎng)絡(luò),除了鄰近層之間有連接,它可以將輸入從一層傳到后面幾層(通常是2到5層)。深度殘差網(wǎng)絡(luò)并非將一些輸入(比如通過一個5層網(wǎng)絡(luò))映射到輸出,而是學(xué)習(xí)將一些輸入映射到一些輸出 輸入上?;旧?,它增加了一個恒等函數(shù),將舊的輸入作為后面層的新輸入。結(jié)果顯示,當(dāng)達(dá)到150 層,這些網(wǎng)絡(luò)對于模式學(xué)習(xí)是非常有效的,這要比常規(guī)的2到5層多得多。然而,有結(jié)果證明這些網(wǎng)絡(luò)本質(zhì)上是沒有基于具體時間建造的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它們總是與沒有門結(jié)構(gòu)的長短時記憶網(wǎng)絡(luò)(LSTM)作比較。



回聲狀態(tài)網(wǎng)絡(luò)(Echo state networks , ESN)是另外一種不同類型的(循環(huán))網(wǎng)絡(luò)。它的不同之處在于:神經(jīng)元之間隨機(jī)地連接(即,層與層之間沒有統(tǒng)一的連接形式),而它們的訓(xùn)練方式也不一樣。不同于輸入數(shù)據(jù),然后反向傳播誤差,回聲狀態(tài)網(wǎng)絡(luò)先輸入數(shù)據(jù),前饋,然后暫時更新神經(jīng)元。它的輸入層和輸出層在這里扮演了稍微不同于常規(guī)的角色:輸入層用來主導(dǎo)網(wǎng)絡(luò),輸出層作為隨時間展開的激活模式的觀測。在訓(xùn)練過程中,只有觀測和隱藏單元之間連接會被改變。



極限學(xué)習(xí)機(jī)(Extreme learning machines , ELM)本質(zhì)上是有隨機(jī)連接的前饋神經(jīng)網(wǎng)絡(luò)。他看上去和液體狀態(tài)機(jī)(LSM)和回聲狀態(tài)網(wǎng)絡(luò)(ESN)很相似,但是它即沒有脈沖,也沒有循環(huán)。它們并不使用反向傳播。相反,它們隨機(jī)初始化權(quán)重,并通過最小二乘擬合一步訓(xùn)練權(quán)重(所有函數(shù)中的最小誤差)。這使得模型具有稍弱的表現(xiàn)力,但是在速度上比反向傳播快很多。



液體狀態(tài)機(jī)(Liquid state machines ,LSM)看上去和回聲狀態(tài)網(wǎng)絡(luò)(ESN)很像。真正的不同之處在于,液體狀態(tài)機(jī)是一種脈沖神經(jīng)網(wǎng)絡(luò):sigmoid激活函數(shù)被閾值函數(shù)所取代,每個神經(jīng)元是一個累積記憶單元(memory cell)。所以當(dāng)更新神經(jīng)元的時候,其值不是鄰近神經(jīng)元的累加,而是它自身的累加。一旦達(dá)到閾值,它會將其能量傳遞到其他神經(jīng)元。這就產(chǎn)生一種類似脈沖的模式:在突然達(dá)到閾值之前什么也不會發(fā)生。



支持向量機(jī)(Support vector machines , SVM)發(fā)現(xiàn)了分類問題的最佳解決方式。傳統(tǒng)的SVM一般是處理線性可分?jǐn)?shù)據(jù)。比如,發(fā)現(xiàn)哪張圖片是加菲貓,哪張圖片是史努比,而不可能是其他結(jié)果。在訓(xùn)練過程中,支持向量機(jī)可以想象成在(二維)圖上畫出所有的數(shù)據(jù)點(加菲貓和史努比),然后找出如何畫一條直線將這些數(shù)據(jù)點區(qū)分開來。這條直線將數(shù)據(jù)分成兩部分,所有加菲貓在直線的一邊,而史努比在另一邊。最佳的分割直線是,兩邊的點和直線之間的間隔最大化。當(dāng)需要將新的數(shù)據(jù)分類時,我們將在圖上畫出這個新數(shù)據(jù)點,然后簡單地看它屬于直線的那一邊。使用核技巧,它們可以被訓(xùn)練用來分類n維數(shù)據(jù)。這需要在3D圖上畫出點,然后可以區(qū)分史努比、加菲貓和西蒙貓,甚至更多的卡通形象。支持向量機(jī)并不總是被視為神經(jīng)網(wǎng)絡(luò)。



Kohonen網(wǎng)絡(luò)(Kohonen networks , KN; 也被稱為自組織(特征)映射, SOM, SOFM))利用競爭性學(xué)習(xí)對數(shù)據(jù)進(jìn)行分類,無需監(jiān)督。 將數(shù)據(jù)輸入網(wǎng)絡(luò),之后網(wǎng)絡(luò)評估其中哪個神經(jīng)元最匹配那個輸入。 然后調(diào)整這些神經(jīng)元以使更好地匹配輸入。在該過程中移動相鄰神經(jīng)元。 相鄰神經(jīng)元被移動多少取決于它們到最佳匹配單位的距離。 有時候,Kohonen網(wǎng)絡(luò)也不被認(rèn)為是神經(jīng)網(wǎng)絡(luò)。


本文為asimovinstitute授權(quán)36大數(shù)據(jù)編譯


 End 


你投稿,我送書

為了讓大家能有更多的好文章可以閱讀,36大數(shù)據(jù)聯(lián)合華章圖書共同推出「祈文獎勵計劃」,該計劃將獎勵每個月對大數(shù)據(jù)行業(yè)貢獻(xiàn)(翻譯or投稿)最多的用戶中選出最前面的10名小伙伴,統(tǒng)一送出華章圖書郵遞最新計算機(jī)圖書一本。投稿郵箱:dashuju36@qq.com

點擊查看:你投稿,我送書,「祈文獎勵計劃」活動詳情>>>


閱讀排行榜/精華推薦
1
入門學(xué)習(xí)

如果有人質(zhì)疑大數(shù)據(jù)?不妨把這兩個視頻轉(zhuǎn)給他 

視頻:大數(shù)據(jù)到底是什么 都說干大數(shù)據(jù)掙錢 1分鐘告訴你都在干什么

人人都需要知道 關(guān)于大數(shù)據(jù)最常見的10個問題

2
進(jìn)階修煉

從底層到應(yīng)用,那些數(shù)據(jù)人的必備技能

如何高效地學(xué)好 R?

一個程序員怎樣才算精通Python?

3
數(shù)據(jù)源爬取/收集

排名前50的開源Web爬蟲用于數(shù)據(jù)挖掘

33款可用來抓數(shù)據(jù)的開源爬蟲軟件工具

在中國我們?nèi)绾问占瘮?shù)據(jù)?全球數(shù)據(jù)收集大教程

4
干貨教程

PPT:數(shù)據(jù)可視化,到底該用什么軟件來展示數(shù)據(jù)?

干貨|電信運(yùn)營商數(shù)據(jù)價值跨行業(yè)運(yùn)營的現(xiàn)狀與思考

大數(shù)據(jù)分析的集中化之路 建設(shè)銀行大數(shù)據(jù)應(yīng)用實踐PPT

【實戰(zhàn)PPT】看工商銀行如何利用大數(shù)據(jù)洞察客戶心聲?              

六步,讓你用Excel做出強(qiáng)大漂亮的數(shù)據(jù)地圖

 數(shù)據(jù)商業(yè)的崛起 解密中國大數(shù)據(jù)第一股——國雙

雙11剁手幕后的阿里“黑科技” OceanBase/金融云架構(gòu)/ODPS/dataV

金融行業(yè)大數(shù)據(jù)用戶畫像實踐


講述大數(shù)據(jù)在金融、電信、工業(yè)、商業(yè)、電子商務(wù)、網(wǎng)絡(luò)游戲、移動互聯(lián)網(wǎng)等多個領(lǐng)域的應(yīng)用,以中立、客觀、專業(yè)、可信賴的態(tài)度,多層次、多維度地影響著最廣泛的大數(shù)據(jù)人群

36大數(shù)據(jù)

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【中秋賞閱】美麗的神經(jīng)網(wǎng)絡(luò):13種細(xì)胞構(gòu)筑的深度學(xué)習(xí)世界
你不得不了解的8種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)!
機(jī)器學(xué)習(xí)研究者需要了解的神經(jīng)網(wǎng)絡(luò)架構(gòu)有哪些?
可視化解釋11種基本神經(jīng)網(wǎng)絡(luò)架構(gòu)
深度學(xué)習(xí)概述:從感知機(jī)到深度網(wǎng)絡(luò)(下)
史上最好記的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)速記表(上)
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服