日本美女羞羞视频,大胸美女视频,美女跳舞性感视频

由于新的神經(jīng)網(wǎng)絡(luò)架構(gòu)無時無刻不在涌現(xiàn)，想要記錄所有的神經(jīng)網(wǎng)絡(luò)是很困難的事情。要把所有這些縮略語指代的網(wǎng)絡(luò)(DCIGN，IiLSTM，DCGAN等)都弄清，一開始估計還無從下手。

下表包含了大部分常用的模型(大部分是神經(jīng)網(wǎng)絡(luò)還有一些其他的模型)。雖然這些架構(gòu)都是新奇獨特的，但當(dāng)我開始把它們的結(jié)果畫下來的時候，每種架構(gòu)的底層關(guān)系就會清晰。

顯然這些節(jié)點圖并不能顯示各個模型的內(nèi)部工作過程。例如變分自動編碼器(VAE)和自動編碼器(AE)節(jié)點圖看起來一樣，但是二者的訓(xùn)練過程實際上是完全不同的，訓(xùn)練后模型的使用場景更加不同。VAE是生成器，用于在樣本中插入噪聲。而 AE 則僅僅是將它們得到的輸入映射到它們“記憶”中最近的訓(xùn)練樣本!本文不詳細(xì)介紹每個不同構(gòu)架內(nèi)部如何工作。

雖然大多數(shù)縮寫已經(jīng)被普遍接受，但也會出現(xiàn)一些沖突。例如RNN通常指復(fù)發(fā)神經(jīng)網(wǎng)絡(luò)，有時也指遞歸神經(jīng)網(wǎng)絡(luò)，甚至在許多地方只是泛指各種復(fù)發(fā)架構(gòu)(包括LSTM，GRU甚至雙向變體)。AE也一樣，VAE和DAE等都被簡單的稱為AE。此外，同一個模型的縮寫也會出現(xiàn)后綴N的個數(shù)不同的問題。同一個模型可以將其稱為卷積神經(jīng)網(wǎng)絡(luò)也可稱作卷積網(wǎng)絡(luò)，對應(yīng)的縮寫就成了CNN或CN

將本文作為完整的神經(jīng)網(wǎng)絡(luò)列表幾乎是不可能的，因為新的架構(gòu)一直被發(fā)明，即使新架構(gòu)發(fā)布了，想要找到他們也是困難的。因此本文可能會為您提供一些對AI世界的見解，但絕對不是所有; 特別是您在這篇文章發(fā)表很久之后才看到。

對于上圖中描繪的每個架構(gòu)，本文做了非常簡短的描述。如果您對某些架構(gòu)非常熟悉，您可能會發(fā)現(xiàn)其中一些有用。

感知器(P左圖)和前饋神經(jīng)網(wǎng)絡(luò)(FF或FFNN右圖)非常直觀，它們將信息從前端輸入，再從后端輸出。神經(jīng)網(wǎng)絡(luò)通常被描述為具有層(輸入，隱藏或輸出層)，其中每層由并行的單元組成。通常同一層不具有連接、兩個相鄰層完全連接(每一層的每一個神經(jīng)元到另一層的每個神經(jīng)元)。最簡單的實用網(wǎng)絡(luò)有兩個輸入單元和一個輸出單元，可用于建立邏輯模型( 用做判斷是否)。通常通過反向傳播方法來訓(xùn)練FFNN，數(shù)據(jù)集由配對的輸入和輸出結(jié)果組成(這被稱為監(jiān)督學(xué)習(xí))。我們只給它輸入，讓網(wǎng)絡(luò)填充輸出。反向傳播的誤差通常是填充輸出和實際輸出之間差異的一些變化(如MSE或僅僅線性差異)。鑒于網(wǎng)絡(luò)具有足夠的隱藏神經(jīng)元，理論上可以總是對輸入和輸出之間的關(guān)系建模。實際上它們的應(yīng)用是很有限的，通常將它們與其他網(wǎng)絡(luò)結(jié)合形成新的網(wǎng)絡(luò)。

徑向基函數(shù)(RBF)網(wǎng)絡(luò)就是以徑向基函數(shù)作為激活函數(shù)的FFNN網(wǎng)絡(luò)。但是RBFNN有其區(qū)別于FFNN的使用場景(由于發(fā)明時間問題大多數(shù)具有其他激活功能的FFNN都沒有自己的名字)。

Hopfield網(wǎng)絡(luò)(HN)的每個神經(jīng)元被連接到其他神經(jīng)元; 它的結(jié)構(gòu)像一盤完全糾纏的意大利面板。每個節(jié)點在訓(xùn)練前輸入，然后在訓(xùn)練期間隱藏并輸出。通過將神經(jīng)元的值設(shè)置為期望的模式來訓(xùn)練網(wǎng)絡(luò)，此后權(quán)重不變。一旦訓(xùn)練了一個或多個模式，網(wǎng)絡(luò)將總是會收斂到其中一個學(xué)習(xí)模式，因為網(wǎng)絡(luò)在這個狀態(tài)中是穩(wěn)定的。需要注意的是，HN 不會總是與理想的狀態(tài)保持一致。網(wǎng)絡(luò)穩(wěn)定的部分原因在于總的“能量”或“溫度”在訓(xùn)練過程中逐漸縮小。每個神經(jīng)元都有一個被激活的閾值，隨溫度發(fā)生變化，一旦超過輸入的總合，就會導(dǎo)致神經(jīng)元變成兩個狀態(tài)中的一個(通常是 -1 或 1，有時候是 0 或 1)。更新網(wǎng)絡(luò)可以同步進(jìn)行，也可以依次輪流進(jìn)行，后者更為常見。當(dāng)輪流更新網(wǎng)絡(luò)時，一個公平的隨機(jī)序列會被生成，每個單元會按照規(guī)定的次序進(jìn)行更新。因此，當(dāng)每個單元都經(jīng)過更新而且不再發(fā)生變化時，你就能判斷出網(wǎng)絡(luò)是穩(wěn)定的(不再收斂)。這些網(wǎng)絡(luò)也被稱為聯(lián)存儲器，因為它們會收斂到與輸入最相似的狀態(tài);當(dāng)人類看到半張桌子的時候，我們會想象出桌子的另一半，如果輸入一半噪音、一半桌子，HN 將收斂成一張桌子。

馬可夫鏈(MC或離散時間馬爾可夫鏈，DTMC)是BM和HN的前身。它可以這樣理解：從我現(xiàn)在的這個節(jié)點，我去任何一個鄰居節(jié)點的幾率是無記，這意味著你最終選擇的節(jié)點完全取決于當(dāng)前的所處的節(jié)點，l與過去所處的節(jié)點無關(guān)。這雖然不是真正的神經(jīng)網(wǎng)絡(luò)，但類似于神經(jīng)網(wǎng)絡(luò)，并且構(gòu)成了BM和HNs的理論基礎(chǔ)。就像BM、RBM和HN一樣，MC并不總是被認(rèn)為是神經(jīng)網(wǎng)絡(luò)。此外，馬爾科夫鏈也并不總是完全連接。

波爾茲曼機(jī)(BM)很像HN，區(qū)別在于只有一些神經(jīng)元被標(biāo)記為輸入神經(jīng)元，而其他神經(jīng)元保持“隱藏”。輸入神經(jīng)元在完整的網(wǎng)絡(luò)更新結(jié)束時成為輸出神經(jīng)元。它以隨機(jī)權(quán)重開始，并通過反向傳播學(xué)習(xí)或通過對比分歧(一種馬爾科夫鏈用于確定兩個信息增益之間的梯度)訓(xùn)練模型。與HN相比，BM的神經(jīng)元大多具有二元激活模式。由于被MC訓(xùn)練，BM是隨機(jī)網(wǎng)絡(luò)。BM的訓(xùn)練和運(yùn)行過程與HN非常相似：將輸入神經(jīng)元設(shè)置為某些鉗位值，從而釋放網(wǎng)絡(luò)。雖然釋放節(jié)點可以獲得任何值，但這樣導(dǎo)致在輸入和隱藏層之間多次反復(fù)。激活由全局閾值控制。這種全局誤差逐漸降的過程導(dǎo)致網(wǎng)絡(luò)最終達(dá)到平衡。

限制玻爾茲曼機(jī)(RBM)與BM非常相似，也與HN類似。BM和RBM之間的最大區(qū)別是，RBM有更好的可用性，因為它受到更多的限制。RBM不會將每個神經(jīng)元連接到每個其他神經(jīng)元，但只將每個神經(jīng)元組連接到每個其他組，因此沒有輸入神經(jīng)元直接連接到其他輸入神經(jīng)元，也不會有隱藏層直接連接到隱藏層。RBM可以像FFNN一樣進(jìn)行訓(xùn)練，而不是將數(shù)據(jù)向前傳播然后反向傳播。

自編碼器(Autoencoders, AE)與前饋神經(jīng)網(wǎng)絡(luò)(FFNN)有點相似。與其說它是一個完全不同的網(wǎng)絡(luò)結(jié)構(gòu)，不如說它是前饋神經(jīng)網(wǎng)絡(luò)的不同應(yīng)用。自編碼器的基本思想是：自動編碼信息(如壓縮，而非加密)。由此，而得名。整個網(wǎng)絡(luò)在形狀上像一個漏斗:它的隱藏層單元總是比輸入層和輸出層少。自編碼器總是關(guān)于中央層對稱(中央層是一個還是兩個取決于網(wǎng)絡(luò)的層數(shù)：如果是奇數(shù)，關(guān)于最中間一層對稱;如果是偶數(shù)，關(guān)于最中間的兩層對稱)。最小的隱藏層總是處在中央層，這也是信息最壓縮的地方(被稱為網(wǎng)絡(luò)的阻塞點)。從輸入層到中央層叫做編碼部分，從中央層到輸出層叫做解碼部分，中央層叫做編碼(code)。可以使用反向傳播算法來訓(xùn)練自編碼器，將數(shù)據(jù)輸入網(wǎng)絡(luò)，將誤差設(shè)置為輸入數(shù)據(jù)與網(wǎng)絡(luò)輸出數(shù)據(jù)之間的差異。自編碼器的權(quán)重也是對稱的，即編碼權(quán)重和解碼權(quán)重是一樣的。

稀疏自編碼器(Sparse autoencoders, SAE)在某種程度上與自編碼器相反。不同于我們訓(xùn)練一個網(wǎng)絡(luò)在更低維的空間和結(jié)點上去表征一堆信息，在這里我們嘗試著在更高維的空間上編碼信息。所以在中央層，網(wǎng)絡(luò)不是收斂的，而是擴(kuò)張的。這種類型的網(wǎng)絡(luò)可以用于提取數(shù)據(jù)集的特征。如果我們用訓(xùn)練自編碼器的方法來訓(xùn)練稀疏自編碼，幾乎在所有的情況下，會得到一個完全無用的恒等網(wǎng)絡(luò)(即，輸入什么，網(wǎng)絡(luò)就會輸出什么，沒有任何轉(zhuǎn)換或者分解)。為了避免這種情況，在反饋輸入的過程中會加上一個稀疏驅(qū)動。這個稀疏驅(qū)動可以采用閾值過濾的形式，即只有特定的誤差可以逆?zhèn)鞑ゲ⒈挥?xùn)練，其他誤差被視為訓(xùn)練無關(guān)的并被設(shè)置為零。某種程度上，這和脈沖神經(jīng)網(wǎng)絡(luò)相似：并非所有的神經(jīng)元在每個時刻都會被激活(這在生物學(xué)上有一定的合理性)

變分自編碼器(Variational autoencoders, VAE)和自編碼器有相同的網(wǎng)絡(luò)結(jié)構(gòu)，但是模型學(xué)到的一些其他的東西：輸入樣本的近似概率分布。這一點和玻爾茲曼機(jī)(BM)、受限玻爾茲曼機(jī)(RBM)更相似。然而，他們依賴于貝葉斯數(shù)學(xué)，這涉及到概率推斷和獨立性，以及再參數(shù)化(reparametrisation)技巧以獲得不同的表征。概率推斷和獨立性部分有直觀的意義，但是他們依賴于復(fù)雜的數(shù)學(xué)知識?；驹砣缦拢簩⒂绊懣紤]進(jìn)去。如果一件事在一個地方發(fā)生，而另一件事在其他地方發(fā)生，那么它們未必是相關(guān)的。如果它們不相關(guān)，那么誤差逆?zhèn)鞑サ倪^程中應(yīng)該考慮這個。這種方法是有用的，因為神經(jīng)網(wǎng)絡(luò)是大型圖(在某種程度上)，所以當(dāng)進(jìn)入更深的網(wǎng)絡(luò)層時，你可以排除一些結(jié)點對于其他結(jié)點的影響。

去噪自編碼器(Denoising autoencoders, DAE)是一種自編碼器。在去噪自編碼器中，我們不是輸入原始數(shù)據(jù)，而是輸入帶噪聲的數(shù)據(jù)(好比讓圖像更加的顆?；?。但是我們用和之前一樣的方法計算誤差。所以網(wǎng)絡(luò)的輸出是和沒有噪音的原始輸入數(shù)據(jù)相比較的。這鼓勵網(wǎng)絡(luò)不僅僅學(xué)習(xí)細(xì)節(jié)，而且學(xué)習(xí)到更廣的特征。因為特征可能隨著噪音而不斷變化，所以一般網(wǎng)絡(luò)學(xué)習(xí)到的特征通常地錯誤的。

深度信念網(wǎng)絡(luò)(Deep belief networks, DBN)是受限玻爾茲曼機(jī)或者變分自編碼器的堆疊結(jié)構(gòu)。這些網(wǎng)絡(luò)已經(jīng)被證明是可有效訓(xùn)練的。其中，每個自編碼器或者玻爾茲曼機(jī)只需要學(xué)習(xí)對之前的網(wǎng)絡(luò)進(jìn)行編碼。這種技術(shù)也被稱為貪婪訓(xùn)練。貪婪是指在下降的過程中只求解局部最優(yōu)解，這個局部最優(yōu)解可能并非全局最優(yōu)解。深度信念網(wǎng)絡(luò)能夠通過對比散度(contrastive divergence)或者反向傳播來訓(xùn)練，并像常規(guī)的受限玻爾茲曼機(jī)或變分自編碼器那樣，學(xué)習(xí)將數(shù)據(jù)表示成概率模型。一旦模型通過無監(jiān)督學(xué)習(xí)被訓(xùn)練或收斂到一個(更)穩(wěn)定的狀態(tài)，它可以被用作生成新數(shù)據(jù)。如果使用對比散度訓(xùn)練，它甚至可以對現(xiàn)有數(shù)據(jù)進(jìn)行分類，因為神經(jīng)元被教導(dǎo)尋找不同的特征。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN, or Deep convolutional neural networks, DCNN)和大多數(shù)其他網(wǎng)絡(luò)完全不同。它們主要用于圖像處理，但也可用于其他類型的輸入，如音頻。卷積神經(jīng)網(wǎng)絡(luò)的一個典型應(yīng)用是：將圖片輸入網(wǎng)絡(luò)，網(wǎng)絡(luò)將對圖片進(jìn)行分類。例如，如果你輸入一張貓的圖片，它將輸出“貓”;如果你輸入一張狗的圖片，它將輸出“狗”。卷積神經(jīng)網(wǎng)絡(luò)傾向于使用一個輸入“掃描儀”，而不是一次性解析所有的訓(xùn)練數(shù)據(jù)。舉個例子，為了輸入一張200 x 200像素的圖片，你不需要使用一個有40000個結(jié)點的輸入層。相反，你只要創(chuàng)建一個掃描層，這個輸入層只有20 x 20個結(jié)點，你可以輸入圖片最開始的20 x 20像素(通常從圖片的左上角開始)。一旦你傳遞了這20 x 20像素數(shù)據(jù)(可能使用它進(jìn)行了訓(xùn)練)，你又可以輸入下一個20 x 20像素：將“掃描儀”向右移動一個像素。注意，不要移動超過20個像素(或者其他“掃描儀”寬度)。你不是將圖像解剖為20 x 20的塊，而是在一點點移動“掃描儀“。然后，這些輸入數(shù)據(jù)前饋到卷積層而非普通層。卷積層的結(jié)點并不是全連接的。每個結(jié)點只和它鄰近的節(jié)點(cell)相關(guān)聯(lián)(多靠近取決于應(yīng)用實現(xiàn)，但是通常不會超過幾個)。這些卷積層隨著網(wǎng)絡(luò)的加深會逐漸收縮，通常卷積層數(shù)是輸入的因子。(所以，如果輸入是20，可能接下來的卷積層是10，再接下來是5)。2的冪是經(jīng)常被使用的，因為它們能夠被整除：32,16,8,4,2,1。除了卷積層，還有特征池化層。池化是一種過濾細(xì)節(jié)的方法：最常用的池化技術(shù)是最大池化(max pooling)。比如，使用2 x 2像素，取這四個像素中數(shù)值最大的那個。為了將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到音頻，逐段輸入剪輯長度的輸入音頻波。卷積神經(jīng)網(wǎng)絡(luò)在真實世界的應(yīng)用通常會在最后加入一個前饋神經(jīng)網(wǎng)絡(luò)(FFNN)以進(jìn)一步處理數(shù)據(jù)，這允許了高度非線性特征映射。這些網(wǎng)絡(luò)被稱為DCNN,但是這些名字和縮寫通常是可以交換使用的。

反卷積神經(jīng)網(wǎng)絡(luò)(Deconvolutional networks, DN)，也叫做逆向圖網(wǎng)絡(luò)(inverse graphics networks, IGN)。它是反向卷積神經(jīng)網(wǎng)絡(luò)。想象一下，將一個單詞”貓“輸入神經(jīng)網(wǎng)絡(luò)，并通過比較網(wǎng)絡(luò)輸出和真實貓的圖片之間的差異來訓(xùn)練網(wǎng)絡(luò)模型，最終產(chǎn)生一個看上去像貓的圖片。反卷積神經(jīng)網(wǎng)絡(luò)可以像常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)一樣結(jié)合前饋神經(jīng)網(wǎng)絡(luò)使用，但是這可能涉及到新的名字縮寫。它們可能是深度反卷積神經(jīng)網(wǎng)絡(luò)，但是你可能傾向于：當(dāng)你在反卷積神經(jīng)網(wǎng)絡(luò)前面或者后面加上前饋神經(jīng)網(wǎng)絡(luò)，它們可能是新的網(wǎng)絡(luò)結(jié)構(gòu)而應(yīng)該取新的名字。值得注意的事，在真實的應(yīng)用中，你不可能直接把文本輸入網(wǎng)絡(luò)，而應(yīng)該輸入一個二分類向量。如，<0，1>是貓，<1，0>是狗，而<1，1>是貓和狗。在卷積神經(jīng)網(wǎng)絡(luò)中有池化層，在這里通常被相似的反向操作替代，通常是有偏的插補(bǔ)或者外推(比如，如果池化層使用最大池化，當(dāng)反向操作時，可以產(chǎn)生其他更低的新數(shù)據(jù)來填充)

深度卷積逆向圖網(wǎng)絡(luò)(Deep convolutional inverse graphics networks , DCIGN)，這個名字具有一定的誤導(dǎo)性，因為事實上它們是變分自編碼器(VAE)，只是在編碼器和解碼器中分別有卷積神經(jīng)網(wǎng)絡(luò)(CNN)和反卷積神經(jīng)網(wǎng)絡(luò)(DNN)。這些網(wǎng)絡(luò)嘗試在編碼的過程中對“特征“進(jìn)行概率建模，這樣一來，你只要用貓和狗的獨照，就能讓網(wǎng)絡(luò)學(xué)會生成一張貓和狗的合照。同樣的，你可以輸入一張貓的照片，如果貓的旁邊有一只惱人的鄰居家的狗，你可以讓網(wǎng)絡(luò)將狗去掉。實驗顯示，這些網(wǎng)絡(luò)也可以用來學(xué)習(xí)對圖像進(jìn)行復(fù)雜轉(zhuǎn)換，比如，改變3D物體的光源或者對物體進(jìn)行旋轉(zhuǎn)操作。這些網(wǎng)絡(luò)通常用反向傳播進(jìn)行訓(xùn)練。

生成式對抗網(wǎng)絡(luò)(Generative adversarial networks , GAN)是一種新的網(wǎng)絡(luò)。網(wǎng)絡(luò)是成對出現(xiàn)的：兩個網(wǎng)絡(luò)一起工作。生成式對抗網(wǎng)絡(luò)可以由任何兩個網(wǎng)絡(luò)構(gòu)成(盡管通常情況下是前饋神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)配對)，其中一個網(wǎng)絡(luò)負(fù)責(zé)生成內(nèi)容，另外一個負(fù)責(zé)對內(nèi)容進(jìn)行判別。判別網(wǎng)絡(luò)同時接收訓(xùn)練數(shù)據(jù)和生成網(wǎng)絡(luò)生成的數(shù)據(jù)。判別網(wǎng)絡(luò)能夠正確地預(yù)測數(shù)據(jù)源，然后被用作生成網(wǎng)絡(luò)的誤差部分。這形成了一種對抗：判別器在辨識真實數(shù)據(jù)和生成數(shù)據(jù)方面做得越來越好，而生成器努力地生成判別器難以辨識的數(shù)據(jù)。這種網(wǎng)絡(luò)取得了比較好的效果，部分原因是：即使是很復(fù)雜的噪音模式最終也是可以預(yù)測的，但生成與輸入數(shù)據(jù)相似的特征的內(nèi)容更難辨別。生成式對抗網(wǎng)絡(luò)很難訓(xùn)練，因為你不僅僅要訓(xùn)練兩個網(wǎng)絡(luò)(它們中的任意一個都有自己的問題)，而且還要考慮兩個網(wǎng)絡(luò)的動態(tài)平衡。如果預(yù)測或者生成部分變得比另一個好，那么網(wǎng)絡(luò)最終不會收斂。

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks , RNN)是考慮時間的前饋神經(jīng)網(wǎng)絡(luò):它們并不是無狀態(tài)的;通道與通道之間通過時間存在這一定聯(lián)系。神經(jīng)元不僅接收來上一層神經(jīng)網(wǎng)絡(luò)的信息，還接收上一通道的信息。這就意味著你輸入神經(jīng)網(wǎng)絡(luò)以及用來訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)的順序很重要：輸入”牛奶“、”餅干“和輸入”餅干“、”牛奶“會產(chǎn)生不一樣的結(jié)果。循環(huán)神經(jīng)網(wǎng)絡(luò)最大的問題是梯度消失(或者梯度爆炸)，這取決于使用的激活函數(shù)。在這種情況下，隨著時間信息會快速消失，正如隨著前饋神經(jīng)網(wǎng)絡(luò)的深度增加，信息會丟失。直觀上，這并不是一個大問題，因為它們只是權(quán)重而非神經(jīng)元狀態(tài)。但是隨著時間，權(quán)重已經(jīng)存儲了過去的信息。如果權(quán)重達(dá)到了0或者1000000，先前的狀態(tài)就變得沒有信息價值了。卷積神經(jīng)網(wǎng)絡(luò)可以應(yīng)用到很多領(lǐng)域，大部分形式的數(shù)據(jù)并沒有真正的時間軸(不像聲音、視頻)，但是可以表示為序列形式。對于一張圖片或者是一段文本的字符串，可以在每個時間點一次輸入一個像素或者一個字符。所以，依賴于時間的權(quán)重能夠用于表示序列前一秒的信息，而不是幾秒前的信息。通常，對于預(yù)測未來信息或者補(bǔ)全信息，循環(huán)神經(jīng)網(wǎng)絡(luò)是一個好的選擇，比如自動補(bǔ)全功能。

長短時記憶網(wǎng)絡(luò)(Long / short term memory , LSTM)通過引入門結(jié)構(gòu)(gate)和一個明確定義的記憶單元(memory cell)來嘗試克服梯度消失或者梯度爆炸的問題。這一思想大部分是從電路學(xué)中獲得的啟發(fā)，而不是從生物學(xué)。每個神經(jīng)元有一個記憶單元和是三個門結(jié)構(gòu)：輸入、輸出和忘記。這些門結(jié)構(gòu)的功能是通過禁止或允許信息的流動來保護(hù)信息。輸入門結(jié)構(gòu)決定了有多少來自上一層的信息被存儲當(dāng)前記憶單元。輸出門結(jié)構(gòu)承擔(dān)了另一端的工作，決定下一層可以了解到多少這一層的信息。忘記門結(jié)構(gòu)初看很奇怪，但是有時候忘記是必要的：

如果網(wǎng)絡(luò)正在學(xué)習(xí)一本書，并開始了新的章節(jié)，那么忘記前一章的一些人物角色是有必要的。

長短時記憶網(wǎng)絡(luò)被證明能夠?qū)W習(xí)復(fù)雜的序列，比如：像莎士比亞一樣寫作，或者合成簡單的音樂。值得注意的是，這些門結(jié)構(gòu)中的每一個都對前一個神經(jīng)元中的記憶單元賦有權(quán)重，所以一般需要更多的資源來運(yùn)行。

門控循環(huán)單元(Gated recurrent units , GRU)是長短時記憶網(wǎng)絡(luò)的一種變體。不同之處在于，沒有輸入門、輸出門、忘記門，它只有一個更新門。該更新門確定了從上一個狀態(tài)保留多少信息以及有多少來自上一層的信息得以保留。這個復(fù)位門的功能很像LSTM的忘記門，但它的位置略有不同。它總是發(fā)出全部狀態(tài)，但是沒有輸出門。在大多數(shù)情況下，它們與LSTM的功能非常相似，最大的區(qū)別在于GRU稍快，運(yùn)行容易(但表達(dá)能力更差)。在實踐中，這些往往會相互抵消，因為當(dāng)你需要一個更大的網(wǎng)絡(luò)來獲得更強(qiáng)的表現(xiàn)力時，往往會抵消性能優(yōu)勢。在不需要額外表現(xiàn)力的情況下，GRU可能優(yōu)于LSTM。

神經(jīng)圖靈機(jī)(Neural Turing machines , NTM)可以被理解為LSTM的抽象,它試圖去黑箱化(使我們能夠洞察到發(fā)生了什么)。神經(jīng)圖靈機(jī)并非直接編碼記憶單元到神經(jīng)元中，它的記憶單元是分離的。它試圖將常規(guī)數(shù)字存儲的效率和永久性以及神經(jīng)網(wǎng)絡(luò)的效率和表達(dá)力結(jié)合起來。這種想法基于有一個內(nèi)容尋址的記憶庫，神經(jīng)網(wǎng)絡(luò)可以從中讀寫。神經(jīng)圖靈機(jī)中的”圖靈“(Turing)來自于圖靈完備(Turing complete)：基于它所讀取的內(nèi)容讀、寫和改變狀態(tài)的能力，這意味著它能表達(dá)一個通用圖靈機(jī)可表達(dá)的一切事情。

雙向循環(huán)神經(jīng)網(wǎng)絡(luò)、雙向長短時記憶網(wǎng)絡(luò)、雙向門控循環(huán)單元(Bidirectional recurrent neural networks, BiRNN; bidirectional long / short term memory networks, BiLSTM; bidirectional gated recurrent units, BiGRU)在表中沒有展示出來，因為它們看起來和相應(yīng)的單向網(wǎng)絡(luò)是一樣的。不同之處在于這些網(wǎng)絡(luò)不僅聯(lián)系過去，還與未來相關(guān)聯(lián)。比如，單向長短時記憶網(wǎng)絡(luò)被用來預(yù)測單詞”fish“的訓(xùn)練過程是這樣的：逐個字母地輸入單詞“fish”, 在這里循環(huán)連接隨時間記住最后的值。而雙向長短時記憶網(wǎng)絡(luò)為了提供未來的信息，會在反向通道中會輸入下一個字母。這種方法訓(xùn)練網(wǎng)絡(luò)以填補(bǔ)空白而非預(yù)測未來信息，比如，在圖像處理中，它并非擴(kuò)展圖像的邊界，而是可以填補(bǔ)一張圖片中的缺失。

深度殘差網(wǎng)絡(luò)(Deep residual networks , DRN)是具有非常深度的前饋神經(jīng)網(wǎng)絡(luò)，除了鄰近層之間有連接，它可以將輸入從一層傳到后面幾層(通常是2到5層)。深度殘差網(wǎng)絡(luò)并非將一些輸入(比如通過一個5層網(wǎng)絡(luò))映射到輸出，而是學(xué)習(xí)將一些輸入映射到一些輸出輸入上?；旧?，它增加了一個恒等函數(shù)，將舊的輸入作為后面層的新輸入。結(jié)果顯示，當(dāng)達(dá)到150 層，這些網(wǎng)絡(luò)對于模式學(xué)習(xí)是非常有效的，這要比常規(guī)的2到5層多得多。然而，有結(jié)果證明這些網(wǎng)絡(luò)本質(zhì)上是沒有基于具體時間建造的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)，它們總是與沒有門結(jié)構(gòu)的長短時記憶網(wǎng)絡(luò)(LSTM)作比較。

回聲狀態(tài)網(wǎng)絡(luò)(Echo state networks , ESN)是另外一種不同類型的(循環(huán))網(wǎng)絡(luò)。它的不同之處在于：神經(jīng)元之間隨機(jī)地連接(即，層與層之間沒有統(tǒng)一的連接形式)，而它們的訓(xùn)練方式也不一樣。不同于輸入數(shù)據(jù)，然后反向傳播誤差，回聲狀態(tài)網(wǎng)絡(luò)先輸入數(shù)據(jù)，前饋，然后暫時更新神經(jīng)元。它的輸入層和輸出層在這里扮演了稍微不同于常規(guī)的角色：輸入層用來主導(dǎo)網(wǎng)絡(luò)，輸出層作為隨時間展開的激活模式的觀測。在訓(xùn)練過程中，只有觀測和隱藏單元之間連接會被改變。

極限學(xué)習(xí)機(jī)(Extreme learning machines , ELM)本質(zhì)上是有隨機(jī)連接的前饋神經(jīng)網(wǎng)絡(luò)。他看上去和液體狀態(tài)機(jī)(LSM)和回聲狀態(tài)網(wǎng)絡(luò)(ESN)很相似，但是它即沒有脈沖，也沒有循環(huán)。它們并不使用反向傳播。相反，它們隨機(jī)初始化權(quán)重，并通過最小二乘擬合一步訓(xùn)練權(quán)重(所有函數(shù)中的最小誤差)。這使得模型具有稍弱的表現(xiàn)力，但是在速度上比反向傳播快很多。

液體狀態(tài)機(jī)(Liquid state machines ,LSM)看上去和回聲狀態(tài)網(wǎng)絡(luò)(ESN)很像。真正的不同之處在于，液體狀態(tài)機(jī)是一種脈沖神經(jīng)網(wǎng)絡(luò)：sigmoid激活函數(shù)被閾值函數(shù)所取代，每個神經(jīng)元是一個累積記憶單元(memory cell)。所以當(dāng)更新神經(jīng)元的時候，其值不是鄰近神經(jīng)元的累加，而是它自身的累加。一旦達(dá)到閾值，它會將其能量傳遞到其他神經(jīng)元。這就產(chǎn)生一種類似脈沖的模式：在突然達(dá)到閾值之前什么也不會發(fā)生。

支持向量機(jī)(Support vector machines , SVM)發(fā)現(xiàn)了分類問題的最佳解決方式。傳統(tǒng)的SVM一般是處理線性可分?jǐn)?shù)據(jù)。比如，發(fā)現(xiàn)哪張圖片是加菲貓，哪張圖片是史努比，而不可能是其他結(jié)果。在訓(xùn)練過程中，支持向量機(jī)可以想象成在(二維)圖上畫出所有的數(shù)據(jù)點(加菲貓和史努比)，然后找出如何畫一條直線將這些數(shù)據(jù)點區(qū)分開來。這條直線將數(shù)據(jù)分成兩部分，所有加菲貓在直線的一邊，而史努比在另一邊。最佳的分割直線是，兩邊的點和直線之間的間隔最大化。當(dāng)需要將新的數(shù)據(jù)分類時，我們將在圖上畫出這個新數(shù)據(jù)點，然后簡單地看它屬于直線的那一邊。使用核技巧，它們可以被訓(xùn)練用來分類n維數(shù)據(jù)。這需要在3D圖上畫出點，然后可以區(qū)分史努比、加菲貓和西蒙貓，甚至更多的卡通形象。支持向量機(jī)并不總是被視為神經(jīng)網(wǎng)絡(luò)。

Kohonen網(wǎng)絡(luò)(Kohonen networks , KN; 也被稱為自組織(特征)映射, SOM, SOFM))利用競爭性學(xué)習(xí)對數(shù)據(jù)進(jìn)行分類，無需監(jiān)督。將數(shù)據(jù)輸入網(wǎng)絡(luò)，之后網(wǎng)絡(luò)評估其中哪個神經(jīng)元最匹配那個輸入。然后調(diào)整這些神經(jīng)元以使更好地匹配輸入。在該過程中移動相鄰神經(jīng)元。相鄰神經(jīng)元被移動多少取決于它們到最佳匹配單位的距離。有時候，Kohonen網(wǎng)絡(luò)也不被認(rèn)為是神經(jīng)網(wǎng)絡(luò)。

本文為asimovinstitute授權(quán)36大數(shù)據(jù)編譯

End

你投稿，我送書

為了讓大家能有更多的好文章可以閱讀，36大數(shù)據(jù)聯(lián)合華章圖書共同推出「祈文獎勵計劃」，該計劃將獎勵每個月對大數(shù)據(jù)行業(yè)貢獻(xiàn)（翻譯or投稿）最多的用戶中選出最前面的10名小伙伴，統(tǒng)一送出華章圖書郵遞最新計算機(jī)圖書一本。投稿郵箱:dashuju36@qq.com

點擊查看：你投稿，我送書，「祈文獎勵計劃」活動詳情>>>

閱讀排行榜/精華推薦

入門學(xué)習(xí)

如果有人質(zhì)疑大數(shù)據(jù)？不妨把這兩個視頻轉(zhuǎn)給他

視頻：大數(shù)據(jù)到底是什么都說干大數(shù)據(jù)掙錢 1分鐘告訴你都在干什么

人人都需要知道關(guān)于大數(shù)據(jù)最常見的10個問題

進(jìn)階修煉

從底層到應(yīng)用，那些數(shù)據(jù)人的必備技能

如何高效地學(xué)好 R?

一個程序員怎樣才算精通Python？

數(shù)據(jù)源爬取/收集

排名前50的開源Web爬蟲用于數(shù)據(jù)挖掘

33款可用來抓數(shù)據(jù)的開源爬蟲軟件工具

在中國我們?nèi)绾问占瘮?shù)據(jù)？全球數(shù)據(jù)收集大教程

干貨教程

PPT：數(shù)據(jù)可視化，到底該用什么軟件來展示數(shù)據(jù)？

干貨｜電信運(yùn)營商數(shù)據(jù)價值跨行業(yè)運(yùn)營的現(xiàn)狀與思考

大數(shù)據(jù)分析的集中化之路建設(shè)銀行大數(shù)據(jù)應(yīng)用實踐PPT

【實戰(zhàn)PPT】看工商銀行如何利用大數(shù)據(jù)洞察客戶心聲？

六步，讓你用Excel做出強(qiáng)大漂亮的數(shù)據(jù)地圖

數(shù)據(jù)商業(yè)的崛起解密中國大數(shù)據(jù)第一股——國雙

雙11剁手幕后的阿里“黑科技” OceanBase/金融云架構(gòu)/ODPS/dataV

金融行業(yè)大數(shù)據(jù)用戶畫像實踐

“講述大數(shù)據(jù)在金融、電信、工業(yè)、商業(yè)、電子商務(wù)、網(wǎng)絡(luò)游戲、移動互聯(lián)網(wǎng)等多個領(lǐng)域的應(yīng)用，以中立、客觀、專業(yè)、可信賴的態(tài)度，多層次、多維度地影響著最廣泛的大數(shù)據(jù)人群

36大數(shù)據(jù)

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频