作者:張紹群、周志華
機器之心編譯
在此論文中,來自南京大學的張紹群博士和周志華教授提出一個新型神經(jīng)元模型 Flexible Transmitter (FT),該模型具備靈活的可塑性并支持復雜數(shù)據(jù)的處理。據(jù)論文介紹,這項研究為神經(jīng)網(wǎng)絡提供了一種新的基本構(gòu)造單元,展示了開發(fā)具有神經(jīng)元可塑性的人工神經(jīng)網(wǎng)絡的可行性。
當前的神經(jīng)網(wǎng)絡大多基于 MP 模型,即按照生物神經(jīng)元的結(jié)構(gòu)和工作原理構(gòu)造出來的抽象和簡化模型。此類模型通常將神經(jīng)元形式化為一個「激活函數(shù)復合上輸入信號加權(quán)和」的形式。
近日,來自南京大學張紹群博士和周志華教授提出了一個名為 Flexible Transmitter (FT) 的模型,這是一種具備靈活可塑性的新型生物擬真神經(jīng)元。
FT 模型利用一對參數(shù)來建模神經(jīng)元之間的傳輸遞質(zhì)(transmitter),并設置一個神經(jīng)遞質(zhì)調(diào)節(jié)的記憶單元來記錄所關(guān)注神經(jīng)元的長期學習信息。因此,該研究將 FT 模型形式化為一個二元二值函數(shù),常用的 MP 神經(jīng)元模型是其特殊形式。FT 模型可以處理更加復雜的數(shù)據(jù),甚至時序信號。
為了展示 FT 模型的能力和潛力,研究者提出了 Flexible Transmitter Network (FTNet)。FTNet 基于最常見的全連接前饋架構(gòu)而構(gòu)建,并使用 FT 神經(jīng)元作為其基本構(gòu)造塊。FTNet 允許梯度計算,并且可以通過在復數(shù)域中的反向傳播算法來實現(xiàn)。在一系列任務上的實驗結(jié)果展示了 FTNet 的優(yōu)越性能。這項研究為神經(jīng)網(wǎng)絡提供了另一種基本構(gòu)造塊,展示了開發(fā)具有神經(jīng)元可塑性的人工神經(jīng)網(wǎng)絡的可行性。
論文鏈接:https://arxiv.org/pdf/2004.03839v2.pdf
常見的 MP 模型
神經(jīng)網(wǎng)絡的基礎計算單元是神經(jīng)元,對應于生物神經(jīng)系統(tǒng)的細胞。盡管神經(jīng)網(wǎng)絡研究已經(jīng)持續(xù) 50 余年,多種神經(jīng)網(wǎng)絡算法和架構(gòu)層出不窮,然而人們對神經(jīng)元建模方面的研究仍然不夠。
最著名也最常用的神經(jīng)元表示是 MP 模型 [12],如下圖 1 所示:
圖 1:MP 模型
MP 模型接收到來自 n 個其他神經(jīng)元傳遞過來的輸入信號 x_i,這些輸入信號通過帶權(quán)重的連接 w_i 進行傳遞,神經(jīng)元接收到的總輸入值將與神經(jīng)元的閥值進行比較,然后通過激活函數(shù) f 處理以產(chǎn)生神經(jīng)元的輸出,即
。從圖 1 中可以看到,x_i 表示來自其他神經(jīng)元的信號,w_i 表示對應的連接權(quán)重,θ 表示神經(jīng)元的閾值,f 表示通常連續(xù)可微的激活函數(shù),如常用于淺層網(wǎng)絡的 sigmoid 函數(shù)和常用于深層網(wǎng)絡的 ReLU 函數(shù)。盡管刻畫方式非常簡單,但 MP 模型很成功。然而實際中神經(jīng)元細胞結(jié)構(gòu)要復雜得多,因此探索具備其他生物擬真形式的神經(jīng)元模型成為計算神經(jīng)相關(guān)領域的一個基本問題。人們在建模細胞的放電行為方面做出了很多努力,提出了尖峰神經(jīng)元模型(spiking neuron model)和以尖峰神經(jīng)元作為基本計算單位的脈沖神經(jīng)網(wǎng)絡 [9, 18]。
是否存在另一種形式的神經(jīng)元模型?
南京大學的研究者考慮了另一個有趣的角度,并提出一種新型神經(jīng)元模型。
神經(jīng)科學研究 [2, 7] 揭示了,突觸可以確保兩個神經(jīng)元之間的單向通信機制,即信息流的流向是從突觸前細胞到突觸后細胞。突觸通常在突觸前細胞的軸突和突觸后細胞的樹突之間形成。在常見的突觸結(jié)構(gòu)中,樹突和軸突之間存在大約 20 微米的間隙(在神經(jīng)科學中叫作「突觸間隙」),如圖 2 所示。
圖 2:生物神經(jīng)元(左)及其突觸結(jié)構(gòu)(右)。
這意味著盡管密切相關(guān),但突觸前細胞的軸突傳遞強度(axonal transmission strength)和突觸后細胞的樹突濃度(dendritic concentration)是不同的。因此,自然有必要在神經(jīng)元模型中區(qū)分突觸前和突觸后的部分。
與簡單地將整個突觸結(jié)構(gòu)視為可學習的實值參數(shù) w 的 MP 模型和使用具有自衰減累積(leaky integration)結(jié)構(gòu)的 ODE 方程建模突觸的尖峰神經(jīng)元相反,該研究使用一對相關(guān)參數(shù) (w, v) 來分別表示軸突傳遞強度和樹突濃度,這就是靈活傳輸遞質(zhì)(flexible transmitter)。
此外,很多實驗研究 [8, 6] 指出,神經(jīng)元擁有對過去學習行為的記憶,并且生物電壓根據(jù)近期的活動模式得到持續(xù)的加強或抑制,即長期増強(LTP)或抑制(LTD)。這項研究專門設置了一個記憶變量,即神經(jīng)遞質(zhì)自調(diào)節(jié)記憶元,用來記錄神經(jīng)元對長期學習行為的記憶信息。
Flexible Transmitter 模型
神經(jīng)科學方面的這一有趣發(fā)現(xiàn)表明,神經(jīng)元 A 接收到來自神經(jīng)元 B 的刺激信號后的響應不僅取決于神經(jīng)元 B 的軸突傳遞強度,還依賴于神經(jīng)元 A 的樹突濃度,而這與神經(jīng)元 A 的記憶單元有關(guān),如圖 2 所示。
受此啟發(fā),該研究提出了 Flexible Transmitter 模型,如下圖 3 所示:
圖 3:FT 模型圖示。其中 (w, v) 是傳輸遞質(zhì)參數(shù)對,m_t 表示神經(jīng)元 A 的記憶單元在時間 t 處的強度。
與 MP 模型相反,F(xiàn)T 模型中的交互包括兩個部分:wx_t,x_t 表示當下通過對應的軸突傳遞強度 w 發(fā)送至相關(guān)神經(jīng)元的刺激信號;vm_t?1,m_t?1 表示在第 (t ? 1) 時刻與樹突濃度 v 相關(guān)的記憶強度。也就是說,FT 模型使用傳輸遞質(zhì)參數(shù)對 (w, v),而不是 MP 模型中的實數(shù)權(quán)重 w,來表示突觸可塑性。
另一方面,F(xiàn)T 神經(jīng)元在第 t 時刻的輸出也包括兩部分:s_t 和 m_t,其中 s_t 是神經(jīng)元生成的生物電/化學刺激信號,m_t 是神經(jīng)元的當前記憶強度。在該時刻結(jié)束后,刺激信號 s_t 被傳輸?shù)较乱粋€神經(jīng)元,而相關(guān)神經(jīng)元的記憶強度也更新為 m_t。
FT 模型利用參數(shù)對 (w, v) 表示突觸可塑性,用神經(jīng)元唯一的變量 m_t 表示神經(jīng)遞質(zhì)調(diào)節(jié)的記憶單元。進而,F(xiàn)T 模型可以形式化為帶有參數(shù)對 (w, v) 的二元二值函數(shù),如下所示:
研究者將該模型叫作 Flexible Transmitter 模型。顯然,這種建模方法使 FT 神經(jīng)元不僅更具生物逼真度,也更有潛力處理復雜結(jié)構(gòu)的數(shù)據(jù)。
Flexible Transmitter Network
FTNet 采用全連接網(wǎng)絡架構(gòu),研究者用 FT 神經(jīng)元代替了實值 MP 模型。他們還相應地開發(fā)了用于訓練 FTNet 的實用、高效反向傳播算法。
FT 模型的實現(xiàn)
根據(jù)公式 1,F(xiàn)T 模型本質(zhì)上是由二元二值函數(shù) f 和參數(shù)對 (w, v) 主導的。FT 模型的輸入和輸出包含兩個部分,它們之間的關(guān)系非常復雜。多數(shù)現(xiàn)有的神經(jīng)元模型都依賴于單值函數(shù),而單值函數(shù)很難直接應用于這一問題。一種有趣的解決方法是利用復變函數(shù)來表示神經(jīng)元的輸入和輸出,得到的神經(jīng)元模型如下所示:
在復變分析中,復變函數(shù)輸出的實部和虛部是成對的,即 s_t 和 m_t 共享同一個復變函數(shù) f 和參數(shù)對 (w, v)。
FTNet 的簡單架構(gòu)
FT 神經(jīng)元是神經(jīng)網(wǎng)絡的基本單元。為了評估它的潛力,研究者考慮使用最簡單的全連接前饋神經(jīng)網(wǎng)絡架構(gòu),用 FT 神經(jīng)元做構(gòu)造塊,替代原來的 MP 神經(jīng)元,從而得到 FTNet。基于公式 2,我們?yōu)橐粚?FT 神經(jīng)元提供一個通用向量化表示:
逐層重用式 3 中的向量化表示,可以得到 FTNet 的多層全連接前饋架構(gòu)。
現(xiàn)在還有兩個問題:1)復變函數(shù) f 應該是什么樣的?2)如何學習其參數(shù)?
為了解決這兩個問題,研究者將方程 2 中的復變函數(shù) f 分為兩個部分:轉(zhuǎn)換函數(shù) τ : C → C 和激活函數(shù) σ : C → C,其中 f = σ ? τ。該復合運算將 f 中的復雜結(jié)構(gòu)與非線性激活函數(shù)分離開來:轉(zhuǎn)換函數(shù) τ 表示復數(shù)域上的加和運算,通常是可微的,而 σ 表示激活函數(shù)。因此,F(xiàn)TNet 允許梯度計算,且能夠適應一些傳統(tǒng)的激活函數(shù)。
復雜的反向傳播算法
為了訓練 FTNet,研究者提出了一種復雜的反向傳播算法(Complex Backpropagation,CBP)。該算法是常用反向傳播算法在復數(shù)域中的擴展版本。該研究還以單層 FTNet 和雙層 FTNet 為例,給出了 CBP 的詳細實現(xiàn)過程,詳見原論文附錄 B。
實驗
研究者在三個模擬和實際數(shù)據(jù)集上對比了 FTNet 和多個常見神經(jīng)網(wǎng)絡。
模擬信號
研究者首先探索了使用不同配置的 FTNet 在模擬數(shù)據(jù)上的性能。
實驗發(fā)現(xiàn),tanh 激活函數(shù)是最能維持最優(yōu)性能的,不管是使用 FT0 還是 FT1 架構(gòu)都是如此。相比之下,sigmoid 和 modReLU 激活函數(shù)的性能要差一些。zReLU 的性能略優(yōu)于 P ReLU。
研究人員猜想其原因在于,對于復數(shù)激活函數(shù)而言,半徑可能比相位更易受影響,也更重要。因此,研究者在接下來的現(xiàn)實世界任務中統(tǒng)一使用 tanh 激活函數(shù)和 0.01 的學習率來配置 FTNet。
單變量時序預測:鹽城汽車上牌量預測任務
研究者在鹽城汽車上牌量預測競賽數(shù)據(jù)集上進行了實驗,這是一個現(xiàn)實世界單變量時序預測任務。
表 1:在鹽城汽車上牌量預測任務上的均方差(MSE)和模型設置。
從表 1 中可以看出,F(xiàn)T1 模型的性能極具競爭力。
多變量時序預測:HDUK 交通預測任務
研究者在 HDUK 數(shù)據(jù)集上驗證了 FTNet 的性能,這是一個典型的多變量時序預測數(shù)據(jù)集。實驗表明,在相同設置下,F(xiàn)TNet 的性能超過其他神經(jīng)網(wǎng)絡。
表 2:模型在 HDUK 交通預測任務上的 MSE 和 confusion accuracy。
在 pixel-by-pixel MNIST 數(shù)據(jù)集上的圖像識別性能
表 3:各模型在 pixel-by-pixel MNIST 任務上的準確率。
實驗表明,F(xiàn)TNet 的性能優(yōu)于之前最優(yōu)的神經(jīng)網(wǎng)絡。
關(guān)于作者
該研究的第一作者張紹群現(xiàn)在南京大學計算機科學與技術(shù)系 LAMDA 組讀博,導師是周志華,研究興趣是時序分析和計算神經(jīng)科學。周志華教授也是該研究的通訊作者。
聯(lián)系客服