近日,Yoshua Bengio 等人提出了一種新型的循環(huán)神經(jīng)網(wǎng)絡(luò),其以四元數(shù)來編碼序列輸入,稱為四元循環(huán)神經(jīng)網(wǎng)絡(luò)。四元數(shù)神經(jīng)網(wǎng)絡(luò)是流形網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)之外又一種非同構(gòu)表征架構(gòu),也可以看成是實(shí)值、復(fù)值 RNN 的擴(kuò)展。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)相比傳統(tǒng)的實(shí)值 RNN 可以顯著減少參數(shù)數(shù)量,適用于低資源應(yīng)用。相關(guān)論文已被 ICLR 2019 接收,評(píng)審得分為 7、7、8。
在該論文的 ICLR 2019 雙盲評(píng)審頁面中,一位評(píng)審寫道:
本文通過探索在循環(huán)神經(jīng)網(wǎng)絡(luò)中使用四元數(shù),朝著開發(fā)更加結(jié)構(gòu)化的表征邁出了一大步。其思想的動(dòng)機(jī)是觀察到在許多情況下,向量元素之間存在的局部關(guān)系應(yīng)該得到明確表征。這也是膠囊網(wǎng)絡(luò)背后的思想:讓每個(gè)「單元」輸出一個(gè)參數(shù)向量而不是一個(gè)數(shù)字。在這里,作者表明,通過將四元數(shù)結(jié)合到 RNN 或 LSTM 使用的表征中,可以使用更少的參數(shù)在語音識(shí)別任務(wù)中實(shí)現(xiàn)更好的性能。
引言
由于具備學(xué)習(xí)高度復(fù)雜的輸入到輸出映射的能力,在過去的幾年里,深度神經(jīng)網(wǎng)絡(luò)(DNN)在多個(gè)領(lǐng)域取得了廣泛的成功。在各種基于 DNN 的模型中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)非常適合處理序列數(shù)據(jù),它在每個(gè)時(shí)間步上創(chuàng)建一個(gè)向量,用來編碼輸入向量之間的隱藏關(guān)系。深度 RNN 近來被用來獲取語音單元序列(Ravanelli et al., 2018a)或文本詞序列(Conneau et al., 2018)的隱藏表征,在許多語音識(shí)別任務(wù)中取得了當(dāng)前最佳性能(Graves et al., 2013a;b; Amodei et al., 2016; Povey et al., 2016; Chiu et al., 2018)。然而,最近的許多基于多維輸入特征的任務(wù)(如圖像的像素、聲學(xué)特征或 3D 模型的方向)需要同時(shí)表征不同實(shí)體之間的外部依賴關(guān)系和組成每個(gè)實(shí)體的特征之間的內(nèi)部關(guān)系。而且,基于 RNN 的算法通常需要大量參數(shù)才能表征隱藏空間中的序列數(shù)據(jù)。
四元數(shù)是一種包含實(shí)數(shù)和三個(gè)獨(dú)立的虛分量的超復(fù)數(shù),完全適用于三維和四維特征向量,如圖像處理和機(jī)器人運(yùn)動(dòng)學(xué)(Sangwine, 1996; Pei & Cheng, 1999; Aspragathos & Dimitros, 1998)。最近的流形網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)也探索了將成組數(shù)字創(chuàng)建為獨(dú)立實(shí)體的想法(Chakraborty et al., 2018; Sabour et al., 2017)。與傳統(tǒng)的同構(gòu)表征相反,膠囊網(wǎng)絡(luò)和四元網(wǎng)絡(luò)將特征集捆綁在一起。因此,四元數(shù)允許基于神經(jīng)網(wǎng)絡(luò)的模型在學(xué)習(xí)過程中,以比 RNN 更少的參數(shù)編碼輸入特征組之間的潛在依賴關(guān)系,利用 Hamilton 乘積代替普通乘積,但這個(gè)乘積是四元數(shù)之間的。四元數(shù)值反向傳播算法的早期應(yīng)用(Arena et al., 1994; 1997)有效地解決了四元數(shù)函數(shù)逼近任務(wù)。最近,復(fù)數(shù)和超復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)受到越來越多的關(guān)注(Hirose & Yoshida, 2012; Tygert et al., 2016; Danihelka et al., 2016; Wisdom et al., 2016),一些研究已經(jīng)在不同的應(yīng)用中得到了頗有前景的結(jié)果。深度四元網(wǎng)絡(luò)(Parcollet et al., 2016; 2017a;b)、深度四元卷積網(wǎng)絡(luò)(Gaudet & Maida, 2018; Parcollet et al., 2018)或深度復(fù)雜卷積網(wǎng)絡(luò)(Trabelsi et al., 2017)已經(jīng)應(yīng)用于圖像、語言處理等頗具挑戰(zhàn)性的任務(wù)。然而,這些應(yīng)用不包括運(yùn)算由四元代數(shù)決定的循環(huán)神經(jīng)網(wǎng)絡(luò)。
本文提出將局部譜特征整合到四元循環(huán)神經(jīng)網(wǎng)絡(luò)(QRNN)及其門控型擴(kuò)展即四元長短期記憶網(wǎng)絡(luò)(QLSTM)中。該模型結(jié)合了良好的參數(shù)初始化方案而提出,經(jīng)證實(shí)其可以學(xué)習(xí)多維輸入特征和參數(shù)較少的序列基本元素之間的相互依賴性和內(nèi)部依賴性,使該方法更適用于低資源應(yīng)用。QRNN 和 QLSTM 的有效性是在實(shí)際的 TIMIT 音素識(shí)別任務(wù)上進(jìn)行評(píng)估的,結(jié)果表明 QRNN 和 QLSTM 都獲得了比 RNN 和 LSTM 更好的性能,且獲得的最佳音素錯(cuò)誤率(PER)分別為 18.5% 和 15.1%,而 RNN 和 LSTM 分別為 19.0% 和 15.3%。此外,它們?cè)讷@得性能提升的情況下,自由參數(shù)量減少了 70%。在更大的數(shù)據(jù)集——Wall Street Journal (WSJ) 上也觀察到類似的結(jié)果,其詳細(xì)性能參見附錄 6.1.1。
論文:QUATERNION RECURRENT NEURAL NETWORKS
論文鏈接:https://openreview.net/pdf?id=ByMHvs0cFQ
摘要:循環(huán)神經(jīng)網(wǎng)絡(luò)是建模序列數(shù)據(jù)的強(qiáng)大架構(gòu),因?yàn)樗軌驅(qū)W習(xí)序列基本元素之間的長短期依賴。然而,如語音或圖像識(shí)別等流行任務(wù)都涉及多維輸入特征,這些特征的特點(diǎn)在于輸入向量的維度之間具有很強(qiáng)的內(nèi)部依賴性。本文提出一種新的四元循環(huán)神經(jīng)網(wǎng)絡(luò)(QRNN)以及相應(yīng)的四元長短期記憶網(wǎng)絡(luò)(QLSTM),將四元代數(shù)的外部關(guān)系和內(nèi)部架構(gòu)依賴性皆考慮在內(nèi)。與膠囊網(wǎng)絡(luò)類似,四元數(shù)允許 QRNN 通過將多維特征整合和處理為單個(gè)實(shí)體來編碼內(nèi)部依賴性,而循環(huán)操作建模了組成序列的元素之間的相關(guān)性。實(shí)驗(yàn)證明,與 RNN 和 LSTM 相比,QRNN 和 QLSTM 都在自動(dòng)語音識(shí)別的實(shí)際應(yīng)用中達(dá)到了更好的性能。最后作者表明,為了獲得更好的結(jié)果,與實(shí)值 RNN 和 LSTM 相比,QRNN 和 QLSTM 最大限度地減少了所需的自由參數(shù)量(減少了 70%),從而使相關(guān)信息的表征更加緊湊。
3 四元循環(huán)神經(jīng)網(wǎng)絡(luò)
圖 1:基于 Hamilton 乘積(等式 5)的四元權(quán)重共享,與標(biāo)準(zhǔn)實(shí)值層(左)相比,四元值層(右)的輸入特征(Qin)潛在關(guān)系學(xué)習(xí)能力圖示。
3.2 四元數(shù)表征
QRNN 是實(shí)值和復(fù)值 RNN 到超復(fù)數(shù)的擴(kuò)展。在一個(gè)四元數(shù)密集層中,所有的參數(shù)都是四元數(shù),包括輸入、輸出、權(quán)重和偏置。四元數(shù)代數(shù)通過操作實(shí)值矩陣實(shí)現(xiàn)。因此,對(duì)于大小為 N 的每個(gè)輸入向量和大小為 M 的輸出向量,維度被分離為四個(gè)部分:第一個(gè)等于 r,第二個(gè)等于 x_i,第三個(gè)等于 y_j,最后一個(gè)等于 z_k,從而構(gòu)成一個(gè)四元數(shù) Q = r1 + xi + yj + zk。全連接層的推斷過程通過一個(gè)輸入向量和一個(gè)實(shí)值 MxN 權(quán)重矩陣之間的點(diǎn)積在實(shí)值空間中定義。在一個(gè) QRNN 中,這種運(yùn)算由帶四元數(shù)值矩陣的哈密頓乘積取代(即權(quán)重矩陣中的每一項(xiàng)都是四元數(shù))。
3.3 學(xué)習(xí)算法
QRNN 在每個(gè)學(xué)習(xí)子過程中都不同于實(shí)值的 RNN。因此,令 x_t 為 t 時(shí)間步的輸入向量,h_t 為隱藏狀態(tài),W_hx、W_hy、W_hh 為輸入、輸出和隱藏狀態(tài)權(quán)重矩陣。向量 b_h 是隱藏狀態(tài)的偏差,p_t、y_t 是輸出以及期望目標(biāo)向量。
基于實(shí)值 RNN 的前向傳播,QRNN 的前向方程擴(kuò)展如下:
其中α是四元數(shù)分離的激活函數(shù),定義為:
f 對(duì)應(yīng)任意標(biāo)準(zhǔn)的激活函數(shù)?;谙闰?yàn)假設(shè)、更好的穩(wěn)定性(即,純四元數(shù)激活函數(shù)包含奇點(diǎn))和更簡(jiǎn)單的計(jì)算,本研究偏向于使用分離方法。輸出向量 p_t 計(jì)算如下:
其中β是任意的分離激活函數(shù)。最后目標(biāo)函數(shù)是經(jīng)典 component-wise 的損失函數(shù)(例如,均方誤差、負(fù)對(duì)數(shù)似然度)。
反向傳播的梯度計(jì)算公式如下:
權(quán)重更新公式如下:
4 實(shí)驗(yàn)
這一節(jié)詳細(xì)描述了聲學(xué)特征提取、實(shí)驗(yàn)設(shè)置,以及用 QRNN、QLSTM、RNN 和 LSTM 在 TIMIT 語音識(shí)別任務(wù)上獲得的結(jié)果。表格中粗體標(biāo)記的結(jié)果是使用在驗(yàn)證集中表現(xiàn)最佳的神經(jīng)網(wǎng)絡(luò)配置獲得的。
表 1:QRNN 和 RNN 模型在 TIMIT 數(shù)據(jù)集的開發(fā)集和測(cè)試集上的音素誤差率(PER%)。「Params」代表可訓(xùn)練參數(shù)的總數(shù)量。
表 2:QLSTM 和 LSTM 模型在 TIMIT 數(shù)據(jù)集的開發(fā)集和測(cè)試集上的音素誤差率(PER%)?!窹arams」代表可訓(xùn)練參數(shù)的總數(shù)量。
聯(lián)系客服