編輯整理:殷鵬
內(nèi)容來源:將門線上直播176期
出品平臺(tái):將門、DataFun
注:歡迎轉(zhuǎn)載,轉(zhuǎn)載請留言。
導(dǎo)讀:當(dāng)前機(jī)器翻譯模型通常采用自注意力機(jī)制進(jìn)行編碼,訓(xùn)練時(shí)直接將Ground Truth詞語用作上文,并行生成所有的目標(biāo)詞語,極大的提升了訓(xùn)練速度。但測試的時(shí)候卻面臨以下難題:
首先,模型得不到Ground Truth,從而只能用自己生成的詞作為上文,使得訓(xùn)練和測試的分布不一致,影響了翻譯質(zhì)量;
其次,由于每個(gè)目標(biāo)詞語的生成依賴于其之前生成的詞,所以目標(biāo)詞語只能順序生成,不能并行,從而影響了解碼速度。
本次分享將針對以上問題,介紹他們的解決方法。
具體分享內(nèi)容如下:
1. 改進(jìn)訓(xùn)練和測試的分布不一致問題:
2. 解碼速度提升:
基于Cube Pruning解碼算法
融入序列信息的非自回歸翻譯模型
▌背景
當(dāng)前,自然語言處理方向的生成任務(wù)主要包括:機(jī)器翻譯,人機(jī)對話,文章寫作,文章摘要等等。目前這些問題主要是通過序列到序列模型來解決的。序列到序列模型的主要架構(gòu)是一個(gè)帶有注意力機(jī)制的編碼器-解碼器架構(gòu)。這個(gè)架構(gòu)基于一個(gè)重要的假設(shè):即“源端的輸入和目的端的輸出之間是可以找到一個(gè)共同的語義空間。編碼器的任務(wù)就是對輸入進(jìn)行各種變換,映射到共同語義空間上的一個(gè)點(diǎn)。解碼器的任務(wù)是對共同語義空間的這個(gè)點(diǎn)進(jìn)行一些反操作,將其映射到目標(biāo)端空間,從而生成相應(yīng)的詞語??紤]到在每一步進(jìn)行翻譯的時(shí)候不需要關(guān)注所有的源端輸入,而是僅僅關(guān)注一部分,注意力機(jī)制主要目的就是將當(dāng)前步需要關(guān)注的部分找出來。目前主流的序列到序列模型主要包括兩種: 一個(gè)是RNNSearch,一個(gè)是Transformer。RNNSearch通過RNN來將源端的輸入編碼成一個(gè)表示,通常源端采用的是雙向RNN,這樣對于每一個(gè)源端Token的編碼表示都能考慮到其上下文信息。在目標(biāo)端同樣是使用一個(gè)RNN,它可以將翻譯的歷史信息給串起來,這樣在當(dāng)前步翻譯的時(shí)候就能考慮到上文的信息。Google在2017年提出了Transformer結(jié)構(gòu),該結(jié)構(gòu)經(jīng)過無數(shù)人的驗(yàn)證,發(fā)現(xiàn)非常好用,所以Transformer就成為了當(dāng)前主流的序列到序列模型。Transformer主要的機(jī)制是:在生成源端表示的時(shí)候并沒有使用RNN,而是使用自注意力機(jī)制來生成每一個(gè)Token的表示。這樣做的好處是,在訓(xùn)練的時(shí)候可以并行,因?yàn)槊總€(gè)詞都可以并行的和其它詞計(jì)算attention ( RNN則只能串行 )。同樣在解碼端的時(shí)候,也是使用的自注意力機(jī)制。這種模型在訓(xùn)練的時(shí)候都是采用的TeacherForcing形式。模型在解碼當(dāng)前步的時(shí)候,通常會(huì)有三個(gè)輸入:解碼器當(dāng)前的狀態(tài),attention和上一步解碼的結(jié)果。在訓(xùn)練的過程中,我們通常使用上一步的真實(shí)輸出而非模型輸出作為當(dāng)前步解碼的結(jié)果,這就是所謂的Teacher Forcing。在Inference的時(shí)候通常采用Beam-Search +順序生成的方式,在每一步都保存Top-K個(gè)最優(yōu)結(jié)果。在介紹了訓(xùn)練和推斷之后,我們來看一下目前面臨的問題,因?yàn)樵谟?xùn)練的時(shí)候我們使用Teacher Forcing的方式,但是我們在推斷的時(shí)候并不知道上一步的GroundTruth是什么,所以,我們只能將上一步預(yù)測的結(jié)果來近似為Ground Truth。這樣,訓(xùn)練和推斷在生成分布的條件上就產(chǎn)生了差異(Ground Truth vs Predicted),這個(gè)問題被稱作為 Exposure Bias。在訓(xùn)練的時(shí)候,我們還存在另一個(gè)問題。訓(xùn)練的時(shí)候由于我們使用的交叉熵?fù)p失函數(shù),該損失函數(shù)只對Ground Truth友好,對于非Ground Truth的結(jié)果一視同仁。但是對于翻譯任務(wù)來說,并不是只有一種翻譯方式,從slides中可以看到,Output1和Ground Truth表示的是同一個(gè)意思,但是Output2和Ground Truth表示的含義就是不同了,但是在訓(xùn)練的時(shí)候,交叉熵?fù)p失函數(shù)會(huì)將Output1和Output2一視同仁,這樣是不合理的。在推斷階段解碼的時(shí)候同樣存在兩個(gè)問題,在每一個(gè)解碼step我們都要執(zhí)行n各預(yù)測,每個(gè)預(yù)測都要得到整個(gè)詞表的一個(gè)分布,所以在每一個(gè)step都要生成n*|V|個(gè)詞語。而且每個(gè)時(shí)間步還必須串行,這大大影響了解碼速度。對上面提到的問題進(jìn)行一個(gè)小總結(jié):- 預(yù)測過程中Ground Truth的未知導(dǎo)致的Exposure Bias 問題
- 交叉熵?fù)p失函數(shù)的逐詞匹配所導(dǎo)致對于所有的非Ground Truth 一視同仁的問題。
- Beam Search 的Beam Size 會(huì)引入大量的計(jì)算成本
首先,針對于Exposure Bias問題,我們采用的是進(jìn)化采樣的方法,這個(gè)就是我們2019ACL Best Paper的工作。針對與訓(xùn)練和測試時(shí)context不一致的情況,我們的解決方法的主要思想是,在訓(xùn)練的時(shí)候模仿測試時(shí)候可能會(huì)碰到的情況,這樣在測試的時(shí)候就會(huì)發(fā)現(xiàn),當(dāng)前碰到的情況在訓(xùn)練的時(shí)候都碰到過,這樣模型就可以應(yīng)對了。具體的做法是我們在每一步,模擬上一步的翻譯結(jié)果,就是slides中的oracle,其中帶*的是就是Ground Truth,在每一步,我們都會(huì)隨機(jī)的選擇是Oracle還是Ground Truth來作為當(dāng)前步的上一步詞輸入。使用上述方法,我們需要解決的三個(gè)關(guān)鍵問題是:- Oracle和Ground Truth如何對上文進(jìn)行采樣
對于Oracle的生成,我們有兩種方法,一個(gè)是生成詞級(jí)別的Oracle,另一個(gè)是生成句級(jí)別的Oracle。詞級(jí)Oracle即每一步都會(huì)選擇最優(yōu),句子級(jí)別Oracle需要考慮到整個(gè)句子的最優(yōu)。由于RNN Search會(huì)在生成oracle的算法中會(huì)用到。在講生成oracle的算法之前,先大體介紹一下RNN Search模型。RNN Search在當(dāng)前步翻譯的時(shí)候,會(huì)輸入歷史的隱狀態(tài)信息,同時(shí)也會(huì)將上一步翻譯的結(jié)果輸入進(jìn)去,經(jīng)過一系列的變換,會(huì)得到當(dāng)前步的一個(gè)隱狀態(tài),該隱狀態(tài)再經(jīng)過幾層全連接的計(jì)算,最終輸入到softmax層得到詞表中每一個(gè)詞的歸一化的分?jǐn)?shù)。在生成詞級(jí)oracle的時(shí)候,我們會(huì)在softmax歸一化分布之前加上一個(gè)Gumble Noise。Gumble Noise 的公式如slides中所示,其中 表示一個(gè)均勻分布。式子中的 表示溫度,當(dāng)非常大的時(shí)候,相當(dāng)于argmax,當(dāng) 比較小的時(shí)候,相當(dāng)于均勻分布。對于句級(jí)Oracle,我們首先采用Beam Search生成前K個(gè)候選譯文,然后對選定的K個(gè)候選譯文進(jìn)行排序,這里的排序可以根據(jù)K個(gè)候選譯文和Ground Truth計(jì)算一個(gè)BLUE值,還可以用一些其它的方法進(jìn)行排序,最終選取得分最高的譯文作為句級(jí)的Oracle。詞級(jí)Oracle和句級(jí)Oracle 是一個(gè)局部最優(yōu)和全局最優(yōu)的一個(gè)區(qū)別。對于采樣,具體是怎么操作的呢?首先考慮到一點(diǎn)就是在剛開始訓(xùn)練的時(shí)候,模型的效果不怎么好,這樣,無論是詞級(jí)oracle的生成還是句級(jí)oracle的生成效果肯定都不是很理想,如果這時(shí)候使用oracle來引導(dǎo)模型訓(xùn)練的話, 可能會(huì)使得模型收斂的比較慢。一個(gè)比較合理的做法是,剛開始我們盡量選用Ground Truth的詞,當(dāng)模型快收斂的時(shí)候,我們再加大Oracle翻譯的采樣比例。這里的采樣概率公式如slides所示,其中,隨著epoch的增長,系統(tǒng)越來越傾向于選擇oracle label。對于訓(xùn)練的話,同樣的采用最大化log likelihood的方式。實(shí)驗(yàn)結(jié)果:除了對比Transformer 和 RNN-Search,也對比了另外兩個(gè)系統(tǒng),SS-NMT 和 MIXER。其中,SS-NMT也是通過計(jì)劃采樣的方式。MIXER的loss分為兩個(gè)部分,一個(gè)部分是傳統(tǒng)的Transformer使用的交叉熵?fù)p失函數(shù),另外一部分是將BLEU值作為reward,然后通過policy gradient的方法對模型進(jìn)行訓(xùn)練。這個(gè)是在中英文新聞數(shù)據(jù)上的結(jié)果,可以看到,在RNN-Search的系統(tǒng)上, 我們相比于Baseline能夠提升2.3個(gè)點(diǎn)。在Transformer系統(tǒng)上,相比于Baseline能夠提升1.5個(gè)點(diǎn)。在英德新聞數(shù)據(jù)結(jié)果上,基于RNN-Search的系統(tǒng)比baseline高了1.6個(gè)點(diǎn),基于Transformer的系統(tǒng)比baseline高了1.3個(gè)點(diǎn)。2. 可導(dǎo)的序列級(jí)目標(biāo)接下來介紹如果解決詞級(jí)匹配的對于好一點(diǎn)的匹配和差的匹配一視同仁的問題。這個(gè)是我們在EMNLP 2018上所做的工作。通過使用可導(dǎo)的序列級(jí)目標(biāo)來解決詞級(jí)匹配的問題。首先介紹一下傳統(tǒng)的序列級(jí)損失函數(shù)。傳統(tǒng)的序列級(jí)損失函數(shù)基本上都是基于N-gram正確率的損失函數(shù),比如,BLEU,GLEU等等。計(jì)算方法為,命中n-gram的個(gè)數(shù)/總共的n-gram的個(gè)數(shù)(candidate),其中n-gram的個(gè)數(shù)為其每個(gè)詞語出現(xiàn)頻次的乘積。直接使用BLEU不可到的原因是因?yàn)椴僮髦杏衋rgmax,為了使其可導(dǎo),我們使用token的預(yù)測概率,而非使用argmax。這個(gè)方法和直接用BLEU作為Score,然后reinforce算法直接訓(xùn)練對比有啥優(yōu)勢?由于reinforce算法的方差比較大,所以在訓(xùn)練的時(shí)候是很難收斂的。而使用傳統(tǒng)的梯度下降的方法,訓(xùn)練過程就會(huì)平穩(wěn)的多。這里是3-gram的例子,其中output是概率最高的詞,3-gram概率的是由獨(dú)立Token的輸出概率相乘得到結(jié)果,然后求和會(huì)得到The total probabilistic count of 3-grams。將匹配上的3-gram的概率拿出來求和作為分子,Total probabilistic count作為分母,計(jì)算得到 Precision of 3-grams。這就是我們的loss。這個(gè)例子用來展示整個(gè)的訓(xùn)練過程,這里需要注意的一點(diǎn)就是,和傳統(tǒng)的teacher forcing方式不同,這里當(dāng)前步輸入的為上一步預(yù)測的結(jié)果(貪心搜索得到的結(jié)果),而不是ground truth的值。剩下的就是按照上頁slides介紹的來計(jì)算loss。對于loss采用傳統(tǒng)的梯度下降算法即可。下面貼的是在數(shù)據(jù)集上的結(jié)果。從結(jié)果中可以看出,2-gram比4-gram的效果要好,這里我們給出的解釋是,過多的使用自己生成的去計(jì)算的話,會(huì)存在一定程度上的錯(cuò)誤累積。在訓(xùn)練的時(shí)候,也是可以通過teacher forcing的方式來訓(xùn)練的,但是從圖中可以看出,teacherforcing的方式收斂的比較快,但是效果不如greedy search的方式好。下面介紹在解碼方面的兩個(gè)工作,第一個(gè)工作要解決的是beam search每一步要計(jì)算BeamSize*|V|的問題,這個(gè)計(jì)算量大大降低了inference時(shí)候解碼的速度。這是解碼過程中每個(gè)步驟的時(shí)間消耗,對于GPU來說,大部分的時(shí)間消耗在的計(jì)算上,其它三個(gè)步驟比較節(jié)省時(shí)間,對于CPU來說,最耗費(fèi)時(shí)間的是最后兩個(gè)步驟,因?yàn)閨V|比較大。傳統(tǒng)的方法使用的是Beam Search,傳統(tǒng)的 Beam Search其實(shí)是一個(gè)二維的搜索方法。其中第一維就是已經(jīng)生成的部分的譯文,假設(shè)Beam Size = 4,那么就是四個(gè)譯文。第二維度是這四個(gè)譯文都要進(jìn)行下一步的Token預(yù)測計(jì)算??偣簿托枰?jì)算4*|V|的概率。因?yàn)閨V|的個(gè)數(shù)通常是幾千上萬級(jí)別的,所以這個(gè)部分的計(jì)算量就非常大。我們的做法是將二維的搜索擴(kuò)展成三維的搜索,具體的做法分為以下幾步:① Beam分組:假設(shè)我們要解碼第11步,我們就將第10步解碼出來相同Token的候選序列歸為一組。② 分組預(yù)測第11步的候選Token:只用每個(gè)組得分最高的哪個(gè)候選序列來計(jì)算當(dāng)前的Token分布。③ 近似組員的Token分布:由上一步已經(jīng)知道本組最優(yōu)的候選序列的下一個(gè)token的預(yù)測分布,對于組員來說,也將共享其老大計(jì)算出來的Token分布score,然后和自身的序列score相加,得到自身擴(kuò)展一個(gè)Token后的score。這個(gè)score作為自身的近似分。④ 查找Top-K:經(jīng)過上面的計(jì)算之后,這樣每個(gè)組就是得分其實(shí)是一個(gè)二維矩陣,我們將矩陣橫軸作為每個(gè)組員,縱軸表示當(dāng)前步預(yù)測的token,然后保證右上角score最大,往右,往下都是減小。這樣便于我們查找Top-K。具體請看下一張slides。- 如果取到的candidate是預(yù)測的score,那么用真實(shí)的狀態(tài)來重新計(jì)算一下這個(gè)score,這時(shí)候也順便更新了一下自己的隱狀態(tài)
- 直接用預(yù)測的score,不使用更新的方式,這時(shí)候和老大哥共享隱狀態(tài)
這個(gè)是GPU上的結(jié)果,橫軸是速度,縱軸是BLEU值,可以看出在取得最優(yōu)的BLEU值的情況下,我們的方法所用的時(shí)間是更短的。速度可以提升3.3倍。在CPU下,提速可以達(dá)到3.5倍。在Beam Size=40的情況下,GPU上速度提升3.8倍,CPU上提升4.2倍。最后介紹一下基于非自回歸的解碼方法,傳統(tǒng)的解碼方法是順序生成的。如果能夠使得解碼的時(shí)候并行的方式生成,這速度將會(huì)大大的提升。傳統(tǒng)的非自回歸模型的做法是,在Transformer Encoder端頭部加一個(gè)Fertility預(yù)測,用來預(yù)測每個(gè)源端Token能翻譯成一個(gè)目標(biāo)端的Token,然后根據(jù)預(yù)測的結(jié)果,將源端的Token拷貝到Decoder的輸入,如果一個(gè)源端Token能夠翻譯兩個(gè)目標(biāo)Token,那就拷貝兩次,如果源端Token不會(huì)翻譯成目標(biāo)端Token,那就不拷貝。由于每一步輸出的譯文是沒有給到下一步的,所以是可以并行的。對于Fertility的訓(xùn)練是采用某種對齊模型,通過計(jì)算源端和目標(biāo)端的對齊關(guān)系,然后就可以得到源端和目標(biāo)端的對齊結(jié)果,就可以采用監(jiān)督的方式來訓(xùn)練Fertility分支。
該方法有一個(gè)問題,就是在翻譯當(dāng)前步的時(shí)候沒有考慮上一步的翻譯信息。這樣就可能導(dǎo)致翻譯結(jié)果的流暢度不夠好。我們的方法就是在該方法的基礎(chǔ)上添加了序列上的信息。這樣模型既能并行執(zhí)行,又能考慮的到前后的序列關(guān)系。我們的工作分為兩個(gè)方面,一個(gè)是在訓(xùn)練上添加序列信息,一個(gè)是在模型上面同樣也添加序列信息。序列訓(xùn)練采用的是Reinforce的方法,Reinforce的方法非常難以訓(xùn)練,這是因?yàn)槠浞讲罘浅4?,方差大的原因是?qiáng)化學(xué)習(xí)episode(一條軌跡從開始到結(jié)束)的搜索空間非常大,我們每次只是采樣出一個(gè)episode,然后根據(jù)這個(gè)episode進(jìn)行計(jì)算,通過大數(shù)定律,我們可以假設(shè)這最終得到的是一個(gè)梯度的無偏估計(jì)。但是在實(shí)際情況下,抖動(dòng)是非常大的。將Reinforce算法應(yīng)用到我們這個(gè)場景,首先看第一個(gè)公式,由于目標(biāo)端詞的概率是獨(dú)立的,所以就可以寫成連乘的形式,第二個(gè)公式就是傳統(tǒng)的Reinforce公式,就是翻譯的reward。是通過前向后向算法計(jì)算出來的當(dāng)前步的reward。上面的slides介紹的是計(jì)算reward時(shí)候的不同,接下來看sampling機(jī)制的區(qū)別。根據(jù)生成前后詞的獨(dú)立性,每一步我們并不是采樣出一個(gè)詞,而是采樣出K+1個(gè)詞。這樣的話就可以看做我們一次更新的過程中考慮到更多的episode,而不是僅用一個(gè)episode就去訓(xùn)練了。具體的做法是,每一步,我們先取Top-K,計(jì)算一下?lián)p失函數(shù)的值,然后從剩下的Token中再采樣出來一個(gè)。我們將這兩部分的loss合起來,是為了保證無偏估計(jì)。為前k個(gè)翻譯的概率的和。另外一個(gè)方法就是模型上的改進(jìn),在非自回歸層的上面加上自回歸層。具體的做法是,模型分為 Bottom Layer,F(xiàn)usion Layer,Top Layer。Bottom Layer就是之前介紹的非自回歸模型,F(xiàn)usion Layer的作用是將非自回歸模型的輸出和其Embedding整合起來,Top-Layer和Transformer 的解碼器基本一致。實(shí)驗(yàn)結(jié)果:AR(Transformer),NAT(非自回歸的方法),IRNAT(迭代的非自回歸方法),最后是我們提出的方法,第一種是在訓(xùn)練的過程中引入序列信息,第二是在模型上進(jìn)行改進(jìn)。作為對比的數(shù)據(jù)集有三個(gè),前兩個(gè)數(shù)據(jù)集比較小。主要關(guān)注第三個(gè)數(shù)據(jù)集??梢钥闯?,使用NAT來代替AR模型的話,效果會(huì)降6個(gè)點(diǎn)左右,迭代的方法會(huì)帶來1到2個(gè)點(diǎn)的提升。我們提出的reinforce方法和傳統(tǒng)的reinforce方法相比,有0.6個(gè)點(diǎn)的提升。加上回歸層的模型已經(jīng)接近Transformer的效果了。關(guān)于速度的提升,如果僅訓(xùn)練的時(shí)候采用序列信息,速度可以提升10倍。如果是NAT加上自回歸層的方法,速度也可以提高4倍左右。這里有一些翻譯實(shí)例,可以看出 NAT-base的方法流暢性不夠好,重復(fù)很多“more more …”,因?yàn)闆]有考慮序列信息,所以導(dǎo)致結(jié)果的流暢度不行。使用我們提出的reinforce方法,能夠一定程度上的緩解流暢度的問題,但是問題還是存在。通過使用NAT+AR的方法,能夠更好的緩解流暢度的問題。http://nlp.ict.ac.cn/2017/http://nlp.ict.ac.cn/~fengyang/
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。