編者按:目前,目標(biāo)語言端的無標(biāo)注單語數(shù)據(jù)已被廣泛應(yīng)用于在機器翻譯任務(wù)中。然而,目標(biāo)語言端的無標(biāo)注數(shù)據(jù)一旦使用不當(dāng),反而會給模型結(jié)果帶來負面影響。為了有效利用大規(guī)模源語言端和目標(biāo)語言端的單語數(shù)據(jù),微軟亞洲研究院在 EMNLP 2019 上發(fā)表的論文中,提出一種簡單的語料數(shù)據(jù)使用流程,只需要四個步驟就能極大地提高模型翻譯結(jié)果。
在機器翻譯任務(wù)中,如何利用好大規(guī)模的單語語料數(shù)據(jù)來輔助翻譯模型的訓(xùn)練是非常重要的研究方向。目前,目標(biāo)語言端的無標(biāo)注單語數(shù)據(jù)已經(jīng)被證實能夠極大的提升模型的翻譯質(zhì)量,并被廣泛利用,最著名的就是反向翻譯技術(shù) BT(back-translation)。相比之下,源語言端的無標(biāo)注單語數(shù)據(jù)則并沒有被很好地利用。為此,我們在這個工作中進行了系統(tǒng)的研究,來闡明如何能夠同時利用好源語言端和目標(biāo)語言端的無標(biāo)注單語數(shù)據(jù),并且我們提出了一種非常有效的數(shù)據(jù)使用流程,只包括簡單的四個步驟就能極大地提高模型翻譯結(jié)果。通過在 WMT 英德互譯和 WMT 德法互譯任務(wù)上的實驗,我們驗證了所提出算法的有效性,同時取得了非常優(yōu)越的性能。無標(biāo)注單語數(shù)據(jù)的有效性
我們首先嘗試驗證對于兩個方向(源語言端 X、目標(biāo)語言端 Y)無標(biāo)注單語數(shù)據(jù)在大規(guī)模語料下的有效性,對于兩種單語數(shù)據(jù),常見的方法為:1) 對于目標(biāo)語言端的單語數(shù)據(jù) y,常用的方法為反向翻譯技術(shù) BT(back-translation),即我們會使用一個 Y->X 的反向翻譯模型來翻譯 y 得到對應(yīng)的結(jié)果 x',然后將(x', y)作為偽雙語數(shù)據(jù)參與訓(xùn)練 X->Y 模型;2) 而對于源語言端的單語數(shù)據(jù) x,常用的方法為正向翻譯技術(shù) FT(forward-translation),即我們使用正向的翻譯模型 X->Y 來翻譯 x 得到對應(yīng)的結(jié)果 y',然后將(x, y')作為偽雙語數(shù)據(jù)參與訓(xùn)練 X->Y 模型。我們在不同的大規(guī)模數(shù)據(jù)量(20M、60M、120M單語數(shù)據(jù))下進行實驗,發(fā)現(xiàn)了如下實驗現(xiàn)象:圖1:單語數(shù)據(jù)量的增加導(dǎo)致翻譯模型性能的變化1) 當(dāng)只有目標(biāo)語言端單語數(shù)據(jù)的時候,隨著單語數(shù)據(jù)的量越來越多,BT 所帶來的模型性能呈現(xiàn)出先上升后下降的趨勢,并且下降速度非常快(如圖(a)所示)。2) 當(dāng)只有源語言端的單語數(shù)據(jù)的時候,隨著單語數(shù)據(jù)的量越來越多,F(xiàn)T 所帶來的模型性能呈現(xiàn)緩慢下降的趨勢,不過下降速度比 BT 略?。ㄈ鐖D(b)所示)。這樣的實驗結(jié)果說明單獨使用大量的某一端單語數(shù)據(jù)并不是一個好的策略,相反這樣的方式反而會給模型結(jié)果帶來負面影響。我們也分析了其中的部分原因,比如目標(biāo)端單語數(shù)據(jù)產(chǎn)生的偽雙語數(shù)據(jù)是來源于另一個方向的翻譯模型,數(shù)據(jù)質(zhì)量并不可控,所以大量的偽單語數(shù)據(jù)則會使得模型訓(xùn)練產(chǎn)生了偏差。因此,我們需要找到一種合適有效的方式來利用大規(guī)模的單語數(shù)據(jù)。假設(shè)我們關(guān)注的是 X 和 Y 語言之間的互譯,給定的有標(biāo)雙語數(shù)據(jù)集為 B,我們希望得到的是 X->Y 和 Y->X 兩個翻譯模型,分別記做 f 和 g。同時,我們需要準(zhǔn)備兩份無標(biāo)注單語數(shù)據(jù) Mx 和 My,分別對應(yīng) X 和 Y 兩種語言。我們提出了一個清晰的數(shù)據(jù)使用和訓(xùn)練流程,將兩端的無標(biāo)注單語數(shù)據(jù)都進行了利用。我們提出的算法包括如下的四步: 圖2:數(shù)據(jù)使用和訓(xùn)練流程(1)有標(biāo)雙語模型預(yù)訓(xùn)練:我們首先在雙語數(shù)據(jù) B 上訓(xùn)練得到 X->Y 方向的翻譯模型 f,和 Y->X 方向的翻譯模型 g。同時我們會用不同的隨機種子再次訓(xùn)練得到兩個新模型 f' 和 g'(為了在第四步中使用)。(2)無標(biāo)注數(shù)據(jù)翻譯:我們將 Mx 中的每一個句子 x 用模型 f 翻譯到 Y 語言,對 My 中的句子 y 用模型 g 翻譯到 X 語言,得到兩個新的偽標(biāo)注數(shù)據(jù)集合 Bs={(x, f(x))|x∈Mx}, Bt={(g(y),y)|y∈My}。(3)有噪聲訓(xùn)練:我們在數(shù)據(jù)集 B、Bs 和 Bt 的源語言端都加上噪聲,加噪聲的方式包括:a)隨機將單詞替換為<UNK>;b)隨機丟棄句子中的某些詞語;c)隨機打亂句子中連續(xù)的 k 個單詞順序。在新的有噪聲的數(shù)據(jù)集上,我們訓(xùn)練對應(yīng)的模型 f1:X->Y 和 g1:Y->X。在此階段,我們建議使用大規(guī)模的無標(biāo)注數(shù)據(jù)。(4)微調(diào):最后,在得到 f1 和 g1 之后,我們用第一步中訓(xùn)練得到的新的雙語模型 f' 和 g' 來重新翻譯 Mx 和 My 中的部分無標(biāo)注數(shù)據(jù),得到新的 Bs' 和 Bt' 數(shù)據(jù)集,然后在這份數(shù)據(jù)上再將 f1 和 g1 微調(diào)成最終所需要的模型。我們在 WMT 英語和德語的雙向翻譯,以及 WMT 德語和法語之間的互相翻譯任務(wù)上進行了實驗驗證。我們采用的模型是 Transformer Big 模型,在第三階段,我們選用了120M(兩邊分別60M)的無標(biāo)注單語數(shù)據(jù),第四階段,使用40M(兩邊分別20M)無標(biāo)注的單語數(shù)據(jù)進行微調(diào)。評測所采用的指標(biāo)為 SacreBLEU score。我們得到的實驗結(jié)果如表1和表2所示,具體結(jié)果如下:表1:WMT 英德互譯上的 SacreBLEU 結(jié)果表2:WMT 德法互譯上的 SacreBLEU 結(jié)果可以看出,我們的模型在每一步訓(xùn)練階段,結(jié)果都會有一定提高,如第三步有噪聲訓(xùn)練階段取得了2個點的 BLEU 提升,而在第四階段微調(diào)階段又取得了至少1.5個點的 BLEU 提升。同時我們和目前已經(jīng)存在的最好方案進行了對比,我們的模型取得了當(dāng)下最好的翻譯結(jié)果(表3和表4所示)。
表4:WMT 德英上方案比較
最后我們對流程中的每一部分也進行了一定的分析,比如不同的語料使用的結(jié)果(圖3(a)),有噪聲數(shù)據(jù)和隨機 sample 的數(shù)據(jù)上的訓(xùn)練結(jié)果(圖3(b)),以及不同的數(shù)據(jù)微調(diào)方式的結(jié)果(圖3(c)),得到的結(jié)論證明我們的使用方法確為最優(yōu)方案。圖3:WMT 英德上針對不同流程的實驗結(jié)果在這篇文章中,我們提出了一種簡單高效的無標(biāo)注單語語料的數(shù)據(jù)使用和模型訓(xùn)練流程,只包含了簡單的四個步驟,并且對不同的無標(biāo)注單語語料的使用方案進行了詳細的討論和對比。另外我們還驗證了如下結(jié)論:(1)只使用源語言端或者目標(biāo)語言端無標(biāo)注單語數(shù)據(jù),效果不會隨著數(shù)據(jù)量的增加而增加;(2)源語言端和目標(biāo)語言端的無標(biāo)注單語數(shù)據(jù)組合在一起使用時作用是最大的,實驗效果會隨著數(shù)據(jù)的增多而得到提升;(3)有噪聲訓(xùn)練這一階段對提升最終性能有明顯的幫助。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。