火山引擎技術(shù)
大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新服務(wù)媒體
——聚焦數(shù)據(jù) · 改變商業(yè)
●問題
目前絕大多數(shù)AI 任務(wù)都是建立在數(shù)據(jù)的基礎(chǔ)之上的統(tǒng)計(jì)學(xué)習(xí),模型的表現(xiàn)效果很大程度上依賴于數(shù)據(jù)的質(zhì)量和數(shù)量。利用大量較易獲得的數(shù)據(jù)來預(yù)訓(xùn)練模型,在具體應(yīng)用場(chǎng)景再利用少量標(biāo)注數(shù)據(jù)微調(diào)來實(shí)現(xiàn)實(shí)際場(chǎng)景可用的模型,已經(jīng)成為NLP新的成功范式。不過,在多語言的機(jī)器翻譯中,通過預(yù)訓(xùn)練再微調(diào)的范式還未取得普遍的成功。以前的NLP預(yù)訓(xùn)練方式例如BERT、GPT訓(xùn)練目標(biāo)與翻譯關(guān)注的目標(biāo)之間差距過大,不易直接使用。mRASP提出了全新的思路,利用多個(gè)語言已經(jīng)積累的大量雙語平行語料,合并起來聯(lián)合訓(xùn)練一個(gè)統(tǒng)一的模型,之后再基于此微調(diào),讓預(yù)訓(xùn)練和微調(diào)目標(biāo)盡可能接近,這樣才能更大發(fā)揮預(yù)訓(xùn)練模型作用。
●應(yīng)用
mRASP模型支持通過預(yù)訓(xùn)練技術(shù)、再在具體語種上微調(diào),即可達(dá)到領(lǐng)先的翻譯效果,當(dāng)前已應(yīng)用于「火山翻譯」擴(kuò)語種項(xiàng)目。
●技術(shù)優(yōu)勢(shì)
1.通用性極強(qiáng)
a.打破了資源場(chǎng)景的限制
不論平行雙語資源高低都能有提升。En->De wmt 2016測(cè)試集上達(dá)到了30.3 (tokenized BLEU), En->Fr wmt 2014測(cè)試集上達(dá)到了44.3 (tokenized BLEU)
b.打破了語種的限制
任何語言的翻譯,無論是孟加拉語到古吉拉特語還是印地語到菲利賓語,基于mRASP 模型微調(diào),新拓展的語種效果可期。即使是不包含在預(yù)訓(xùn)練階段平行句對(duì)中的語向上微調(diào),也能取得很大的提升。這類方向也稱作"Exotic Directions",在Exotic Directions上是否有效果,體現(xiàn)了 mRASP 是否具有很好的擴(kuò)展性和泛化能力。
Exotic Directions分為四種情況:
1.Exotic Pair: 源語言和目標(biāo)語言都經(jīng)過了單獨(dú)的預(yù)訓(xùn)練,但模型還沒有見過它們組成的雙語對(duì);
2.Exotic Source: 模型在預(yù)訓(xùn)練階段只見過目標(biāo)端語言,源端語言完全沒見過;
3.Exotic Target: 模型在預(yù)訓(xùn)練階段只見過源端語言,目標(biāo)端語言完全沒見過;
4.Exotic Full: 模型在預(yù)訓(xùn)練階段完全沒見過源端語言和目標(biāo)端語言。
這四種未見語對(duì)情況下訓(xùn)練機(jī)器翻譯都很難。當(dāng)然其中難度最大的是最后一種,相當(dāng)于要求只學(xué)習(xí)了中文和英語的人,讀少量拉丁語和印地語的句子就可以從拉丁語到印地語翻譯。
2.模型簡(jiǎn)單易復(fù)現(xiàn),資源消耗低
僅使用了共1.1億對(duì)平行句對(duì)(由于同一對(duì)平行句對(duì)對(duì)兩個(gè)方向都適用,所以一共是2.2億個(gè)訓(xùn)練樣本),詞表大小僅64k個(gè)bpe subword,相比于其它預(yù)訓(xùn)練方法,動(dòng)輒百億數(shù)據(jù)幾十層網(wǎng)絡(luò),訓(xùn)練難度更小,單機(jī)8卡不到一周在32個(gè)語言上就可以完成預(yù)訓(xùn)練。當(dāng)然在更多語言上的預(yù)訓(xùn)練模型也可以簡(jiǎn)單擴(kuò)展獲得。
mRASP 遵循了通用的預(yù)訓(xùn)練-微調(diào)框架。預(yù)訓(xùn)練階段,不同于傳統(tǒng)預(yù)訓(xùn)練模型大量堆疊無監(jiān)督單語數(shù)據(jù)的方式,mRASP 另辟蹊徑,采用了多語言平行數(shù)據(jù)作為預(yù)訓(xùn)練的主要目標(biāo),將幾十種語言的平行數(shù)據(jù)放到同一個(gè)模型進(jìn)行聯(lián)合訓(xùn)練。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用Transformer,加上語言標(biāo)識(shí)符(Language token)標(biāo)識(shí)源語言和目標(biāo)語言。為了保證不同語言的句子和詞語能嵌入到同一個(gè)空間,同一個(gè)意思的句子無論中文還是英文說得都應(yīng)該是對(duì)應(yīng)同一個(gè)向量表示,又引入了隨機(jī)替換對(duì)齊技術(shù)RAS,來制造更豐富的上下文。
●RAS:隨機(jī)替換對(duì)齊
一句中文的句子"我 愛 北京 天安門"中的"愛"有一定概率被替換成"aime"(法語),"北京"也有一定概率被替換成"Pékin"(法語),于是原句就可能會(huì)變成"我 aime Pékin 天安門"。訓(xùn)練集中的一對(duì)平行句對(duì)可以變?yōu)閮蓪?duì)(甚至三對(duì)、四對(duì),……):
我 愛 北京 天安門 ==> I love Beijing Tiananmen Square
我 aime Pékin 天安門 ==> I love Beijing Tiananmen Square
對(duì)模型來說,通過大量學(xué)習(xí)這樣的平行語料,它就會(huì)很自然地根據(jù)這種“人為制造”的“語境”學(xué)習(xí)到不同語言的同義詞之間的對(duì)應(yīng)關(guān)系。實(shí)際上,這種基于平行詞典的隨機(jī)替換方法,拉近了不同語言的同義句在空間上的分布。在上例中,“愛”和"aime"(法語)計(jì)算出來的詞向量期望是盡可能接近的。
而在微調(diào)階段,只需要使用預(yù)訓(xùn)練階段的參數(shù)作初始化,之后采用和傳統(tǒng)單向機(jī)器翻譯相同的訓(xùn)練方法即可。因此使用mRASP并不需要掌握任何額外的技能。
●帶隊(duì)負(fù)責(zé)人:林澤輝、潘驍
林澤輝,2018年廈門大學(xué)本科畢業(yè),2018-2021年于復(fù)旦大學(xué)NLP組作為碩士生從事自然語言處理相關(guān)研究。2020年5月起作為實(shí)習(xí)生加入字節(jié)跳動(dòng),從事機(jī)器翻譯的研究。在實(shí)習(xí)期間,參加WMT機(jī)器翻譯大賽,并獲得德語->英語、德語->法語兩項(xiàng)第一;同時(shí)在自然語言處理頂級(jí)會(huì)議EMNLP上以一作發(fā)表一篇論文。
潘驍,2016年同濟(jì)大學(xué)本科畢業(yè),2016-2018年在法國(guó)巴黎高科高等電信學(xué)院攻讀工程師學(xué)位,2018年底加入字節(jié)跳動(dòng),初期負(fù)責(zé)英法翻譯模型的訓(xùn)練,后來從事多語言翻譯相關(guān)研究,2020年參加WMT機(jī)器翻譯大賽,其參與的翻譯方向中,德語->英語、德語->法語兩項(xiàng)獲得第一。
●其他重要成員:林澤輝、潘驍、王明軒、封江濤、周浩、李磊
●隸屬機(jī)構(gòu):火山引擎
火山引擎是字節(jié)跳動(dòng)旗下的數(shù)字服務(wù)與智能科技品牌,基于公司服務(wù)數(shù)億用戶的大數(shù)據(jù)、人工智能和基礎(chǔ)服務(wù)等技術(shù)能力,為企業(yè)提供系統(tǒng)化的全鏈路解決方案,助力企業(yè)務(wù)實(shí)地創(chuàng)新,給企業(yè)帶來持續(xù)、快速增長(zhǎng)。
所獲專利:一種翻譯模型的獲取方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)。
聯(lián)系客服