中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
EMNLP 2021 | 多語言翻譯——利用 Adapter 緩解多語言干擾
今天為大家介紹一篇收錄于 EMNLP2021 Findings 的論文:Counter-Interference Adapter for Multilingual Machine Translation(CIAT),由字節(jié)跳動人工智能實驗室和加州大學圣芭芭拉分校合作完成。這篇論文分析并解決多語言機器翻譯任務中最大的挑戰(zhàn)之一:多語言性能下降問題。論文指出多語言性能下降的本質(zhì)是語言之間的干擾,并引入了 Adapter 子結(jié)構(gòu)來修復這種干擾。作者的模型在多個規(guī)模的多語言機器翻譯數(shù)據(jù)集上取得了優(yōu)異的成績。
論文鏈接:
https://arxiv.org/abs/2104.08154
代碼地址:
https://github.com/Yaoming95/CIAT
一、導讀
機器翻譯一直是自然語言處理領域中備受關(guān)注的研究方向,其中多語言機器翻譯系統(tǒng)更是具有巨大的商業(yè)價值,像是“Facebook自動翻譯帖子和評論;火山同傳直播雙語字幕”等功能都在切實解決著語言障礙這一真實痛點。
然而我們發(fā)現(xiàn)傳統(tǒng)機器翻譯系統(tǒng)為了實現(xiàn)多種語言間的互譯,需要在兩兩語對之間各構(gòu)建一個獨立的雙語翻譯模型。比如我們想讓德語使用者和法語使用者暢游英文網(wǎng)頁和中文網(wǎng)頁,就需要提供英法、中法、英德、中德四組機器翻譯模型。
進一步地,假設我們需要在常用的100種人類語言之間實現(xiàn)互譯,那么大約需要一萬個雙語翻譯模型——而如此巨大的模型量對于學術(shù)研究和工業(yè)部署而言都是無法接受的。因此,研究者們又提出了多語言機器翻譯任務,希望設計出一個通用模型來實現(xiàn)所有語種間的互譯。
圖1:多語言機器翻譯模型以一己之力替代了以往若干個雙語機器翻譯模型。
二、機器翻譯:從雙語到多語
機器翻譯的歷史悠久,而目前主流的機器翻譯系統(tǒng)都使用 Transformer 作為基礎模型,這種模型由詞嵌入矩陣、編碼器、解碼器構(gòu)成,下圖是一個 Transformer 模型結(jié)構(gòu)圖(以中英機器翻譯為例)。
圖2:Transformer 模型結(jié)構(gòu)圖
圖源:
https://mp.weixin.qq.com/s/t69wOVy_I0ErmQa22g2vvA
在雙語 Transformer 基礎上,來自 Google 的研究者們提出了一套多語言機器翻譯范式:即在每條源語句的開頭加上翻譯方向,然后混合所有的雙語數(shù)據(jù)作為訓練集直接訓練翻譯模型[1]。
圖3:從雙語數(shù)據(jù)集構(gòu)建多語言數(shù)據(jù)集,其中多語言數(shù)據(jù)集在句首添加的 <2zh> 和 <2fr> 分別代指翻譯到中文和翻譯到法文。
這種多語言翻譯范式訓練過程簡單、不需要修改模型,迅速成為了多語言翻譯的主流方案。
然而它也并非萬能,研究者們發(fā)現(xiàn)了按照多語種模型在翻譯大語種時性能往往不及傳統(tǒng)的雙語翻譯模型——譬如掌握了 103 種語言的多語種翻譯模型在翻譯英語到德語時,效果不如獨立的英德機器翻譯模型。研究者們把這種現(xiàn)象被稱為 多語言性能下降 [2](見圖4)。如何緩解多語言性能下降也隨即成為了機器翻譯界的研究熱點。
圖4:在 IWSLT 數(shù)據(jù)集上,多語言翻譯模型相對雙語模型的下降值。多語言翻譯模型僅在波蘭語到英語的翻譯上超過了雙語翻譯模型。
三、再思考:多語言性能下降的成因
論文首先分析了為何在模型一致的情況下,多語言翻譯模型的性能不及雙語翻譯模型。CIAT 論文將其歸結(jié)到兩種問題。
作者首先思考了詞嵌入 (word embedding) 的建模能力。在多語言的環(huán)境下,不同的語言會共享同一個詞嵌入矩陣,而對于很多詞匯,它們在不同語言中雖拼寫相同,含義卻是無關(guān)甚至相反,作者給出了兩個例子:
單詞英語含義法語含義
bride新娘馬轡頭
漢字漢語含義日語含義
娘母親女兒
面對此類跨語言多義詞時,多種語言共用的詞嵌入向量往往難以捕獲準確的語義,作者將這種問題稱為多語言詞嵌入缺陷 (Multilingual Embedding Deficiency)。
在詞嵌入之外,作者還將目光投向了翻譯模型的中間層。以往研究者指出了多任務學習時,不同任務間會存在相互干擾的問題,導致共享參數(shù)的模型中間層面臨噪音擾動[3]。作者認為多語言翻譯任務的學習也會給共享參數(shù)的模型中間層帶來類似的問題,即單個模型在同時學習不同語言特征時,特征彼此干擾雜糅,對模型性能施加負面影響,作者將這種影響稱為多語言擾動 (Multilingual Interference Effects)。
四、利用 Adapter 緩解多語言干擾
分析完多語言性能下降的原因,作者便設計了一套基于 Adapter 的方案來解決這兩種多語言學習的問題。在介紹作者的方案前,筆者先簡述一下論文使用的 Adapter 技術(shù)。
什么是Adapter
Adapter 技術(shù)最初被用于領域適應任務 (domain adaptation task) 上[4](見圖5)。其核心思想是將模型分為主體的主網(wǎng)絡和參數(shù)較少的 Adapter兩部分。訓練時,先在主任務上訓練整個模型,模型收斂后固定住主網(wǎng)絡的參數(shù)。做領域適應時僅精調(diào) Adapter 的參數(shù)。這樣最終訓練出的模型既能利用主任務的大量數(shù)據(jù)信息,又能在具體的領域適應上表現(xiàn)良好。
圖5:一個經(jīng)典的 Adapter 單層網(wǎng)絡示例。其中藍色部分為 Adapter 。模型先在主任務上訓練,之后固定主網(wǎng)絡 (Main Network) 的參數(shù),在具體任務上精調(diào) Adapter 結(jié)構(gòu)。
如何將 Adapter 引入多語言機器翻譯
CIAT 的作者將 Adapter 的思想引入了多語言機器翻譯中,并通過 Adapter 技術(shù)來緩解前述的兩種多語言問題。
對于多語言詞嵌入缺陷,作者引入了 Embedding Adapter 模塊,可以修補單個詞嵌入對于跨語言詞匯建模能力不足的問題,具體地,Embedding Adapter 在以往的詞嵌入矩陣后加入了一個語對相關(guān)的小模塊,根據(jù)具體的語言對來調(diào)整 embedding 的內(nèi)容;對于多語言擾動,作者引入了 Layer Adapter 模塊(圖6 中綠色模塊),這種模塊與主網(wǎng)絡中間層并聯(lián),和模型中間層共享輸入的同時在模型輸出端抵消多語言干擾。
作者還在論文中論述了與 NLP 界以往使用的串聯(lián)型 Adapter 相比[6],并聯(lián)式的 Layer Adapter 的輸入不會受到中間層多語言擾動的影響,這種并聯(lián)式的設計對于多語言機器翻譯的學習而言更加友好。
圖6 展示了作者的模型架構(gòu)。作者的主模型為目前機器翻譯界的主流 Transformer ,而 Adapter 采用了簡單的前饋神經(jīng)網(wǎng)絡。與主網(wǎng)絡相比,Adapter 帶來的參數(shù)量極小。
圖6:CIAT 的架構(gòu)
預訓練主模型+語言對精調(diào) Adapter
CIAT 的訓練分為兩個階段:
· 首先是多語言預訓練,即在多語言語料庫上訓練標準 Transformer,得到多語言的基礎模型并將其參數(shù)“凍結(jié)”;
· 接著是特定語言精調(diào),對于特定的語對,直接在預訓練好的基礎模型上插入隨機初始化的 Adapter 模塊,然后在該語對上訓練 Adapter 模塊,不同語對的 Adapter 相互獨立。
以英法、英中訓練舉例:CIAT會先使用英、法、中三語種的語料聯(lián)合訓練一個基礎的英法中互翻多語言Transformer;然后,分別插入英法、英中兩組 Adapter ,并在對應的雙語語料上訓練這兩組 Adapter 同時保持模型其他參數(shù)固定,英法、英中 Adapter 的訓練過程彼此獨立。兩階段完成后,在需要執(zhí)行英語到中文的翻譯任務時,模型會激活基礎模型與英中 Adapter(此時英法Adapter不激活),完成高質(zhì)量的英中翻譯。
五、在多個量級的場景下都能提升多語言性能
作者首先在三個不同量級的數(shù)據(jù)集上進行了實驗,分別是小規(guī)模的 IWSLT 、中規(guī)模的 OPUS-100 和大規(guī)模的 WMT 。作者將 CIAT 和多語言機器翻譯的強基線模型進行對比,其中包括基于知識蒸餾 (KD) [7]的方法和傳統(tǒng)的串聯(lián)式 Adapter (Serial Adapter) [6]。此外,作者還通過縮減 Adapter 的數(shù)量設計了兩種模型變體,記作 CIAT-basic 和 CIAT-block 。
圖7:在三個不同規(guī)模數(shù)據(jù)集上,CIAT 和基線模型的效果對比。柱狀圖繪制的是數(shù)據(jù)集內(nèi)其他語向翻譯到英語的 BLEU 算術(shù)平均值。
可以看到,在三種不同規(guī)模的數(shù)據(jù)集上,CIAT 都能穩(wěn)定地提升多語言機器翻譯的性能。在三個數(shù)據(jù)集共66個語向中,CIAT 在64個語向上超過了所有多語言基線模型,并在其中42個語向上取得了至少0.5個 BLEU 分數(shù)的領先。
六、對兩種 Adapter 的詳細討論
作者還分別論述了兩種 Adapter 如何減少多語言詞嵌入缺陷和多語言擾動的影響。
對于 Embedding Adapter ,作者比較了增加 Embedding Adapter 前后,跨語言同義詞間的平均余弦詞嵌入相似度 (Average Cosine Similarity) ,這個指標被常用來衡量模型能否準確地對齊同義詞間信息。
圖8:OPUS 數(shù)據(jù)集上,CIAT 添加 Embedding Adapter 前后,跨語言同義詞 ACS 的值
實驗結(jié)果展示了在增加 Embedding Adapter 后,模型有效地拉進了跨語言同義詞間距離,這一現(xiàn)象在英語翻譯到其他語種時尤為顯著。
對于Layer Adapter,作者則是通過消融實驗分別去除編碼器、解碼器中連續(xù)的若干層 Adapter 來觀察模型性能是否下降。
圖9:熱圖顯示了從 CIAT 中直接去除連續(xù)的若干層 Adapter 導致的性能下降相對值。x軸和y軸分別表示被移出的首層和末層的序號數(shù)。例如 x=2,y=4 的格子就代指移除了第2,3,4層的 Layer Adapter 導致的性能下降相對值。
作者的消融實驗有兩個發(fā)現(xiàn):
1. 比起編碼器側(cè),解碼器的 Layer Adapter 能更好地緩解多語言干擾;
2. 較層級的 Layer Adapter 對于緩解多語言干擾的貢獻更大。
為了更好地說明 CIAT 對多語言翻譯的提升,作者還采樣了部分翻譯例子。與其他模型相比,CIAT 的用詞更加精準、句式更加接近人類的語言習慣:Multilingual Transformer 沒有翻譯成功 “residents of Bergle”,Serial Adapter 混淆了 “bewohner” 和 “einwohner”。這一系列的實驗都說明了作者設計的兩種 Adapter 能夠較好地緩解論文提出的多語言機性能下降的兩大問題。
圖10:WMT數(shù)據(jù)集上的樣例,mTransformer 代指 Multilingual Transformer
七、總結(jié)
今天介紹的 EMNLP Finding 論文研究多語言機器翻譯問題。論文首先分析并指出了多語言機器翻譯性能下降的兩種原因:分別是多語言詞嵌入缺陷和多語言擾動。在此基礎上,作者利用 Adapter 技術(shù),設計了 CIAT 架構(gòu)來解決這兩大問題。
實驗表明,在引入極少量額外參數(shù)的情況下,CIAT 架構(gòu)能夠有效地緩解多語言詞嵌入缺陷和擾動,并能有效提升多語言機器翻譯的性能。
參考文獻
[1] Johnson, Melvin, et al. “Google’s multilingual neural machine translation system: Enabling zero-shot translation.” Transactions of the Association for Computational Linguistics 5 (2017): 339-351.
[2] Aharoni, Roee, Melvin Johnson, and Orhan Firat. “Massively Multilingual Neural Machine Translation.” Proceedings of NAACL-HLT. 2019.
[3] Liu, Pengfei, Xipeng Qiu, and Xuan-Jing Huang. “Adversarial Multi-task Learning for Text Classification.” Proceedings of ACL. 2017.
[4] Rebuffi, Sylvestre-Alvise, Hakan Bilen, and Andrea Vedaldi. “Learning multiple visual domains with residual adapters.” Proceedings of NIPS. 2017.
[5] Vaswani, Ashish, et al. “Attention is all you need.” Proceedings of NIPS. 2017.
[6] Bapna, Ankur, and Orhan Firat. “Simple, Scalable Adaptation for Neural Machine Translation.” Proceedings of EMNLP-IJCNLP. 2019.
[7] Tan, X., Ren, Y., He, D., Qin, T., Zhao, Z., & Liu, T. Y. Multilingual Neural Machine Translation with Knowledge Distillation. Proceedings of ICLR. 2019.
Illustrastion by Marina Mogulskaya from Icons8
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(www.techbeat.net)。社區(qū)上線330+期talk視頻,900+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標明作者信息。
我們會選擇部分在深度技術(shù)解析及科研心得方向,
對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵。
投稿方式
發(fā)送郵件到
chenhongyuan@thejiangmen.com
本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
陳根:32種語言可翻譯,人工智能追趕翻譯需求
低資源神經(jīng)機器翻譯MetaNMT :來自MAML與NLP的溫柔救贖
聊聊機器翻譯系統(tǒng)在線更新方法KSTER
一種鏡像生成式機器翻譯模型:MGNMT | ICLR 2020滿分論文解讀
綜述 | 跨語言自然語言處理筆記
EMNLP 2019 | 大規(guī)模利用單語數(shù)據(jù)提升神經(jīng)機器翻譯
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服