中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
Facebook AI Research的XLM模型:將BERT擴(kuò)展成跨語(yǔ)言模型

近年來(lái),預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn)極大地推動(dòng)了自然語(yǔ)言處理領(lǐng)域的發(fā)展。相較于普通的詞向量,諸如ELMo, GPT, BERT將上下文信息也編碼到詞向量以及文本向量中,從而收獲了比普通詞向量更強(qiáng)的表達(dá)能力,在一定程度上也減輕了在文本表示中詞語(yǔ)歧義性、多義性所帶來(lái)的問(wèn)題。

而在今年年初,F(xiàn)acebook AI Research發(fā)布了他們的XLM模型,在原有的BERT模型上進(jìn)行了預(yù)訓(xùn)練目標(biāo)升級(jí),成功地將BERT擴(kuò)展成了跨語(yǔ)言模型,并在跨語(yǔ)言數(shù)據(jù)集上取得了很好的成果。

盡管原有的BERT模型可以在上百種語(yǔ)言上進(jìn)行預(yù)訓(xùn)練,語(yǔ)言之間的信息并不是互通的,不同的語(yǔ)言模型之間沒(méi)有共享知識(shí)。Facebook的XLM模型克服了信息不互通的難題,將不同語(yǔ)言放在一起采用新的訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練,從而讓模型能夠掌握更多的跨語(yǔ)言信息。這種跨語(yǔ)言模型的一個(gè)顯著優(yōu)點(diǎn)是,對(duì)于預(yù)訓(xùn)練后的后續(xù)任務(wù)(比如文本分類(lèi)或者翻譯等任務(wù)),訓(xùn)練語(yǔ)料較為稀少的語(yǔ)言可以利用在其他語(yǔ)料上學(xué)習(xí)到的信息。

在數(shù)據(jù)預(yù)處理方面,F(xiàn)acebook使用了BPE(Byte Pair Encoding)對(duì)所有15種訓(xùn)練語(yǔ)言進(jìn)行了切割。這對(duì)于在字母表上有很多重疊的語(yǔ)言,比如English-French和Nepali-Hindi,在alignment上有很大的提升效果。

為了減輕不同語(yǔ)言語(yǔ)料頻率的不均衡給BPE帶來(lái)的影響,訓(xùn)練樣本從新的分布中進(jìn)行采樣。在下圖中選取alpha=0.5,可以提高訓(xùn)練預(yù)料較少的語(yǔ)言出現(xiàn)的頻率,這可以防止小語(yǔ)種在BPE的過(guò)程中直接被切割成單個(gè)字符。

在論文中,F(xiàn)acebook采用了三種語(yǔ)言模型:

  • CLM(Casual Language Modeling)

  • MLM(Masked Language Modeling)

  • TLM(Translation Language Modeling)

其中最有成效的XLM是MLM與TLM的結(jié)合。

CLM

CLM的做法是直接使用Transformer來(lái)預(yù)測(cè)下一個(gè)詞,是傳統(tǒng)的語(yǔ)言模型的做法。

MLM

- MLM的做法和BERT基本一致:對(duì)于輸入的語(yǔ)句,按一定概率(15%)遮住一些詞,在模型的末尾預(yù)測(cè)這些被遮住的詞。在這里,F(xiàn)acebook和Google的BERT做法的差別是,他們使用了任意數(shù)量的句子拼接,并取256個(gè)詞階段,而非BERT原本使用的兩個(gè)句子。類(lèi)似地,為了平衡高頻詞低頻詞之間的差異,在遮住詞的時(shí)候采用了與上文所述的重采樣類(lèi)似的方法。

TLM

在TLM中,輸入的是兩個(gè)意思相同語(yǔ)言不同的句子(比如“I ate an apple”和“我吃了一個(gè)蘋(píng)果”),用句子分隔符拼接起來(lái),整體作為模型的輸入。然后再按照一定概率遮住一些詞,再去預(yù)測(cè)這些詞。MLM的訓(xùn)練方法,可以讓模型利用其上下文信息預(yù)測(cè)被遮住的詞。而TLM則是讓模型不僅能利用這句話(huà)本身的上下文信息,而且同時(shí)能利用不同語(yǔ)言的翻譯的信息,來(lái)預(yù)測(cè)被遮住的詞。這樣,模型就可以將跨語(yǔ)言信息編碼到表征向量中。在XLM中,TLM和MLM交替訓(xùn)練,其中MLM的部分每次輸入的一個(gè)batch內(nèi)只包含一種語(yǔ)言。

除此之外,在XLM模型中,對(duì)于原來(lái)BERT中使用的Transformer也進(jìn)行了改動(dòng),以更好地適用在跨語(yǔ)言場(chǎng)景下。在表示詞相對(duì)句子位置的Positional Embedding中,TLM對(duì)拼接后的句子進(jìn)行了位置重置,也就是接在后面的翻譯句子的詞下標(biāo)重新從0開(kāi)始計(jì)數(shù)。另外,在Positional Embedding的基礎(chǔ)上加入了Language Embedding,用來(lái)區(qū)分不同語(yǔ)言的輸入。

模型細(xì)節(jié)

在模型的細(xì)節(jié)方面,XLM模型采用了具有1024 hidden units, 8-head的多層(文本分類(lèi)12層,機(jī)器翻譯6層)Transformer以及GELU激活層,詞匯表大小是95k。同時(shí)XLM模型使用了16位浮點(diǎn)數(shù)壓縮模型空間,加快訓(xùn)練速度。

預(yù)訓(xùn)練數(shù)據(jù)集

在預(yù)訓(xùn)練數(shù)據(jù)集上,F(xiàn)acebook使用了WikiExtractor得到的Wikipedia語(yǔ)料作為CLM和MLM的訓(xùn)練預(yù)料。對(duì)于TLM,F(xiàn)acebook使用了與MultiUN/IIT Bombay corpus/EUBookshop/OpenSubtitles等與英語(yǔ)有對(duì)照數(shù)據(jù)的數(shù)據(jù)集。其中,中文、日文和泰文使用了相對(duì)應(yīng)的Tokenizer進(jìn)行了切詞。其他語(yǔ)言則統(tǒng)一使用Moses。

預(yù)訓(xùn)練效果

在預(yù)訓(xùn)練效果上,使用平行語(yǔ)料(意思相同語(yǔ)言不同的句子對(duì)),可以降低Perplexity指數(shù)。下圖中,因?yàn)镹epali和Hindi之間字母表上有很大重疊,語(yǔ)言關(guān)系比較近,而跟英語(yǔ)之間則關(guān)系不大,所以引入英語(yǔ)對(duì)于Nepali帶來(lái)的提升沒(méi)有引入Hindi帶來(lái)的提升多。

論文中選擇了跨語(yǔ)言文本分類(lèi)和機(jī)器翻譯作為預(yù)訓(xùn)練之后的下游任務(wù)。

跨語(yǔ)言文本分類(lèi)

對(duì)于跨語(yǔ)言文本分類(lèi),論文采用模型的最后一層的第一個(gè)輸出向量作為后續(xù)線性分類(lèi)器的輸入,在英語(yǔ)的訓(xùn)練預(yù)料上進(jìn)行擬合,然后在所有15個(gè)語(yǔ)言上做測(cè)試。使用的數(shù)據(jù)集是XNLI(Cross-Lingual Natural Language Inference),其中Natural Language Inference的任務(wù)是判斷兩個(gè)來(lái)自相同語(yǔ)言的句子之間是否有Entailment, Contradict或者Natural的關(guān)系。XNLI數(shù)據(jù)集包含近40萬(wàn)條英語(yǔ)訓(xùn)練預(yù)料和上千條測(cè)試數(shù)據(jù)。

無(wú)監(jiān)督機(jī)器翻譯

對(duì)于無(wú)監(jiān)督機(jī)器翻譯,相比于之前的其他工作所用的預(yù)訓(xùn)練跨語(yǔ)言詞向量,F(xiàn)acebook使用了完整的預(yù)訓(xùn)練編碼器解碼器作為后續(xù)訓(xùn)練的初始設(shè)定。

上圖是模型在文本分類(lèi)(XNLI數(shù)據(jù)集)上的表現(xiàn)。其中TRANSLATE-TRAIN是通過(guò)將所有的英語(yǔ)訓(xùn)練語(yǔ)料翻譯成其他語(yǔ)言;TRANSLATE-TEST是將測(cè)試集翻譯成英語(yǔ)。可以看到XLM模型相較于之前的模型有很顯著的提升。

上圖是模型在無(wú)監(jiān)督機(jī)器翻譯上的表現(xiàn)

上圖是模型在監(jiān)督機(jī)器翻譯任務(wù)上的表現(xiàn)

在無(wú)監(jiān)督和監(jiān)督機(jī)器翻譯任務(wù)上,MLM也表現(xiàn)出了很好的效果。

Facebook將從XLM中得到的跨語(yǔ)言詞向量與之前的工作作比較,XLM的表現(xiàn)非常出色。

XLM模型的代碼公開(kāi)在https://github.com/facebookresearch/XLM .

原文 Lample, Guillaume, and Alexis Conneau. "Cross-lingual Language Model Pretraining." arXiv preprint arXiv:1901.07291(2019).


AI Time:論道AI安全與倫理

時(shí)間:5月31日15:00-17:00

地點(diǎn):清華科技園1911主題餐廳

歡迎各位前來(lái)參加!

出席嘉賓:

清華大學(xué)人工智能研究院院長(zhǎng)張鈸

中國(guó)人民大學(xué)高瓴人工智能學(xué)院院長(zhǎng)文繼榮

搜狐智能媒體研發(fā)中心負(fù)責(zé)人 楊田

主持人:

清華大學(xué)副教授劉知遠(yuǎn)

搜狐集團(tuán)招聘負(fù)責(zé)人付卓艷

趕快戳下方小程序進(jìn)入報(bào)名通道!

合作媒體:學(xué)術(shù)頭條 搜狐

學(xué)術(shù)頭條已建立微信交流群,想進(jìn)群的同學(xué)請(qǐng)加學(xué)術(shù)君微信:AMiner308,記得備注:名字+單位/學(xué)校噢!

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
XLM: 跨語(yǔ)言的Bert
站在BERT肩膀上的NLP新秀們(PART II)
Facebook最新的龐大語(yǔ)言AI遭遇計(jì)算瓶頸,哪怕使用500個(gè)英偉達(dá)GPU!
一文看盡2019全年AI技術(shù)突破
很遺憾,自然語(yǔ)言理解是AI尚未攻克的領(lǐng)域
NLP領(lǐng)域預(yù)訓(xùn)練模型的現(xiàn)狀及分析
更多類(lèi)似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服