中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
微軟亞洲研究院周明 | 從語(yǔ)言智能到代碼智能


微軟亞洲研究院副院長(zhǎng)周明老師報(bào)告:From Language Intelligence to Code Intelligence Based on Pre-trained Models

感謝周明老師的分享以及Windy同學(xué)的筆記,完整報(bào)告內(nèi)容文末閱讀原文一鍵直達(dá)。

TL;DR

代碼智能(Code Intelligence)旨在使計(jì)算機(jī)具備理解和生成代碼的能力,并利用編程語(yǔ)言知識(shí)和上下文進(jìn)行推理,支持代碼檢索、補(bǔ)全、翻譯、糾錯(cuò)、問(wèn)答等場(chǎng)景。

以深度學(xué)習(xí)為代表的人工智能算法,近年來(lái)在視覺(jué)、語(yǔ)音和自然語(yǔ)言理解任務(wù)上取得了飛躍式的突破。最近基于Transformer的預(yù)訓(xùn)練模型大大推動(dòng)了自然語(yǔ)言處理和多模態(tài)的技術(shù)進(jìn)步。而基于最新的自然語(yǔ)言技術(shù)與編程語(yǔ)言知識(shí)相融合的代碼智能的研究也受到越來(lái)越多的關(guān)注。

本報(bào)告將介紹微軟亞洲研究院自然語(yǔ)言計(jì)算組在該研究領(lǐng)域的一系列最新進(jìn)展,包括針對(duì)代碼智能的預(yù)訓(xùn)練模型(CodeBERT/CodeGPT)、基準(zhǔn)數(shù)據(jù)集(CodeXGLUE)和融合了編程語(yǔ)言句法和語(yǔ)義信息的新的評(píng)價(jià)指標(biāo)(CodeBLEU)。最后,本報(bào)告研討該領(lǐng)域目前存在的主要問(wèn)題并探索未來(lái)的發(fā)展方向。

報(bào)告筆記如下。

一、語(yǔ)言智能和預(yù)訓(xùn)練

這幾年NLP領(lǐng)域里程碑式的工作

  • word embedding (2013)
  • sentence embedding
  • encoder-decoder with attention (2014)
  • Transformer(2016)考慮到RNN并行能力弱(self-attention),只有一個(gè)特征抽取 (multi-head)
  • Pre-trained Model (self-supervised地把大規(guī)模語(yǔ)料中上下文相關(guān)的語(yǔ)義表示學(xué)出來(lái),再fine-tuning)

為什么要做預(yù)訓(xùn)練模型?

  1. 顯式表征了句法和語(yǔ)義知識(shí)
  2. 體現(xiàn)了遷移學(xué)習(xí)的特點(diǎn),幫助低資源情況
  3. 幾乎支持所有NLP任務(wù),而且都取得了不錯(cuò)的效果
  4. 可擴(kuò)展性比較好,降低了NLP門(mén)檻

Self-supervised Learning方法

利用數(shù)據(jù)自然特點(diǎn),不需要人工標(biāo)注

  1. autoregressive(AR) LM
  2. auto-encoding (AE)

總結(jié)預(yù)訓(xùn)練模型的相關(guān)工作(見(jiàn)下圖)

預(yù)訓(xùn)練模型的發(fā)展趨勢(shì)

  • 模型越來(lái)越大(消耗資源,且不利于非企業(yè)研究)
  • 預(yù)訓(xùn)練方法和模型不斷創(chuàng)新
  • 從單語(yǔ)到多語(yǔ),到多模態(tài),到程序語(yǔ)言
  • 模型壓縮,知識(shí)蒸餾

微軟工作總覽

微軟預(yù)訓(xùn)練模型介紹

  1. 「UniLM」(Dong et al.,2019)

    • GPT是單向,適合做生成;
    • Bert是雙向,適合做理解。
    • 能否合成?用了一個(gè)統(tǒng)一架構(gòu)三個(gè)部分做多任務(wù)學(xué)習(xí)。
  2. 「Unicoder for Understanding」 (Huang et al.,2019)

    • 多語(yǔ)言;
    • 增加contrastive learning任務(wù)判斷是否構(gòu)成互譯。
  3. 「Unicoder for Generation」 (Liang et al.,2020)

    • 由于2不能做生成而提出;
    • 對(duì)輸入加噪,試圖在解碼時(shí)去噪。
  4. 「Unicoder一VL for Images」 (Li et al, 2020)

    • 到圖像上的預(yù)訓(xùn)練,考慮圖片+注釋。
  5. 「Unicoder一VL for Videos」 (Luo et al., 2020)

    • 同理,做視頻的預(yù)訓(xùn)練,多任務(wù)訓(xùn)練得到,融入了文本信息。
  6. 「LayoutLM: Text+Layout Pre 一training」

    • 文檔的預(yù)訓(xùn)練(考慮了排版的信息,OCR結(jié)果的位置信息)

應(yīng)用

  • QA
  • Question Generation
  • Multilingual QA
  • Multilingual News Headline Generation
  • Image Search
  • Document Understanding
  • Video Chaptering

XCLUE基準(zhǔn)

二、代碼智能 (基于預(yù)訓(xùn)練模型)

能不能把自然語(yǔ)言的方法應(yīng)用到代碼領(lǐng)域,提高效率?

已有工作

  • excel檢測(cè)已經(jīng)完成的部分
  • 從自然語(yǔ)言的query通過(guò)parsing到SQL
  • GPT-3代碼生成(從自然語(yǔ)言描述到代碼塊)

現(xiàn)成資源

模型

  1. 「CodeBERT」 (Model-1)

    • baseline,在數(shù)據(jù)基礎(chǔ)上直接訓(xùn)練一個(gè)Bert。
  2. 「CodeBERT (Model-2): Pre-Train with Code + Text」

    • 考慮到代碼有自己的特點(diǎn)(注釋)。
  3. 「CodeBERT (Model-3): Pre-Train with Code + Text + Structure」

    • 除了注釋還考慮到代碼有結(jié)構(gòu)(AST),變量有依賴或順序關(guān)系。
  4. 「CodeGPT」

下游任務(wù)

  1. 找到和輸入自然語(yǔ)言串符合的code
  2. 寫(xiě)了一段代碼,補(bǔ)足下一個(gè)詞
  3. 找到bug并且修改
  4. 不同語(yǔ)言的代碼之間的翻譯(低資源問(wèn)題,如何應(yīng)用單語(yǔ)數(shù)據(jù))

CodeXGLUE數(shù)據(jù)集和任務(wù)匯總

成本估算

評(píng)測(cè)

基于3點(diǎn):不同詞的權(quán)重不同,AST的匹配,語(yǔ)義一致(看變量是否一致)

評(píng)測(cè)本身是否好?(看哪種評(píng)價(jià)和人工評(píng)價(jià)最吻合)

總結(jié)

未來(lái)的工作方向

提問(wèn)

問(wèn):從高校的角度如何在預(yù)訓(xùn)練方面工作?

答:

  1. 不要軍備競(jìng)賽或者拼蠻力,應(yīng)該做方法論,例如如何融入知識(shí);
  2. 小模型能否做很好的工作;模型壓縮,知識(shí)萃?。?/section>
  3. fine-tune也有很多工作,什么樣的方法微調(diào)會(huì)比較好;
  4. 擴(kuò)展應(yīng)用領(lǐng)域;
  5. 跨學(xué)科工作。

問(wèn):代碼自動(dòng)生成的規(guī)則是硬約束還是自動(dòng)學(xué)習(xí),如何保證正確性?

答:NLP工作者只知道串對(duì)串,對(duì)幾個(gè)詞的不同比較寬容,但編程只要錯(cuò)一點(diǎn)就沒(méi)法運(yùn)行。如何評(píng)測(cè)是需要考慮的,目前沒(méi)有很好的辦法數(shù)字化衡量,例如可執(zhí)行性,但邏輯性效率等都可以做一些模擬工作,希望大家未來(lái)想辦法自動(dòng)評(píng)價(jià)

問(wèn):想關(guān)注跨模態(tài)工作前景?

答:以前從其他領(lǐng)域借鑒了很多方法,挪到了NLP;后來(lái)NLP的transformer等等,有更好的預(yù)訓(xùn)練模型,可以反攻其他領(lǐng)域了。這件事是NLP工作者應(yīng)該好好考慮的,一切序列化的任務(wù)都可以看作自然語(yǔ)言任務(wù),提高相關(guān)領(lǐng)域的技術(shù)發(fā)展,反哺其他領(lǐng)域。

一起交流

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
?新預(yù)訓(xùn)練模型CodeBERT出世,編程語(yǔ)言和自然語(yǔ)言都不在話下,哈工大、中山大學(xué)、MSRA出品
2020年技術(shù)新希望已現(xiàn)?這一次AI又要革誰(shuí)的命
文本 視覺(jué),多篇 Visual/Video BERT 論文介紹
微軟亞洲研究院NLP與語(yǔ)音領(lǐng)域2019-2020推薦論文列表
四季度業(yè)績(jī)大漲、文心一言上線在即,百度估值邏輯醞釀“蝶變”
“文心一言”開(kāi)道,百度智能云“狂飆”
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服