中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
騰訊發(fā)布萬億大模型訓(xùn)練方法:最快256卡1天訓(xùn)完萬億NLP大模型

現(xiàn)在,最快用256張卡,1天內(nèi)就能訓(xùn)練完成,成本直接降至原來的1/8。

這項最新進展,來自騰訊混元AI大模型(下文簡稱HunYuan)。

這也是國內(nèi)首個低成本、可落地的NLP萬億大模型。

如此“混元”,背后有怎樣的技術(shù)細節(jié)?

來自研究團隊的詳細技術(shù)解讀,我們一起來看~

概述

預(yù)訓(xùn)練的提出使得人工智能進入全新的時代,引發(fā)了學(xué)術(shù)界和工業(yè)界的研究熱潮。

隨著算力的發(fā)展,模型容量持續(xù)提升,模型通用性和泛化能力也更強,研究大模型成為了近兩年的趨勢。國內(nèi)外頭部科技公司均有布局,發(fā)布了若干千億規(guī)模以上的大模型。

然而,面對參數(shù)量進一步擴大,業(yè)界并沒有在高速網(wǎng)絡(luò)、訓(xùn)練框架、模型算法和落地應(yīng)用等方面有全面深入的公開性研究。

基于騰訊強大的底層算力和低成本高速網(wǎng)絡(luò)基礎(chǔ)設(shè)施,混元AI大模型依托騰訊領(lǐng)先的太極機器學(xué)習(xí)平臺,推出了HunYuan-NLP 1T大模型并一度登頂國內(nèi)最權(quán)威的自然語言理解任務(wù)榜單CLUE。

該模型作為業(yè)界首個可在工業(yè)界海量業(yè)務(wù)場景直接落地應(yīng)用的萬億NLP大模型,先后在熱啟動和課程學(xué)習(xí)、MOE路由算法、模型結(jié)構(gòu)、訓(xùn)練加速等方面研究優(yōu)化,大幅降低了萬億大模型的訓(xùn)練成本。

用千億模型熱啟動,最快僅用256卡在一天內(nèi)即可完成萬億參數(shù)大模型HunYuan-NLP 1T的訓(xùn)練,整體訓(xùn)練成本僅為直接冷啟動訓(xùn)練萬億模型的1/8。

此外,業(yè)界基于萬億大模型的應(yīng)用探索極少,對此騰訊研發(fā)了業(yè)界首個支持萬億級MOE預(yù)訓(xùn)練模型應(yīng)用的分布式推理和模型壓縮套件“太極-HCF ToolKit”,實現(xiàn)了無需事先從大模型蒸餾為中小模型進而推理,即可使用低成本的分布式推理組件/服務(wù)直接進行原始大模型推理部署,充分發(fā)揮了超大預(yù)訓(xùn)練模型帶來的模型理解和生成能力的躍升。

目前HuanYuan-NLP 1T大模型已在騰訊多個核心業(yè)務(wù)場景落地,并帶來了顯著的效果提升。

騰訊混元AI大模型協(xié)同了騰訊預(yù)訓(xùn)練研發(fā)力量,旨在打造業(yè)界領(lǐng)先的AI預(yù)訓(xùn)練大模型和解決方案(如下圖),以統(tǒng)一的平臺,實現(xiàn)技術(shù)復(fù)用和業(yè)務(wù)降本,支持更多的場景和應(yīng)用。當前騰訊混元AI大模型(以下簡稱混元AI大模型或HunYuan)完整覆蓋NLP大模型、CV大模型、多模態(tài)大模型、文生圖大模型及眾多行業(yè)/領(lǐng)域任務(wù)模型。

背景

2018年提出的BERT模型[1],其規(guī)模最大為3億參數(shù),隨后圍繞億級別參數(shù)規(guī)模的模型,有各種模型結(jié)構(gòu)和訓(xùn)練方法的探索,包括Roberta[2]、ALBERT[3]等,模型結(jié)構(gòu)和訓(xùn)練方法是提升模型能力的重要手段。

各大主流任務(wù)和工業(yè)界的關(guān)鍵業(yè)務(wù)(搜索、廣告、推薦等)得益于預(yù)訓(xùn)練的能力,取得了顯著的提升。對于工業(yè)界來說,隨著業(yè)務(wù)的發(fā)展,小模型已經(jīng)不能滿足業(yè)務(wù)進一提升的需求,所以在大模型方向探索成為主流。

大模型對工業(yè)界來說,是一場變革,為業(yè)務(wù)帶來更多的便利和更小的使用成本。

以前各個業(yè)務(wù)各自維護自己的小模型,標注和訓(xùn)練成本集中在下游,當業(yè)務(wù)需要提升模型規(guī)模,則需標注更大量的數(shù)據(jù)避免過擬合;同時各個業(yè)務(wù)單獨訓(xùn)練模型需要耗費大量資源,但是產(chǎn)出的模型可復(fù)用性差,很難遷移到其他業(yè)務(wù)。

預(yù)訓(xùn)練大模型將更多的資源和數(shù)據(jù)轉(zhuǎn)移到上游,集中力量辦大事,海量數(shù)據(jù)訓(xùn)練的大模型提供給各個業(yè)務(wù),只需要用很少的標注數(shù)據(jù)微調(diào),就可以取得較好的效果,從而降低了業(yè)務(wù)的使用成本。

大模型的發(fā)展

下圖展示了近幾年NLP預(yù)訓(xùn)練模型規(guī)模的發(fā)展,模型已經(jīng)從億級發(fā)展到了萬億級參數(shù)規(guī)模。具體來說,2018年BERT模型最大參數(shù)量為340M,引發(fā)了預(yù)訓(xùn)練的熱潮。2019年GPT-2為十億級參數(shù)的模型[4]。2020年發(fā)布的百億級規(guī)模有T5[5]和T-NLG[6],以及千億參數(shù)規(guī)模的GPT-3[7]。2021年1.6萬億的MoE模型Switch Transformer[8]發(fā)布,首次將模型規(guī)模提升到萬億。

△M百萬,B十億,T萬億

業(yè)界做大模型有兩種流派,MoE和Dense(稠密)模型流派。

下圖(a)是Dense模型的Transformer Block,在訓(xùn)練過程中,所有FFN和SA層的參數(shù)都是激活的,所以訓(xùn)練成本高。MoE是一種稀疏的模型結(jié)構(gòu),通過引入路由,只激活部分FFN(專家)的參數(shù)參與計算,從而能夠節(jié)約訓(xùn)練成本。下圖(b)是MoE模型的Transformer Block,該樣例中FFN由3個專家組成,路由每次只激活其中1個專家。騰訊發(fā)布的HunYuan-NLP 1T大模型采用了MoE結(jié)構(gòu)。

自研萬億MoE模型依據(jù)

1. 模型規(guī)模的提升能持續(xù)提升效果是做大模型的前提,如果增大規(guī)模不能持續(xù)大幅的提升模型效果,那么我們不值得投入高成本做大模型。這點GLaM[12]論文中已經(jīng)得到了驗證,當模型規(guī)模從0.1B/64E提升到64B/64E的時候,下游NLU和NLG任務(wù)的指標可以持續(xù)提升,且看上去不存在邊際效益遞減的情況。

2. 模型需要先做大后做小,大模型雖然能穩(wěn)定提升下游任務(wù)效果,但實際在線業(yè)務(wù)使用的往往是壓縮之后的小模型,用大模型壓縮之后的小模型比直接訓(xùn)練小模型效果好,也是做大模型的關(guān)鍵依據(jù),這點也在多個文章中被論證。

Switch Transformer用大模型蒸餾小模型,依然能保留大比例效果提升;此外,ICML2020[13]的文章也驗證了先訓(xùn)練大模型后壓縮,比直接訓(xùn)練小模型效果更好。

因此,模型需要先做大后壓縮,才能取得更可觀的收益。

3. 大模型包括了MoE稀疏模型和Dense稠密模型,我們的HunYuan-NLP 1T大模型基于MoE開展,主要依據(jù)如下:

(1)在多篇文章中論述了相同的資源和計算量前提下,MoE模型效果優(yōu)于稠密模型,包括[8]和[14]。[8]通過提升專家數(shù)量,計算量沒有增加,模型的性能持續(xù)提升。[14]在相同的計算量前提下,MoE模型效果優(yōu)于Dense模型。

(2)相同規(guī)模的大模型,MoE模型的訓(xùn)練和推理效率更高,對資源的消耗更小。

模型算法

模型配置

挑戰(zhàn)描述:(1)基于MoE模型,業(yè)界尚未有關(guān)于大模型專家數(shù)量上限的結(jié)論,配置專家規(guī)模和數(shù)量需要探索;(2)理論上只擴展專家數(shù)量提升模型規(guī)模是有瓶頸的,即不能無限擴大專家數(shù)量。

解決方案:在小規(guī)模模型上(千萬級),通過擴大專家數(shù)量提升模型規(guī)模,我們發(fā)現(xiàn)專家數(shù)量的提升對下游任務(wù)(多個下游任務(wù)均值)效果是有瓶頸的。

下圖為專家數(shù)量和下游任務(wù)效果的關(guān)系圖,當專家數(shù)量提升到2000左右,效果提升開始減弱,當進一步提升專家數(shù)量到3000,下游任務(wù)指標不增反降。所以我們基于30億的Dense模型擴展HunYuan-NLP 1T大模型,專家數(shù)量設(shè)置為1536個。

熱啟動和課程學(xué)習(xí)

挑戰(zhàn)描述,模型規(guī)模越大,需要喂越多的數(shù)據(jù),對于萬億參數(shù)規(guī)模的模型,在有限的資源內(nèi)訓(xùn)練收斂是非常有挑戰(zhàn)的(業(yè)界萬億參數(shù)的模型基本需要~7000億tokens)。

解決方案,熱啟動+模型規(guī)模課程學(xué)習(xí)的策略,我們借鑒了課程學(xué)習(xí)的思想,首先在小規(guī)模的模型上訓(xùn)練收斂,然后將小模型的知識遷移到大模型,逐步增加模型的規(guī)模。具體來說,如下圖(a)所示,我們先訓(xùn)練只有一個專家的Dense模型,然后,如圖下(b)通過擴展專家數(shù)量把模型規(guī)模提升到千億規(guī)模并訓(xùn)練收斂,最后繼續(xù)通過增加專家數(shù)量把模型規(guī)模提升到萬億直至收斂如下圖(c)。

關(guān)鍵成果,千億規(guī)模以下的模型訓(xùn)練成本相對于萬億少一個數(shù)量級,而萬億在千億的基礎(chǔ)上只需要很少的迭代就能到達較好的水平。具體來說,我們在千億的基礎(chǔ)上擴展萬億,只需訓(xùn)練~1天/256卡,即可在下游任務(wù)效果上超過千億~10%。

注意力權(quán)重復(fù)制

挑戰(zhàn)描述:Transformer主要由SA層和FFN層組成,SA層計算Attention Weights,并加權(quán)。Attention Weights的計算時間復(fù)雜度很高(和序列長度成平方級關(guān)系)。

解決方案:我們發(fā)現(xiàn)Attention Weights在不同層之間的差異性不大。一個直接的想法是只在第一層計算Attention Weights,在其它層復(fù)用這些值,那么整個模型Attention Weights的計算復(fù)雜度降低為原來的1/N,如下圖(b)所示。但是,通過實驗發(fā)現(xiàn),這種方法對效果是有損失的。因此我們對模型做了進一步改進,在每一層我們隨機擲骰子,有p的概率重新計算Attention Weights,1-p的概率復(fù)用上一層的Attention Weights。通過實驗發(fā)現(xiàn),當p設(shè)置為50%,模型效果無損,Attention Weights總的時間復(fù)雜度降低50%。

關(guān)鍵效果:大模型預(yù)訓(xùn)練提速~20%,下游任務(wù)指標略正。

詞向量路由機制

挑戰(zhàn)描述,原來的Routing方法以Self-Attention的輸出作為輸入,有幾個缺點:首先路由和詞本身的關(guān)聯(lián)隨著SA對信息的加工逐漸變?nèi)?。其次不同層之間的Self-Attn輸出差異很大,路由的穩(wěn)定性比較差。如下圖(左),對于相同的詞“我”,路由分配到不同的專家(專家1和專家2)。

解決方案,我們引入了額外的詞向量用于專家的路由,把路由和Attention層輸出解耦。如下圖(右)所示,相同的詞的路由向量相同,所以它們從始至終分配到相同的專家提取特征,不僅保證了路由穩(wěn)定性而且加速了收斂。

公開評測

CLUE 介紹

CLUE是中文最權(quán)威的自然語言理解榜單,主榜單總共包含了9個任務(wù)(6個分類任務(wù)和3個閱讀理解任務(wù))。

其中6個分類任務(wù)形成了分類榜單,3個閱讀理解任務(wù)形成了閱讀理解榜單。

這些任務(wù)是來自不同領(lǐng)域、不同場景的文本分類、句間關(guān)系判斷、指代消解、閱讀理解等任務(wù),涵蓋的場景和搜索、廣告、推薦等業(yè)務(wù)場景高度契合,因此對預(yù)訓(xùn)練模型的通用理解能力挑戰(zhàn)非常大,也對模型在不同領(lǐng)域、不同數(shù)據(jù)質(zhì)量和數(shù)量的下游任務(wù)的知識遷移能力要求非常高。

阿里、百度、美團、華為、快手等各大公司都在中文預(yù)訓(xùn)練模型上發(fā)力,并且在CLUE榜單上提交驗證,競爭非常激烈。

關(guān)鍵結(jié)果

如下圖所示,我們提交的HunYuan-NLP 1T模型,取得了SOTA的結(jié)果,超過了其他公司的預(yù)訓(xùn)練模型。

預(yù)訓(xùn)練加速(太極AngelPTM)

太極是騰訊自主研發(fā)的一站式機器學(xué)習(xí)生態(tài)服務(wù)平臺。為AI工程師打造從數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型評估到模型服務(wù)的全流程高效開發(fā)工具。此次,太極在高速網(wǎng)建設(shè)和訓(xùn)練框架兩方面對大模型訓(xùn)練提供了有力的保障。

訓(xùn)練框架,隨著預(yù)訓(xùn)練模型的參數(shù)不斷增大,模型訓(xùn)練需要的存儲空間顯著增加,如萬億模型僅模型狀態(tài)需要17000多G顯存,僅僅依靠顯存嚴重束縛著模型參數(shù)的擴大。

為了降低顯存的壓力同時擴大模型參數(shù),基于Zero-Infinity的理念我們開發(fā)了太極AngelPTM,其同Zero-Infinity一樣在所有GPU之間partition模型的參數(shù)、梯度、優(yōu)化器狀態(tài),并把參數(shù)、梯度、優(yōu)化器狀態(tài)offload到CPU內(nèi)存,為了最優(yōu)化的利用內(nèi)存和顯存進行模型狀態(tài)的Cache,太極AngelPTM引入了顯存內(nèi)存統(tǒng)一存儲視角,同時太極AngelPTM將多流異步化做到了極致,在充分利用CPU和GPU進行計算的同時最大化的利用帶寬進行數(shù)據(jù)傳輸和NCCL通信,使用異構(gòu)流水線均衡設(shè)備間的負載,最大化提升整個系統(tǒng)的吞吐。

在太極機器學(xué)習(xí)平臺1T內(nèi)存+單卡40G顯存硬件環(huán)境下(由于SSD會以5倍多的速度拖慢訓(xùn)練,萬億模型并未考慮使用SSD作為三級存儲),Zero-Infinity單機最大可容納30B模型,需要至少320張卡訓(xùn)練萬億模型,太極AngelPTM單機最大可容納55B模型,需要192張卡就可以訓(xùn)練萬億模型。相比Zero-Infinity,太極AngelPTM訓(xùn)練速度有2倍提升,節(jié)省40%訓(xùn)練資源。

高速網(wǎng)建設(shè),大規(guī)模、長時間的GPU集群訓(xùn)練任務(wù),對網(wǎng)絡(luò)互聯(lián)底座的性能、可靠性、成本等各方面都提出巨大挑戰(zhàn)。

為了滿足AI大模型訓(xùn)練需求,騰訊打造了星脈高性能網(wǎng)絡(luò),追求網(wǎng)絡(luò)平臺的極致高性能與高可用。

在極致高性能上,采用1.6T超帶寬服務(wù)器接入、流量親和性網(wǎng)絡(luò)架構(gòu)、自研高性能通信庫TCCL,構(gòu)建了1.6T ETH RDMA網(wǎng)絡(luò),實現(xiàn)了AI大模型通信性能的10倍提升,通信時延降低40%,單集群規(guī)模達到2K(最大規(guī)模32K),基于全自研網(wǎng)絡(luò)硬件平臺網(wǎng)絡(luò)建設(shè)成本降低30%,模型訓(xùn)練成本降低30%~60%。

在高可用保障上,通過全自動化部署配置核查,覆蓋服務(wù)器NUMA、PCIE、NVSwitch、網(wǎng)卡、交換機數(shù)百個配置項,并通過實時Service Telemetry技術(shù)監(jiān)控業(yè)務(wù)系統(tǒng)運行效率,保障大規(guī)模集群部署,實現(xiàn)性能實時監(jiān)控與故障告警。

大模型壓縮和分布式推理(太極-HCF ToolKit)

一個典型的預(yù)訓(xùn)練大模型應(yīng)用流程如下所示,為了使大模型能夠在可接受的推理成本下最大化業(yè)務(wù)效果,設(shè)計了一套“先蒸餾后加速”的壓縮方案實現(xiàn)大模型的業(yè)務(wù)落地。

為此騰訊推出了太極-HCF ToolKit,它包含了從模型蒸餾、壓縮量化到模型加速的完整能力。

太極 - HCF distributed(大模型分布式推理組件):我們采取了服務(wù)化teacher大模型來加速蒸餾訓(xùn)練,利用訓(xùn)練框架的分布式能力做大模型推理是一種簡單直接的做法,但是訓(xùn)練框架在推理過程包含很多冗余的步驟,會占用額外的資源,造成不必要的浪費,且無法充分利用現(xiàn)有的單卡推理優(yōu)化能力。

為此我們?nèi)诤戏植际侥芰蛦慰ㄍ评韮?yōu)化構(gòu)建了一套分布式推理的工具HCF-distributed,它兼顧分布式高效推理能力的構(gòu)建和易用性建設(shè)。

基于我們的分布式推理能力,HunYuan-1T大模型推理只需 96張A100(4G) 卡,相比于megatron至少需要160卡,資源設(shè)備占用減少了 40%。

太極 - SNIP(大模型壓縮組件):我們結(jié)合量化、稀疏化和結(jié)構(gòu)化剪枝等多種加速手段,進一步加速了student模型的推理速度。

我們先將大模型蒸餾到較小(bert-base, bert-large)的中間規(guī)模,然后在此基礎(chǔ)上利用模型壓縮手段加速中間規(guī)模模型的推理速度,最終獲得一個效果更好,推理更快的業(yè)務(wù)模型。

在技術(shù)上,我們從蒸餾框架和壓縮加速算法兩方面,實現(xiàn)了迭代更快,效果更好,成本更低的大模型壓縮組件。

應(yīng)用案例

混元AI大模型支持了或正在支持騰訊內(nèi)部諸多業(yè)務(wù),如上圖所示,通過NLP、CV、跨模態(tài)以及圖片生成大模型,不僅為業(yè)務(wù)創(chuàng)造了增量價值而且降低了使用成本。特別是廣告場景的落地應(yīng)用帶來了大幅的GMV提升,驗證了大模型的商業(yè)化能力。接下來,我們通過樣例展示模型在對話生成和小說續(xù)寫的能力。

對話應(yīng)用案例

小說續(xù)寫應(yīng)用案例[18]

參考鏈接(可滾動):

[1] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.04805

[2] RoBERTa: A Robustly Optimized BERT Pretraining Approach https://arxiv.org/abs/1907.11692

[3] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations https://arxiv.org/abs/1909.11942

[4] Language Models are Unsupervised Multitask Learners https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf

[5] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer https://arxiv.org/abs/1910.10683

[6] T-NLG https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/

[7] Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165

[8] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity https://arxiv.org/abs/2101.03961

[9] PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation https://arxiv.org/abs/2104.12369

[10] ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation https://arxiv.org/abs/2112.12731

[11] PaLM: Scaling Language Modeling with Pathways https://arxiv.org/abs/2204.02311

[12] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts https://arxiv.org/abs/2112.06905

[13] Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers https://arxiv.org/abs/2002.11794

[14] A Review of Sparse Expert Models in Deep Learning https://arxiv.org/abs/2209.01667

[15] RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864

[16] Talking-Heads Attention https://arxiv.org/abs/2003.02436

[17] GLU Variants Improve Transformer https://arxiv.org/abs/2002.05202

[18] 騰訊AI Lab發(fā)布智能創(chuàng)作助手「文涌 (Effidit)」,用技術(shù)助力「文思泉涌」https://mp.weixin.qq.com/s/b-kPSR3aFPKHpUnFv7gmeA

[19] 騰訊“混元”AI大模型登頂CLUE三大榜單,打破多項行業(yè)記錄 http://ex.chinadaily.com.cn/exchange/partners/82/rss/channel/cn/columns/snl9a7/stories/WS628df605a3101c3ee7ad730e.html

— 完 —

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
騰訊大手筆投資大模型,清華系A(chǔ)I公司贏麻了
2021年AI Top Stories
T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎(chǔ)模型前沿技術(shù)丨大模型科研、創(chuàng)業(yè)避坑指南
重磅!OpenAI被“Open”!GPT-4可復(fù)制!
概述:各學(xué)科和各種任務(wù)的最新機器學(xué)習(xí)算法
時下改變AI的6大NLP語言模型
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服