通用預(yù)訓(xùn)練底座大力出奇跡

數(shù)據(jù)和模型參數(shù)規(guī)模競賽

自G家的BERT橫空出世，以1億多參數(shù)的預(yù)訓(xùn)練+微調(diào)范式模型刷爆NLP的各個任務(wù)以來，有錢有數(shù)據(jù)的各個大廠開啟了預(yù)訓(xùn)練大模型的參數(shù)規(guī)模競賽。今年GPT3[1]把參數(shù)拉到1700多億，并且開放的接口中顯示出令人驚嘆的任務(wù)遷移能力、少數(shù)據(jù)下fine tune的效果等；國內(nèi)NLP一哥百度也和鵬程實驗室發(fā)布2600億參數(shù)規(guī)模的知識增強模型[2]；G家的Swith Transformer[3]更是直接推向了萬億規(guī)模。除了有錢的大公司外，國內(nèi)的人工智能實驗室也不甘落后，由北京市政府直接牽頭建立的智源研究院，推出的悟道2.0[4]參數(shù)也拉到了1.75萬億參數(shù)。NLP Researcher很多大佬都在刷大模型，CLUE/Super Clue等榜單也幾乎成了武林兵器排行榜，兵家必爭之地。

為什么

大力能出奇跡：大數(shù)據(jù)加上大參數(shù)的模型加上各種知識增強、訓(xùn)練方法的優(yōu)化等的確能夠逐步的拉高效果上限
AI應(yīng)用工業(yè)化的希望：大模型的多任務(wù)遷移能力，在少量數(shù)據(jù)簡單微調(diào)即可取得較好的效果等這些性質(zhì)都給各個大廠帶來一個非常重要的信號是，這種方式有可能帶來AI工業(yè)化應(yīng)用：即這個大模型猶如內(nèi)燃機/蒸汽機一樣，可以在不同的場景下都可以用起來，應(yīng)用者不需要多深的AI經(jīng)驗（不用了解內(nèi)燃機的原理），用我的工具微調(diào)下就好（加點汽油），邊界收益極高。
不是誰都能自己造個內(nèi)燃機出來，行業(yè)也不需要那么多的內(nèi)燃機：從2出發(fā)，大的通用底座需要大量的數(shù)據(jù)、大量的機器以及不少訓(xùn)練方法等上面的技術(shù)問題，因此這個事也只能是有錢有數(shù)據(jù)的大廠做。并且畢竟行業(yè)也不需要那么多的大底座，如果有一個效果最好的，價格也合適的大底座，那么其他的底座就可能完全沒有價值（自己廠內(nèi)使用除外），因此競爭愈演愈烈

大模型很好但是

百億往上的模型主要還是在屠榜：縱然各個榜單的效果不斷的被大模型刷新，然而從產(chǎn)業(yè)視角看，產(chǎn)業(yè)內(nèi)沒有一個大規(guī)模的AI系統(tǒng)中直接用百億甚至10億以上參數(shù)的大模型來serve，主要的問題是inference的延時和機器消耗的性價比問題：1）就算不考慮性價比問題，很多infernce的延時也無法滿足線上的需求 2）性價比低，機器太貴
大模型蒸餾下的小模型效果下滑還是比較嚴(yán)重：業(yè)內(nèi)還是很希望把屠榜的能力在線上應(yīng)用起來，現(xiàn)在應(yīng)用的方式主流的仍然還是蒸餾的方式，不過不少任務(wù)上蒸餾的效果下滑還是比較嚴(yán)重的，尤其是生成的任務(wù)。以開放域?qū)υ捴械纳赡Ｐ蜑槔?2層的transformer蒸餾成12層的PPL大概要損失3-4個點左右；當(dāng)然不少領(lǐng)域理解類的任務(wù)損失沒有那么大。
少量數(shù)據(jù)微調(diào)并不是在所有場景都效果足夠好：很多相對簡單的場景是能夠取得不錯的效果，或者是能夠取得可應(yīng)用的效果。但是對于相對復(fù)雜和沉淀比較多自己數(shù)據(jù)的場景，通常還是要用自己場景的數(shù)據(jù)繼續(xù)預(yù)訓(xùn)練，而且有必要的時候還是需要增加適合自己場景的預(yù)訓(xùn)練任務(wù)

Transformer is all you need

Transformer源于NLP領(lǐng)域，當(dāng)年G家的一篇All you need is attention和而后的BERT模型幾乎摧枯拉朽的把NLP領(lǐng)域的各種RNN取代了。CV領(lǐng)域由于視覺的層次化特點等依然還是CNN的天下，今年開始有諸多Transformer挑戰(zhàn)CNN效果的工作，ICCV 2021的BEST PAPER SWIN Transformer[5]在目標(biāo)檢測和分割任務(wù)上取得新SOTA將Transformer占領(lǐng)CV的號角吹到最響。而語音領(lǐng)域Transformer已經(jīng)有非常多的工作了，Transformer-Transducer、Speech Transformer、Transformer-TTS等。大一統(tǒng)的天下似乎近在咫尺

多模態(tài)智能曙光初現(xiàn)

隨著大一統(tǒng)的Transformer結(jié)構(gòu)在語音，語言和視覺上的大放異彩，同時結(jié)合大模型的預(yù)訓(xùn)練和大數(shù)據(jù)的加持，多模態(tài)模型今年看到不少突破，以O(shè)pen AI的DALL-E模型[6]讓人印象最深刻，輸入自然語言能夠生成語義相關(guān)的圖，'綠色的牛油果形狀的扶手椅'驚艷業(yè)界。從產(chǎn)業(yè)來看，隨著tiktok在全球流量超越Google和Facebook變成絕對頂流，抖音和快手在國內(nèi)月活創(chuàng)新高，多模態(tài)的短視頻內(nèi)容已經(jīng)成為機器內(nèi)容輸出的主流。而在人機交互的輸入上，多模態(tài)的融合倒還并沒有看到特別亮眼的突破。

是時候給AI帶上適當(dāng)?shù)溺備D

通常在政府治理中前期會給一個方向和行業(yè)比較多的創(chuàng)新，盡量不去過多限制，當(dāng)技術(shù)和行業(yè)逐步發(fā)展起來后，也同時會暴露出很多的社會問題，于是乎通常這個時候就需要在政府層面制定適當(dāng)?shù)囊?guī)則和限制。以AI的應(yīng)用為例，2021年是全球政府繼續(xù)加碼規(guī)范AI算法應(yīng)用，國內(nèi)以個保法落地為重要事件，在AI應(yīng)用的個人數(shù)據(jù)隱私上做出很多規(guī)范，影響到包括各種人臉、語音、行為等隱私數(shù)據(jù)的應(yīng)用。移動互聯(lián)網(wǎng)生態(tài)上以ios新系統(tǒng)對app的數(shù)據(jù)獲取有更強的管控，支持用戶自定義關(guān)閉各種數(shù)據(jù)追蹤，也是第一次公眾發(fā)現(xiàn)各種應(yīng)用都在做各類數(shù)據(jù)的采集，和LBS無關(guān)的應(yīng)用也在不斷的獲取你的POI信息。對用戶而言，隱私安全和保護有一個長足的進步，對于AI技術(shù)和行業(yè)應(yīng)用而言，未來如何做到原始數(shù)據(jù)不上云也能夠持續(xù)的優(yōu)化效果變成重要的挑戰(zhàn)。包括如何做端云一體化的AI Inference、聯(lián)邦學(xué)習(xí)等。

AI+科學(xué)展現(xiàn)出十足的潛力

2021年是AI應(yīng)用在各類學(xué)科，包括化學(xué)、生物、物理、醫(yī)學(xué)、數(shù)學(xué)等各個學(xué)科上爆發(fā)的關(guān)鍵年。尤其是2021年是新冠爆發(fā)后的第二年，沒有想到的是病毒肆虐了兩年依然未看到有止住的趨勢，生物和醫(yī)學(xué)方向有更多的人關(guān)注和投入研究。AI結(jié)合的應(yīng)用也層出不窮，以Deep Mind的在nature上發(fā)表的AlphaFold[7]為重要的標(biāo)志性工作，AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的效果突破幾乎讓AI和生物領(lǐng)域達(dá)到了一個高潮，國內(nèi)也開始涌現(xiàn)出諸多AI結(jié)合生物制藥等領(lǐng)域的公司和創(chuàng)業(yè)公司，包括我廠的百圖生科等。回想當(dāng)年高中時的那句'21世紀(jì)是生命科學(xué)的世紀(jì)'，頗有感慨，期待2022年在更多領(lǐng)域看到AI的應(yīng)用和突破。

增強學(xué)習(xí)還在修練內(nèi)功

人工智能有三大主義流派：符號主義、連接主義和經(jīng)驗主義，其中連接主義的代表深度學(xué)習(xí)給AI帶來跨越式的發(fā)展，深度學(xué)習(xí)結(jié)合知識的增強，今年也有很多的進展和突破，各種預(yù)訓(xùn)練模型中引入領(lǐng)域的知識等是連接主義和符號主義融合的典型代表。經(jīng)驗主義的代表是增強學(xué)習(xí)，alphago一度把增強學(xué)習(xí)推向通往通用強人工智能的關(guān)鍵之路，深度增強學(xué)習(xí)一定程度上也是連接主義和經(jīng)驗主義的融合代表。在各種棋牌、游戲等上打敗人類后，增強學(xué)習(xí)還缺少在更廣的應(yīng)用領(lǐng)域?qū)崿F(xiàn)突破，2021年增強學(xué)習(xí)領(lǐng)域也依然主要在修煉內(nèi)功[8]，并未看到在技術(shù)和應(yīng)用上有breakthrough的工作。個人的視角來看，增強學(xué)習(xí)的冷啟動，長序列決策中數(shù)據(jù)的稀疏，訓(xùn)練的收斂等問題都一定程度上阻礙了增強學(xué)習(xí)突破下一個臨界點。期待2022年能看到這個領(lǐng)域的突破，畢竟和環(huán)境交互并持續(xù)學(xué)習(xí)是人類等生物智能體的關(guān)鍵智能體現(xiàn)之一。

References

'2021 Top AI Stories' andrew ng: https://read.deeplearning.ai/the-batch/issue-123/
GPT-3：Language Models are Few-Shot Learners；https://arxiv.org/abs/2005.14165
ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation,https://arxiv.org/abs/2107.02137
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity，https://arxiv.org/abs/2101.03961
悟道2.0：https://wudaoai.cn/
SWIN Transformer：Hierarchical Vision Transformer using Shifted Windows
DALL-E：https://openai.com/blog/dall-e/
Highly accurate protein structure prediction with AlphaFold. https://www.nature.com/articles/s41586-021-03819-2
ICLR-2021強化學(xué)習(xí)的最新研究與應(yīng)用：https://zhuanlan.zhihu.com/p/412666507

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频