疫情阻止了全球范圍內(nèi)線下舉辦GTC,但不意味著技術(shù)的進(jìn)步會停止。就在今天,NVIDIA GTC 2020中國線上大會正式拉開序幕,NVIDIA首席科學(xué)家Bill Dally親自上陣發(fā)表主題演講。從NVIDIA如何打造最強(qiáng)GPU,加速AI性能,說到正在逐步取代摩爾定律的黃氏定律。在短短一年內(nèi),GPU AI性能成倍提升,NVIDIA究竟是如何做到的?
NVIDIA首席科學(xué)家Bill Dally
打造最強(qiáng)GPU
一切的基礎(chǔ)都是硬件。在安培Ampere GPU架構(gòu)推出之后,NVIDIA在短短的一年內(nèi)其運用到了你所能了解的產(chǎn)品中。從具備處理海量計算性能處理難題的Ampere A100 SXM,到小到可以放進(jìn)玩具的嵌入系統(tǒng)Jetson,安培架構(gòu)已經(jīng)無處不在。
以DGX為例,在一個DGX機(jī)箱中可以放進(jìn)8個Ampere GPU,多個DGX機(jī)箱可以塞進(jìn)一個機(jī)架中,并與Mellanox交換機(jī)一起,組合成那些世界上性能最強(qiáng)大的計算機(jī)集群。
但是硬件本身不能解決世界上的難題,它還需要借助軟件來應(yīng)付計算中遇到的嚴(yán)苛問題。事實上,將軟件和硬件結(jié)合已經(jīng)成為NVIDIA推進(jìn)技術(shù)前進(jìn)的主題,即便GPU性能過分強(qiáng)大,NVIDIA也不再以單純的硬件公司自居。
解決計算問題本身則需要圍繞CUDA核心展開,NVIDIA開發(fā)了一系列軟件幫助研發(fā)人員挖掘CUDA性能。例如在面對深度學(xué)習(xí)的時候,NVIDIA提供了cuDNN、Tensor RT幫助簡化深度學(xué)習(xí)實現(xiàn)的過程。而面對諸如醫(yī)療、生產(chǎn)、汽車,NVIDIA都提供了相對應(yīng)的軟件和硬件給予不同的解決方案。
NVIDIA Ampere A100不僅是世界上最大的7nm芯片,具備540億個晶體管,同時還集成了第三代Tensor Core用于深度學(xué)習(xí)加速。如果你曾經(jīng)感受過GeForce RTX 30系列游戲顯卡DLSS帶來的流暢游戲體驗,那么正是GPU中的第三代Tensor Core幫助GPU完成了游戲幀率的加速運算。而諸如DLSS技術(shù)的預(yù)算也僅僅是Tensor Core運用的冰山一角。
NVIDIA Ampere A100通過對新數(shù)據(jù)類型支持,從獲得而比上一代提升20倍的性能提升,并在原有推理性能增益基礎(chǔ)上,通過結(jié)構(gòu)化稀疏支持獲2倍的的效率提升,最終使得A100在諸如BERT對話式AI模型中推理吞吐量達(dá)到CPU的249倍。
更重要的是A100的執(zhí)行效能非常高,在全球超算Green 500節(jié)能排名中NVIDIA最新的DGX SuperPOD位居榜首,而全球TOP 500超算排名第五的Selene同樣來自NVIDIA DGX A100 SuperPOD,足以見得效能彪悍。
加速AI
為了實現(xiàn)AI加速需求,NVIDIA通過每年提升一倍以上的性能來滿足推動神經(jīng)網(wǎng)絡(luò)的發(fā)展,黃氏定律也維持誕生。
不要以為AI加速離我們生活遙不可及,它可能已經(jīng)在我們生活中無處不在。以NVIDIA Maxine為例,它能夠在極為有限的帶寬下實現(xiàn)高質(zhì)量的視頻傳輸,開發(fā)者甚至可以將視頻帶寬消耗減少到H.264標(biāo)準(zhǔn)的十分之一。并且?guī)椭咔槠陂g的視頻會議面談實現(xiàn)更高清的對話效果。
NVIDIA Maxine利用了一個十分討巧的方式,以下圖為例,它只發(fā)送了一個關(guān)鍵的圖像幀,而視頻的每一幀只提取關(guān)鍵點,并將其發(fā)送到接收端,這是一個非常低的帶寬流,但通過神經(jīng)網(wǎng)絡(luò)計算讓原本關(guān)鍵幀的靜態(tài)圖片動起來,以此實現(xiàn)低帶寬高畫質(zhì)的效果。
但這項技術(shù)厲害地方在于,你不需要具備特殊傳感器的攝像頭,通過捕捉每一幀的關(guān)鍵點,GPU實際上就能夠知道你做了什么表情,變身二次元輕而易舉。
筆者朋友當(dāng)了一把NV模特,哈哈
在視頻會議中,AI還可以充當(dāng)會議記錄員,將每一個同事說話區(qū)分、翻譯,同時AI也能夠充當(dāng)會議成員的角色,用自然語言進(jìn)行交互。NVIDIA給這套技術(shù)起了一個源自于鋼鐵俠人工智能管家的名字,Jarvis。
在實際使用中,AI早已能將完全模擬出以假亂真的個體,下圖的人像、油畫、風(fēng)景照其實都不存在于現(xiàn)實中,都是通過AI合成的。而NVIDIA的愿景是構(gòu)建一個完全由AI打造,分不出虛擬和現(xiàn)實的世界,以現(xiàn)在的AI發(fā)展速度,似乎已經(jīng)離我們不遠(yuǎn)了。
黃氏定律真香
AI推理性能每年提升一倍以上并非僅僅依靠簡單的工藝制程提升,NVIDIA首席科學(xué)家Bill Dally帶領(lǐng)了200人團(tuán)隊就是將各種理論在實驗室中付諸實踐,將黃仁勛的黃氏定律變成現(xiàn)實。
在演講中,Bill Dally自豪的表示,如果真想提高計算機(jī)性能,黃氏定律就是一項重要指標(biāo),且在可預(yù)見的未來都將一直適用。
為了實現(xiàn)效能突破,NVIDIA團(tuán)隊開發(fā)名為MAGNet工具,通過新技術(shù)協(xié)調(diào)并控制通過設(shè)備的信息流,最大限度地減少數(shù)據(jù)傳輸,讓芯片60%的能耗花費在計算而不是數(shù)據(jù)傳輸上。
與此同時,在超級計算機(jī)集群已經(jīng)名聲大噪的NVLink在實驗室中仍然有更好的提升空間,Bill Dally帶領(lǐng)的團(tuán)隊嘗試用光路替代傳統(tǒng)的電子信號,利用不同顏色的波段不同實現(xiàn)在一根光纖傳輸中完成800Gbps速率,并利用密集波分復(fù)用技術(shù)在1平方毫米大小的芯片上實現(xiàn)Tbps級別的數(shù)據(jù)傳,互聯(lián)密度是現(xiàn)階段的十倍以上。
更大的傳輸速率和更遠(yuǎn)的傳輸距離意味著NVIDIA可以打造更大且更密集的光鏈路系統(tǒng),例如在單一系統(tǒng)中實現(xiàn)160個以上的GPU在NVIDIA DGX系統(tǒng)中協(xié)同工作。
在軟件層面,NVIDIA還發(fā)明了全新編程系統(tǒng)原型Legate。開發(fā)者借助Legate,即可在任何規(guī)模的系統(tǒng)上,運行針對單一GPU編寫的程序,甚至適用于諸如Selene等搭載數(shù)千個GPU的巨型超級計算機(jī)。
而今黃氏定律讓性能不斷翻倍的AI推理腦功能運用到了健康醫(yī)療、無人駕駛、機(jī)器人、數(shù)據(jù)科學(xué)、圖形處理等諸多領(lǐng)域。借助GPU,NVIDIA版圖也已經(jīng)延伸到了生產(chǎn)、娛樂、通訊等方方面面,替代摩爾定律,黃氏定律也正在利用不斷翻倍提升的AI推理性能改變著我們所認(rèn)識的世界。
聯(lián)系客服