今年的 GTC China 黃仁勛沒有露面,但黃式定律無處不在。
從翻倍提高 TensorCore 計(jì)算效能的新技術(shù),到下一代光通信技術(shù),再到一行代碼為所有模型提供 GPU 加速的軟件工具,為了讓未來的 AI 算力每年能夠提升一倍,英偉達(dá)找到了不少新方向。
在科技領(lǐng)域里,很多人都知道摩爾定律:前英特爾 CEO 大衛(wèi)·豪斯(David House)曾提出,人類制造出的芯片,每 18 個(gè)月計(jì)算效率就會(huì)提高一倍。這一「規(guī)律」在過去長達(dá)五十年間一直被實(shí)踐驗(yàn)證,但在最近五六年中,由于晶體管尺寸越來越小,制程陷入瓶頸,摩爾定律逐漸失效。
而另一方面,人類對于計(jì)算機(jī)的算力需求是無限的,人工智能技術(shù)的發(fā)展更是加大了這種需求。近十年來,GPU正在讓人工智能算法的性能每年都在成倍提升,英偉達(dá)的研究人員通過架構(gòu)的提升,正在不斷尋找進(jìn)一步加快AI推理速度的芯片。
如果我們還需要在未來的一段時(shí)間里使用硅芯片,那么摩爾定律之后,我們還可以仰賴「黃氏定律」保持AI技術(shù)的發(fā)展速度。
在芯片本身無法快速提升的情況下,英偉達(dá)把目光轉(zhuǎn)向了計(jì)算架構(gòu)的很多其他方面,Bill Dally 認(rèn)為「這些方向其中的任何一個(gè)如果有效,都可以在接下來幾代的產(chǎn)品中幫助我們延續(xù)性能每年提升一倍的目標(biāo)?!?/p>
如果可以通過一個(gè)全局控制器,把數(shù)據(jù)從內(nèi)存不同的部分移動(dòng)到不同計(jì)算單元以執(zhí)行計(jì)算,并針對神經(jīng)網(wǎng)絡(luò)計(jì)算的特性在數(shù)據(jù)流中加入一個(gè)存儲層,便可以解除瓶頸,將大部分能量用于計(jì)算。在特定的單元上,英偉達(dá)尚未發(fā)布的硬件產(chǎn)品可以實(shí)現(xiàn)每瓦 100 Teraops 的推理能力,而在 2019 年達(dá)到的效率還只有 29 Teraops。
看來下一代的 Tensor Core 性能又要有巨大的提升了。
其次是多卡的數(shù)據(jù)傳輸,英偉達(dá)的 GPU 通過 NVlink 和 NVswitch 互相連接,然而基于電信號的方式目前已經(jīng)接近極限了,人們預(yù)估,想要繼續(xù)讓 NVLink 中信號傳輸?shù)膸捗看嵘槐叮瑢⒆兊脴O其困難。目前英偉達(dá)能夠?qū)崿F(xiàn)的數(shù)字是每線對 50Gb/s,可預(yù)見的未來大約可以實(shí)現(xiàn)到 100-200Gb/s。英偉達(dá)也在和英特爾等科技巨頭一樣思考如何盡快把基于光學(xué)的通信技術(shù)應(yīng)用于實(shí)踐。
在英偉達(dá)的設(shè)計(jì)中,DGX 卡縱置排列,右側(cè)為光源,可為光線提供多種不同波長的光線,光學(xué)引擎以極高的數(shù)據(jù)速率把光轉(zhuǎn)換為信號。每根光纖都可以同時(shí)傳輸不同波長的光,而每種波長的光都可以用 25-50Gb/s 的速度傳輸信號。這樣一來,總數(shù)據(jù)速率將為 400Gb/s,而每根光纖的傳輸速率「保守估計(jì)」就可以達(dá)到數(shù)個(gè) Tb/s,而且能耗還要比電信號要小。英偉達(dá)的研究團(tuán)隊(duì)正在與哥倫比亞大學(xué)的研究人員密切合作,探討如何利用電信供應(yīng)商在其核心網(wǎng)絡(luò)中所采用的技術(shù),通過一條光纖來傳輸數(shù)十路信號——有了光通信,僅需一條 NVLink 就可以連接規(guī)模更大的系統(tǒng)。
除了更大的吞吐量,光鏈路也有助于打造更為密集型的系統(tǒng)。Dally 舉例展示了一個(gè)未來將搭載 160 多個(gè) GPU 的 NVIDIA DGX 系統(tǒng)模型。
除了硬件方面的革新,還有軟件。今天有很多應(yīng)用都在被 GPU 加速,遠(yuǎn)超英偉達(dá)開發(fā)者們更新 CUDA 程序的速度,人們急需一種簡化的編程方式。NVIDIA 的研究人員開發(fā)了全新編程系統(tǒng)原型 Legate。開發(fā)者借助 Legate,即可在任何規(guī)模的系統(tǒng)上,運(yùn)行針對單一 GPU 編寫的程序——甚至適用于諸如 Selene 等搭載數(shù)千個(gè) GPU 的巨型超級計(jì)算機(jī)。
對于大多數(shù)人來說,使用 Legate 我們就可以無需更改代碼即讓 Python 程序無感運(yùn)行在從 Jetson Nano 到 DGX SuperPOD 等所有包含英偉達(dá) cuda 核心的設(shè)備上。開發(fā)者所做的是基于原始的 Python 代碼,將原本的「import NumPy as NP」更改為「import legate.numpy as NP」就可以了。隨后 Legate 庫會(huì)開始運(yùn)行,自動(dòng)完成之后的操作。
它的運(yùn)行速率有多快呢?從上表中可以看到,Legate 的處理速度不僅快于目前效率最高的庫,同時(shí)在并行化時(shí)也能盡量保持住自己的優(yōu)勢。
英偉達(dá)也分享了目前國內(nèi)合作伙伴使用新一代芯片的情況:阿里云、百度智能云、滴滴云、騰訊云的大型數(shù)據(jù)中心正在遷移至基于英偉達(dá) Ampere 架構(gòu)的平臺。圖像識別、語音識別,以及包括計(jì)算流體動(dòng)力學(xué)、計(jì)算金融學(xué)、分子動(dòng)力學(xué)在內(nèi)的 GPU 加速高性能計(jì)算場景的快速增長,催生了更多對云實(shí)例的需求。
聯(lián)系客服