3月23日,在今日的NVIDIA(英偉達(dá))GTC大會(huì)上,英偉達(dá)創(chuàng)始人兼CEO黃仁勛重磅發(fā)布了近20項(xiàng)新技術(shù)及產(chǎn)品。
其中最為引人關(guān)注的是最新Hopper架構(gòu)的H100 GPU系列及144核超級(jí)Arm CPU。
先進(jìn)的小芯片互聯(lián)技術(shù)
為了便于更好的文章內(nèi)容,我們先介紹一下英偉達(dá)的最新推出的芯片互聯(lián)技術(shù)NVLink-C2C。
這是一種支持內(nèi)存一致性的芯片到芯片互連技術(shù)。NVLink-C2C 可提供高達(dá) 25 倍的能效,比 Nvidia 目前使用的 PCIe 5.0 PHY 的面積效率高 90 倍,支持高達(dá) 900 GB/s 或更高的吞吐量。該接口支持 CXL 和 Arm 的 AMBACHI 等行業(yè)標(biāo)準(zhǔn)協(xié)議,并支持從基于 PCB 的互連到硅中介層和晶圓級(jí)實(shí)現(xiàn)的各種連接。令人驚訝的是,Nvidia 現(xiàn)在允許其他供應(yīng)商將該設(shè)計(jì)用于他們自己的小芯片。此外,Nvidia 宣布將支持新的 UCIe 規(guī)范。
比如英偉達(dá)利用NVLink-C2C可將兩個(gè)Grace CPU互聯(lián)在一起組成144核的超級(jí)CPU - Grace CPU Superchip (CPU+CPU)。也可以將單片Grace CPU與Hopper GPU互聯(lián)(CPU+GPU),組成Grace Hopper Superchip.
144核超級(jí)CPU: Grace CPU Superchip
Grace CPU Superchip是該公司第一款專為數(shù)據(jù)中心設(shè)計(jì)的純 CPU 的 Arm 芯片?;?Neoverse 的架構(gòu),支持 Arm v9,并通過Nvidia 新的 NVLink-C2C 互連技術(shù)將兩個(gè)72核心的Hopper CPU融合在一起(CPU+CPU),提供一致的 900 GB/s 連接,組成144核的Grace CPU Superchip。此外,基于 Arm v9 Neoverse的芯片支持 Arm 的 Scalable VectorExtensions (SVE),這是一種性能提升的 SIMD 指令,其功能類似于 AVX。
兩個(gè) Grace CPU 通過 Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口進(jìn)行通信。這種芯片到芯片和芯片到芯片的互連支持低延遲內(nèi)存一致性,允許連接的設(shè)備同時(shí)在同一個(gè)內(nèi)存池上工作。Nvidia 使用其 SERDES 和 LINK 設(shè)計(jì)技術(shù)制作接口,重點(diǎn)是能源和面積效率。
老黃聲稱 Grace CPUSuperchip 將于 2023 年初出貨,將成為市場上最快的處理器,適用于超大規(guī)模計(jì)算、數(shù)據(jù)分析和科學(xué)計(jì)算等廣泛的應(yīng)用。
鑒于我們對(duì) Arm 路線圖的了解,該芯片基于 N2 Perseus 平臺(tái),這是第一個(gè)支持 Arm v9 的平臺(tái)。該平臺(tái)采用 5nm 設(shè)計(jì),支持所有最新的連接技術(shù),如 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0,比 V1 平臺(tái)提供高達(dá) 40% 的性能。
考慮到 Grace CPU Superchip 的兩個(gè) CPU 和板載內(nèi)存都消耗 500W 的峰值功率,這很有意義。這與其他領(lǐng)先的 CPU 具有競爭力,例如 AMD 的 EPYC(霄龍),每個(gè)芯片的最高功率為 280W(這不包括內(nèi)存功耗)。
Nvidia 聲稱 Grace CPU 在市場上的效率將是競爭 CPU 的兩倍。每個(gè) CPU 都可以訪問自己的 8片LPDDR5X,因此這兩個(gè)芯片仍然會(huì)受到近遠(yuǎn)內(nèi)存的標(biāo)準(zhǔn) NUMA 類趨勢的影響。盡管如此,兩個(gè)芯片之間增加的帶寬也應(yīng)該有助于減少由于競爭減少而導(dǎo)致的延遲,從而實(shí)現(xiàn)非常有效的多芯片實(shí)現(xiàn)。該設(shè)備還配備了 396MB 的片上緩存,但尚不清楚這是用于單個(gè)芯片還是兩者兼有。
Grace CPU Superchip 內(nèi)存子系統(tǒng)提供高達(dá) 1TB/s 的帶寬,Nvidia 稱這是 CPU 的首創(chuàng),是支持 DDR5 內(nèi)存的其他數(shù)據(jù)中心處理器的兩倍多。LPDDR5X 共有 16 個(gè)封裝,可提供 1TB 容量。此外,Nvidia 指出,Grace 使用了 LPDDR5X 的第一個(gè) ECC 實(shí)現(xiàn)。
集成800億晶體管,英偉達(dá)發(fā)布新一代GPU,臺(tái)積電4nm
今天,在其 GPU 技術(shù)大會(huì) (GTC) 上,Nvidia 透露了其 Hopper 架構(gòu)和 Nvidia H100 GPU的詳細(xì)信息。
我們知道 Nvidia 致力于下一代 GPU 已經(jīng)有一段時(shí)間了,但現(xiàn)在我們有了一些具體的規(guī)格。不要將 Hopper 架構(gòu)和 H100 GPU 與 Ada 混淆,后者是以消費(fèi)者為中心的架構(gòu),將為未來的 GeForce 卡提供動(dòng)力。
Nvidia 尚未透露有關(guān) Ada 的任何細(xì)節(jié),Hopper H100 將取代 Ampere A100,后者本身取代了 Volta V100。這些都是數(shù)據(jù)中心部件,并且與來自 AMD 的Instinct MI250/250X和新發(fā)布的Instinct MI210等公司的激烈競爭,Nvidia 正在尋求重新奪回 HPC 的領(lǐng)先地位。正如您所期望的那樣,H100 專為超級(jí)計(jì)算機(jī)設(shè)計(jì),專注于 AI 功能。與當(dāng)前的 A100 相比,它包括許多更新和升級(jí),所有設(shè)計(jì)都達(dá)到了新的性能和效率水平。
Hopper 包含 800 億個(gè)晶體管(A100 GPU“僅”有 540 億個(gè)晶體管)。它是使用定制的 TSMC 4N 工藝制造的——這是為 4nm Nvidia 設(shè)計(jì)的,這不要與 TSMC 提供的通用 N4 4nm 工藝混淆。
英偉達(dá)沒有透露核心數(shù)量或時(shí)鐘頻率,但確實(shí)提供了一些其他細(xì)節(jié)。H100 支持 Nvidia 的第四代 NVLink 接口,可提供高達(dá) 128 GB/s 的帶寬。它還支持不使用 NVLink 的系統(tǒng)的 PCIe 5.0,最高速度為 128 GB/s。更新后的 NVLink 連接提供的帶寬是 A100 的 1.5 倍,而 PCIe 5.0 提供的帶寬是 PCIe 4.0 的兩倍。
H100 還將默認(rèn)支持 80GB 的 HBM3 內(nèi)存,帶寬為 3 TB/s,比 A100 的 HBM2E 快 1.5 倍。雖然 A100 有 40GB 和 80GB 兩種型號(hào),后者在生命周期的后期推出,但 H100 和 A100 仍然使用多達(dá)六個(gè) HBM 堆棧,顯然禁用了一個(gè)堆棧(即使用虛擬堆棧)。
一般來說,H100 的內(nèi)存和接口帶寬比其前代產(chǎn)品多 50%??梢钥隙?,這是一個(gè)很好的改進(jìn),但 Hopper 的其他方面涉及更大的增長。H100 可提供高達(dá) 2,000 TFLOPS 的 FP16 計(jì)算和 1,000 TFLOPS 的 TF32 計(jì)算,以及 60 TFLOPS 的通用 FP64 計(jì)算——在所有三種情況下,這都是 A100 性能的三倍。Hopper 還增加了改進(jìn)的 FP8 支持,計(jì)算能力高達(dá) 4,000 TFLOPS,比 A100 快六倍(由于缺乏原生 FP8 支持,它不得不依賴 FP16)。為了幫助優(yōu)化性能,Nvidia 還擁有一個(gè)新的轉(zhuǎn)換器引擎,它將根據(jù)工作負(fù)載在 FP8 和 FP16 格式之間自動(dòng)切換。
Nvidia 還將添加旨在加速動(dòng)態(tài)編程的新 DPX 指令。這些可以幫助廣泛的算法,包括路線優(yōu)化和基因組學(xué),Nvidia 聲稱這些算法的性能比其上一代 GPU 快 7 倍,比基于 CPU 的算法快 40 倍。Hopper 還包括提高安全性的更改,多實(shí)例 GPU (MIG) 現(xiàn)在允許在單個(gè) H100 GPU 上運(yùn)行七個(gè)安全租戶。所有這些變化對(duì)于英偉達(dá)的超級(jí)計(jì)算和人工智能目標(biāo)都很重要。然而,這些變化并非都是好的。盡管轉(zhuǎn)向較小的制造節(jié)點(diǎn),但 SXM 變體的 H100 TDP 已增加到 700W,而 A100 SXM 模塊的 TDP 為 400W。這增加了 75% 的功率,改進(jìn)范圍似乎在 50% 到 500% 之間,具體取決于工作負(fù)載。
總的來說,我們預(yù)計(jì)性能將比英偉達(dá) A100 快兩到三倍,因此效率仍應(yīng)有凈提升,但這進(jìn)一步證明了摩爾定律正在放緩。總體而言,英偉達(dá)聲稱 H100 的擴(kuò)展性優(yōu)于 A100,并且可以在 AI 訓(xùn)練中提供高達(dá) 9 倍的吞吐量。使用 Megatron 530B 吞吐量作為基準(zhǔn),它還提供了 16 到 30 倍的推理性能。最后,在 3D FFT(快速傅立葉變換)和基因組測序等 HPC 應(yīng)用程序中,Nvidia 表示 H100 比 A100 快 7 倍。
Nvidia DGX H100、Superpods 和 Eos 超級(jí)計(jì)算機(jī)
使用多臺(tái) DGX H100 服務(wù)器,Nvidia 可以擴(kuò)展到具有 32 個(gè) DGX H100 系統(tǒng)的 DGX SuperPod,并與更新的 NVLink 交換機(jī)系統(tǒng)和 Quantum-2 InfiniBand 網(wǎng)絡(luò)連接在一起。因此,單個(gè) H100 SuperPod 具有 256 個(gè) H100 GPU、20TB 的 HBM3 內(nèi)存和高達(dá) 1 ExaFLOPS 的 AI 計(jì)算潛力。它還提供 70.4 TB/s 的帶寬。
自然,超級(jí)計(jì)算機(jī)可以使用多個(gè) SuperPod 構(gòu)建,Nvidia 宣布了其新的 Eos 超級(jí)計(jì)算機(jī),該超級(jí)計(jì)算機(jī)緊隨 Selene 的腳步。Eos 將由 18 個(gè) H100 SuperPods、576 個(gè) DGX H100 系統(tǒng)和 360 個(gè) NVLink 交換機(jī)構(gòu)建而成,它將提供 275 PFLOPS 的 FP64 計(jì)算。更重要的是,在 Nvidia 專注于 AI 的未來,它將提供 18 EFLOPS 的 FP8 AI 計(jì)算,或 9 EFLOPS 的 FP16。
前面提到,通過英偉達(dá)最新互聯(lián)技術(shù)可以將Grace CPU和Hopper GPU互聯(lián)融合在一起(CPU+GPU),組成Grace Hopper Superchips。
Grace Hopper Superchip 在一個(gè)載板上有兩個(gè)不同的芯片,一個(gè) CPU 和一個(gè) GPU。我們現(xiàn)在知道 CPU 有 72 個(gè)內(nèi)核,使用基于 Neoverse 的設(shè)計(jì),支持 Arm v9,并與 Hopper GPU 配對(duì)。這兩個(gè)單元通過 900 GBpsNVLink-C2C 連接進(jìn)行通信,提供 CPU 和 GPU 之間的內(nèi)存一致性,從而允許兩個(gè)單元同時(shí)訪問 LPDDR5X ECC 內(nèi)存池,據(jù)稱帶寬比標(biāo)準(zhǔn)系統(tǒng)提高了 30 倍。
Nvidia 最初沒有公布設(shè)計(jì)中使用的 LPDDR5X 數(shù)量,但在這里我們可以看到該公司現(xiàn)在聲稱擁有“600GB 內(nèi)存 GPU”,其中肯定包括 LPDDR5X 內(nèi)存池。我們知道 LPDDR5X 每個(gè)封裝的最高容量為 64GB,這意味著 CPU 配備了高達(dá) 512GB 的 LPDDR5X。同時(shí),Hopper GPU 通常具有 80GB 的 HBM3 容量,使我們接近 Nvidia 的 600GB 。讓 GPU 訪問該數(shù)量的內(nèi)存容量可能會(huì)對(duì)某些工作負(fù)載產(chǎn)生變革性影響,尤其是對(duì)于經(jīng)過適當(dāng)優(yōu)化的應(yīng)用程序。
聯(lián)系客服