【2018 新智元 AI 技術峰會倒計時 1 天】
2018年3月29日,北京舉辦的2018年中國AI開年盛典——新智元產業(yè)·躍遷AI技術峰會,邀請了IBM全球副總裁、IBM中國研究院院長、IBM大中華區(qū)首席技術官沈曉衛(wèi)博士,解析量子計算發(fā)展和人工智能商業(yè)化成功案例!想近距離交流互動?點擊文末閱讀原文,馬上參會!
搶票鏈接:http://www.huodongxing.com/event/8426451122400
直播鏈接:愛奇藝:http://www.iqiyi.com/l_19rr3aqz3z.html
新智元報道
來源:GTC
作者:聞菲、張乾、肖琴
【新智元導讀】今天在剛剛結束的GTC 2018上,英偉達CEO黃仁勛說兩件大事,一是發(fā)布了迄今最大的GPU,二是暫定自動駕駛暫停研發(fā)。隨后英偉達股價下跌3.8%。GPU正在成為一種計算范式,但本質性突破乏善可陳,教主一路回顧過去創(chuàng)下的紀錄,而鼎盛之下,衰退的跡象,似乎已經潛藏。
黃仁勛在熟悉的背景音樂中上場,GTC今年已經是第十年了。
稱不上激昂,但顯然迫不及待要分享。不是首先揭幕萬眾期待的新品,而是回歸初心——黃仁勛說,圖形技術是GPU的核心驅動力,是虛擬現實的根本,在各種各樣的領域,我們想將信息和數據可視化,形成了R&D預算,由此也構建了巨大的市場。
重現逼真圖像是計算機圖形學一直以來的追求,要呈現一幅美麗的圖像,40年來,GPU渲染一幅圖的時間,從幾小時降到了幾秒,而且圖像的清晰度增加到了4K。
接著,黃仁勛回顧了各種技術,光的反射、散射、漫射、陰影……以及要渲染出種種質感相應的技術。
接著,展示了一段《星球大戰(zhàn)》視頻的演示,重點是逼真效果的實時Ray Tracing,各種表面的光線反射,每當一束光線遇到一個表面,都要決定要反射還是被吸收,什么角度反射,被吸收多少程度,整個環(huán)境中到處都是表面,每一個都需要渲染……這些需要龐大的計算量,因此動畫公司才需要超級計算機來計算這些效果。
十年技術成果,首次將實時光線跟蹤技術推向商業(yè)市場
而英偉達一臺DGX-Station就夠了。
于是,第一個宣布——RTX Technolgy,這是英偉達十年技術成果,也是Ray Tracing首次在這種規(guī)格上,全部實時實現。黃仁勛說,這是首次將實時Ray Tracing帶向商業(yè)市場。感謝GPU,感謝深度學習。
英偉達推出的Quadro GV100 GPU將該公司最近發(fā)布的RTX光線跟蹤技術引入工作站。英偉達的RTX光線追蹤技術是軟件和硬件的組合,允許應用程序生成實時光線追蹤效果。
Quadro GV100配備32GB內存,與Tesla V100有相同的底層設計。GV100可以提供高達7.4 TeraFLOPS的雙精度和14.8 TeraFLOPS的單精度計算。英偉達表示這個顯卡還可以提供高達118.5 TeraFLOPS的深度學習性能。
Quadro GV100還支持NVLink 2互連技術,可以將這兩個設備配對在一起??偣?4GB的HBM2內存,10,240個CUDA內核和236個張量內核整合到一個工作站中。
電影大片完成后,要得到逼真效果,“CPU渲染一幀10小時,”黃仁勛說:“使用GPU要快很多,而且更重要的是,能省錢——大家都知道了,你買的GPU越多,你省的錢越多?!爆F在這已經是常識了。
全球最大GPU,核彈轟炸?。。?/span>
接著,也是全場最重要揭幕了全球最大GPU——Quadro GV100,這是一個GPU工作站,2個GV100,使用NVLink相連,形成一個完整的工作站,軟件感覺不到切換。
VIDIA TESLA V100 32GB,SXM3
雙板總計16塊GPU,總計512GB HBM2 存儲
每塊GPU板由8塊NVIDIA Tesla V100組成
總計12 NVSwitch 連接
高速互連,2.4 TB/秒對分帶寬。
8 EDR 無線帶寬 / 100 GbE 以太網
1600 Gb/秒雙向帶寬和低延遲。
PCIE Switch Complex
2個英特爾Xeon Platinum CPUs
1.5 TB系統(tǒng)內存
雙10/25 GbE 以太網
30 TB NVME SSDS內部存儲
這個全球最大的GPU有多大?感受一下:
普通GPU(你能看出型號嗎?是N粉就說?。?/span>
這是最大GPU:
相比龐大繁重的CPU機架,使用英偉達RTX Quadro GV100,14-Quad-GPU服務器,“省下成千萬上億美元”。
新系統(tǒng)旨在允許開發(fā)人員擴大其神經網絡的規(guī)模。DGX-2具有12個NVSwitch,每個NVSwitch的特點是在臺積電12nm FinFET工藝上制造了120億個晶體管。每個交換機都具有18個8位NVLink連接。IBM已經宣布將于2019年推出采用NVLink 3.0的Power9系統(tǒng),因此我們預計NVSwitch將利用這種互補互連。
太美了,太性感了,太美了。
黃仁勛掩飾不住沉醉。
DGX-2專門為深度學習,而生一天半就完成了。
如今AI研究員使用AI設計/發(fā)現AI,實驗的規(guī)模和數量都不斷增長。更多的實驗、更多的數據,DGX-2推出的時機不能在好了。
價格?
39.9萬美元。
加倍Tesla V100內存
下面簡單介紹其他宣布。
特斯拉V100采用了迄今為止生產量最大的單模芯片。采用臺積電12納米FFN工藝制造的815毫米2 伏特晶體管,使用了210億個晶體管,幾乎是全分劃板的尺寸。GPU包裝了5120個用于AI工作負載的CUDA核心,雖然它具有足夠的處理能力,但英偉達已經使用額外的16GB HBM2內存支持該卡。英偉達表示,更強大的32GB內存可以在內存受限的HPC工作負載中實現雙倍的性能。
NVSwitch拓撲將16個GPU連接在一起,形成一個具有統(tǒng)一內存空間的統(tǒng)一內核單元,從而創(chuàng)建Jensen吹捧為“世界上最大的GPU”的內容。該系統(tǒng)共有512GB HBM2內存,可提供高達14.4TB / s的吞吐量。它共有81,920個CUDA內核。
GPU接受程度前所未有,形成全球計算范式
接著,黃仁勛表示,英偉達做的最好決定之一,是這些年來,讓GPU越來越通用,在不損失計算機圖形學性能的前提下,將GPU導向深度學習。然后,引爆點到來,現在,GPU已經成為廣為接受的一種計算范式,全世界有100萬GPU工程師,GTC成為全球會議,cuDNN 800萬次下載,一大半都發(fā)生在去年一年,而英偉達10年前就開始提供。
GPU接受程度前所未有,然而,這還不夠。
我們還需要更大的計算機,更快的計算機。加州理工大學要模擬一個項目,需要7天;要模擬一個艾滋病模型,需要3個月。過去5年,GPU增速25倍,遠遠超出摩爾定律。我們正處于超級摩爾定律時代,而這一趨勢也將持續(xù)。
接著是教主的自豪/自傲時間,英偉達基本上每年都推出新架構,與軟件工程師合作保持套件更新??傊?,說道這里,教主表示,祝賀John Hennessy和David Patterson獲得2017年的圖靈獎,“John的體系結構演講精彩非凡——但是,我的演講很簡單,”黃仁勛說,沒錯,英偉達在高性能計算(HPC)方面,也(買越多越)省錢!
要讓醫(yī)生/醫(yī)院更換現有基礎設施,需要30年。等不了這么久,怎么辦?有沒有辦法利用現有技術,在改動不大的前提下,給予醫(yī)生更大的智能能力。
英偉達醫(yī)療圖像超級計算機Clara應運而生。接入現有的醫(yī)療設備,比如超聲波檢測儀,就能將整套流程全部升級——使用深度學習,在原來的黑白圖像上實時渲染出顏色,分層、分區(qū)域,并且變?yōu)?D圖像,后期各種計算機技術,提升圖像質量,醫(yī)生的檢測能夠變得更加敏銳清晰。
目前,英偉達的Clara計劃已經與數十家公司,初創(chuàng)企業(yè)為主,構建了生態(tài)??梢韵胂?,將英偉達的超級醫(yī)療圖像計算機部署到醫(yī)院,又打開了一大市場。
推理很難:公布TensorRT 4.0,以及Kubernetes on GPU
講到這里,黃教主已經一個人說了1個多小時。
“Plaster?!闭f完這個詞,他停了一會,歇一口氣。
這也是教主自己發(fā)明的詞,希望向世人傳達的GTC第二大要點。
這個詞是關于推理(inference)。推理很難,精度、通量……各種變量要考慮。如何讓推理變得更好?這里,當然是英偉達的高性能神經網絡推理引擎TensorRT的更新——TensorRT 4.0發(fā)布,用于在生產環(huán)境中部署深度學習應用程序,應用有圖像分類、分割和目標檢測等,可提供最大的推理吞吐量和效率。TensorRT是第一款可編程推理加速器,能加速現有和未來的網絡架。TensorRT 4.0實現全棧連接。
與CPU相比,NVIDIA TensorRT 4 現在可以將AI任務的參數加速200倍,適用于圖像分類、分割、物體檢測、語音識別、機器翻譯等應用。
此外,還有英偉達GPU Kubernets。
Kubernetes借助NVIDIA GPU,開發(fā)人員現在可以即時地將GPU加速的深度學習和HPC應用程序部署到multi-cloud GPU群集中。
“人生完整了?!秉S仁勛說。
暫停無人車研發(fā),英偉達股價下跌3.8%
一口氣發(fā)布這么多款產品,黃教主可謂是蠻拼的,但其實這樣做也是英偉達不得不為之的事情。
值得一提,在黃仁勛演講接近尾聲的時候,英偉達股票下跌了3.8%。
“我們要暫定無人駕駛的研發(fā)?!秉S仁勛說。
Uber自動駕駛致死事故顯然對英偉達造成了巨大的影響。根據公開資料,Uber從2016年首次部署沃爾沃SC90 SUVS測試車隊以來,一直使用英偉達的計算技術。
這讓人想起了當年特斯拉車禍時,與特斯拉分手的Moibleye——但不同的是,Mobileye并沒有要停止研發(fā),而是迅速搭上了其他公司,而后被英特爾以153億美元的高價收歸旗下。
英偉達目前沒有表示具體研發(fā)計劃暫定的時間。
雖然現實世界中停止路測,但英偉達還推出了一個測試自動駕駛汽車的新系統(tǒng)DRIVE Con stellation,這是一款基于云計算的平臺,將使用逼真模擬測試駕駛場景。
系統(tǒng)在兩臺服務器上運行。第一臺服務器支持Nvidia DRIVE Sim,它一款模擬自動駕駛汽車各種傳感器(包括其攝像頭,激光雷達和雷達)的軟件。第二臺服務器包含Nvidia DRIVE Pegasus AI,它將處理收集的數據,就好像它來自道路上自駕車的傳感器。
前壓后趕,英偉達衰相已現?
其次,也不要忘記英偉達面臨的眾多對手。
首先是英特爾。英特爾去年宣布發(fā)布Nervana神經網絡處理器(NNP)系列芯片,代號為Lake Crest。這款芯片的強大之處在于,它由“處理集群”陣列構成,處理“活動點(flexpoint)”的簡化數學運算。這種運算相對于浮點運算所需的數據量更少,性能號稱提升10倍。
不過,Nervana系列芯片宣稱2017年年底量產,但直到現在還一直跳票;而且,英偉達已經在游戲、深度學習、自動駕駛等領域建立起自己的芯片生態(tài)圈,“護城河”相當寬。但是,就像黃教主經常揶揄CPU的摩爾定律一樣,反過來看,GPU并沒有本質上的突破,GPU的現在優(yōu)勢可能很容易就被性能一日千里的神經網絡芯片超越,英偉達的護城河很快就會被攻破。
跟英特爾一起攻城的還有賽靈思。
今年3月20日,賽靈思推出ACAP(Adaptive Compute Acceleration Platform,自適應計算加速平臺),ACAP是一個高度集成的多核異構計算平臺,它的核心是新一代FPGA架構,能根據各種應用與工作負載的需求從硬件層對其進行靈活變化。ACAP的靈活應變能力可在工作過程中進行動態(tài)調節(jié),它的功能將遠超FPGA的極限。
賽靈思新任CEO Victor Peng在接受新智元采訪時表示,GPU雖然在某些方面比CPU能處理的更好,但也不能適應所有的情況,因此現在更多需要的是異構計算。尤其是在人工智能時代,賽靈思也想通過自身在異構計算方面優(yōu)勢來實現對英偉達以及英特爾的趕超。
除了前面兩個大塊頭,AI芯片創(chuàng)業(yè)公司也讓這片市場從藍海變成紅海。中國有寒武紀、地平線、深鑒科技,英國有哈薩比斯投資的Graphcore,美國也有多家AI芯片初創(chuàng)公司。這些公司針對的是不同的應用場景,每一家都有可能搶走英偉達的細分市場。
不過,最能給英偉達造成威脅的,還應當是帶頭大哥谷歌。
雖然谷歌的TPU只是用在谷歌內部,但單從硬件性能看,TPU已經超越英偉達GPU。
黃教主,你壓力大嗎?
【2018 新智元 AI 技術峰會倒計時 1 天】
聯系客服