调戏美女视频,刘诗诗吴奇隆采访视频

原標題：GPU高功耗軟肋已成最大危機？“AI 硅腦”迎來戰(zhàn)國時代，GPU十年霸業(yè)將遭“圍剿” | 獨家觀點

隨著 AI 技術的進步與更迭，一批新型科技公司將趁勢崛起，國外比較有代表性的包括 Graphcore、Wave Computing 等，而國內也陸續(xù)出現(xiàn)了諸如地平線機器人、寒武紀科技、深鑒科技等初創(chuàng)公司。這些主攻人工智能芯片及相關解決方案的初創(chuàng)公司也都在 AI 計算領域向傳統(tǒng)巨頭，如 NVIDIA 發(fā)起挑戰(zhàn)，欲在市場中分得一杯羹。

但由于 GPU 主導了目前的 AI 計算領域，初創(chuàng) IC 設計公司要向 GPU 發(fā)出挑戰(zhàn)，就要從能效比、規(guī)模以及可應用的場景等幾個大方向進行，但現(xiàn)實上還是挑戰(zhàn)重重。首先，GPU 架構雖非絕對完美，但是在 NVIDIA 的持續(xù)改進之下，可使用的場景也逐漸增加，傳統(tǒng) CPU 大廠，如英特爾，也不甘人后地推出架構強化的 CPU 并結合 FPGA 的力量，想要反攻 AI 計算產(chǎn)業(yè)。

圖丨 NVIDIA 的 GPU 計算方案仍是 AI 計算主流，但面臨的挑戰(zhàn)愈加激烈

要挑戰(zhàn)這些巨頭，除了架構上要有高度的針對性，能帶給客戶更高的價值，或者從軟件算法或開發(fā)環(huán)境著手創(chuàng)造出差異化，如果單純硬碰硬，在缺乏生態(tài)的支持下，很難長久存活下去。

GPU 是目前當紅 AI 計算架構，但業(yè)界需要更高能效的方案

自從大型機出現(xiàn)在市場上，不僅帶動了計算架構與計算資源應用的發(fā)展，就連軟件也為了要妥善利用這些計算能力而有了明顯的進化。而業(yè)界在使用這些軟件時，又會激發(fā)出對硬件在設計上的新要求。而自從機器學習成為服務器主要應用之一后，相關的計算硬件架構也發(fā)生了很大的變化，比如說過去云端服務器架構清一色都是 CPU 架構，尤其是英特爾的 X86 CPU，憑借著生態(tài)以及成本的優(yōu)勢，贏得超過九成的服務器市場。

然而，面對機器學習，CPU 架構本身在大量并行處理能力上的缺點就顯露出來了，除了核心規(guī)模過大，核心數(shù)量過少，帶寬也限制了整體計算效能的發(fā)揮。且大核心雖然可以快速處理完單一線程的復雜工作，但面對少量多樣，且計算內容相對單一的機器學習計算模式，CPU 本身的流水線設計就無法快速處理這類型的大批量工作，結果就是功耗大增，且計算效率低下。

圖丨 CPU 和 GPU 核心特性決定了個別應用的計算效率。

而 GPU 之所以成為當代 AI 主要計算方式，就在于它擁有了數(shù)以千計的微小核心，核心的規(guī)模雖明顯小于 CPU，只能做相對簡單的計算，亦無法直接啟動操作系統(tǒng)。但簡單正是其最大的武器，這些龐大的核心群可以在一瞬間同步處理完數(shù)千到數(shù)萬個簡單的計算工作線程，而其具備直連 GPU 芯片的龐大本地端內存，且?guī)捯惨h大于 CPU 體系。

并且，像 NVIDIA 這種公司為其 GPU 搭配了 CUDA 環(huán)境更是大大降低了相關 AI 計算程序的開發(fā)復雜度，也因此 GPU 在 AI 領域的應用一日千里，到目前主要云端 AI 計算架構都是以 GPU 為主。

但 GPU 也不是沒有缺點，尤其是功耗問題，1 塊 GPU 計算卡動輒數(shù)百瓦的功耗，如果規(guī)模一大，那么對整個計算中心的功耗控制就會顯得特別麻煩。舉例來說，卡內基梅隆大學（Carnegie Mellon University）雖是一所領先的人工智能研究院校，但甚至他們都必須要求研究人員縮短芯片的使用時間，因為這會給學校的電力系統(tǒng)帶來沉重壓力。CMU 教授 Franz Franchetti 說，該大學正在尋找替代能源來緩解這個問題。

圖丨 GPU 計算卡功耗極大，隨著規(guī)模增加，對相關企業(yè)的電力管理是一大負擔。

尤其在 Google 推出 TPU 架構后，其優(yōu)秀的能耗比更把 GPU 的能耗問題推至臺前。

而在個別應用領域中，比如說自動駕駛，NVIDIA 的 Drive PX 以及 Xavier 性能雖強，但整體功耗仍會對汽車的電力系統(tǒng)造成一定壓力，且除了電動車，一般狀態(tài)下的汽油車是只有引擎發(fā)動時才能發(fā)電帶動功耗較大的設備功能，比如說冷氣，如果自動駕駛的控制核心就必須消耗上百瓦的功耗，雖然理論上可以在怠速時關閉大部分針對自動駕駛的計算功能來節(jié)省功耗，但對于燃油汽車的傳統(tǒng)電池仍會造成相當大的壓力。

圖丨自動駕駛的控制核心必須統(tǒng)合龐大的數(shù)據(jù)，從而判斷出駕駛環(huán)境并決定駕駛策略。

然而，就算是電動車，如果非馬達部件需要消耗這么大的電力，那對于行駛里程也將有一定的減損。且如果開啟自動駕駛，這些控制核心為了對外圍環(huán)境進行計算、掌握變化，并隨時針對駕駛情境進行反應，理論上都是要不間斷、滿負荷工作，根本也沒有太多機會像手機或平板平臺會有機會進入可以降低功耗的休息模式。

彈性和能效難兩全？

GPU 雖具備一定程度的程序化配置能力，可適應大部分的計算環(huán)境，但目前多數(shù)的 AI 計算卻顯得相當針對性，尤其是在幾大主要應用中，比如說視覺識別使用的 CNN (Convolutional Neural Network) 以及自然語言處理方面常見的 RNN (Recurrent Neural Network)，通常在計算模式有固定使用的幾種方式，換言之，如果犧牲了一部份彈性，把這些常用模式以 ASIC 的形式來進行加速，但可換來能效的大大提升，其實多數(shù)客戶的接受度不低。

另外，終端具備 AI 計算能力已經(jīng)逐漸成為趨勢，比如說手機上的 AI 核心，或者是智能音箱中未來也可能會配置 AI 計算單元，這部分 GPU 架構可能就幫不上忙，這主要是功耗問題，尤其是目前在行動平臺上 GPU 的功耗幾乎與 CPU 不相上下，有的甚至有過之而無不及，且 GPU 通常還要負責使用接口的繪制，分心去進行 AI 計算的話有可能造成系統(tǒng)的延遲，所以這部分的趨勢將是走專屬 ASIC 的內嵌式計算單元。

面對 FPGA 與 ASIC 的挑戰(zhàn)

前面也提到，GPU 過去是為了繪圖而生，但因為其設計來繪圖的向量計算單元剛好可挪做它用，且因為具備龐大的并行處理能力，因此成就了為計算而生的 GPGPU，并帶動了后來的 AI 產(chǎn)業(yè)發(fā)展。

而 GPU 本身用來運行 AI 的計算單元大概占芯片面積的 4 成左右，為了維持彈性以及既有的繪圖能力，多數(shù)的晶體管并不會用來處理 AI 計算，而 ASIC 除了必要的對外連接以及對內的中控部分，其余的晶體管都可完全被使用在計算上，所以在整體能效上的落差也是這么來的。

但 GPU 目前生態(tài)布局主要在云端，終端只有少數(shù)幾樣應用正在進行，比如說 NVIDIA 針對自動駕駛領域推出的 Drive PX 和 Xavier 平臺?？傮w來看，雖然性能相當可觀，但功耗仍偏高，且必須使用主動散熱方式，否則難以適應汽車嚴苛的使用環(huán)境。

圖丨NVIDIA Drive PX & Xavier

相較之下，包含 Mobileye、Renesas、NXP 等對手幾乎都是采用 ASIC 方式針對圖像或對象識別采用專屬的加速架構，Mobileye 在 ADAS 市場占了將近 7 成市占，是最早投入自動駕駛的方案商之一，其最新的自動駕駛方案 EyeQ4 可以在 3W 的功耗限制下提供 2.5TOPS 的性能表現(xiàn)，且是基于 28nm 工藝，相較之下，NVIDIA 最新的 Xavier 雖在 16nm 工藝下提供達 20TFOPS 的性能表現(xiàn)，但功耗達 80W。而 Mobileye 下一代自動駕駛方案性能將提升到 17TOPS，但功耗僅增加至 5W，這是非 ASIC 架構的 NVIDIA 所難以達到的。

雖然 ASIC 從設計、生產(chǎn)，到開發(fā)環(huán)境的經(jīng)營，都要花費很大的成本，使得單一芯片的成本可能要更高于 GPU 不少，但如果考慮到高能效帶來的功耗節(jié)省以及效率提升所能帶來的總體維持/營運成本的降低，其實長期來看這樣的投資似乎還是劃算。

而 FPGA 也開始急起直追，包括英特爾以及 Xilinx 都推出針對 AI 計算環(huán)境的方案。以英特爾的 Stratix 10 為例，其計算性能可達 10TFLOPS，且功耗僅 120W，以 NVIDIA 的 Tesla V100 為例，雖然具有略高于 Stratix10 的 14TFLOPS 性能表現(xiàn)，但功耗高達 300W。而英特爾推即將出的下一代 AI 計算卡 Knights Landing 及 Lake Crest 計算架構，在性能表現(xiàn)上預計將能倍數(shù)成長，且功耗維持一致。

更多要求高效率的計算架構逐漸舍棄 GPU

而目前越來越熱門的終端 AI 計算趨勢，GPU 已經(jīng)顯得越來越弱勢，主流的核心方案，比如說蘋果 A11，華為的麒麟 970，甚至未來聯(lián)發(fā)科的 AI 手機芯片布局，都會走向專屬計算單元，在芯片中內建獨立的 AI 計算單元，這類計算單元會取代大部分過去 AI 計算工作需要 GPU 所強調的 GPGPU 計算功能以及 OpenCL 支持能力。

圖丨華為 Mate 10 與 iPhone X 都在芯片中集成了獨立 AI 計算單元。

但像英特爾也結合 FPGA 的力量，配合 CPU 本身體質的改善以及指令集的增加，試圖把 NVIDIA 請出云端，其強調的重點，也是在能效比。而像中國寒武紀、地平線、深鑒，其推出的方案也都走向高能效比，GPU 架構可以說是四面受敵。

以下我們針對各種能夠威脅到 GPU 在未來 AI 霸業(yè)的幾大具有潛力的架構進行簡單分析。

1. Graphcore 的 IPU

Graphcore 認為，AI 計算要被分為訓練和推理本身就不是正確的分類方向，正常的 AI 計算架構本來就應該要能同時處理這二者的工作，且針對未來的持續(xù)性學習（Continuous Learning）機制，未來理想的 AI 必須要在模型部署之后還能持續(xù)的學習進化。

圖丨在 Graphcore 的 IPU 模型中，并沒有額外提到訓練的部分，而是和推理引擎合而為一。

IPU 是一個標準的神經(jīng)網(wǎng)絡處理芯片，而且規(guī)模很大，通常具備數(shù)千到數(shù)百萬個頂點，除了標準神經(jīng)網(wǎng)絡之外，也適用于貝葉斯網(wǎng)絡（也稱為信度網(wǎng)絡、因果網(wǎng)絡，是指基于概率分析、圖論的一種不確定性知識的表達和推理的模型）和馬爾科夫網(wǎng)絡（馬爾可夫網(wǎng)絡類似貝葉斯網(wǎng)絡用于表示依賴關系。但是，一方面它可以表示貝葉斯網(wǎng)絡無法表示的一些依賴關系，如循環(huán)依賴；另一方面，它不能表示貝葉斯網(wǎng)絡能夠表示的某些關系，如推導關系），而因為架構具備彈性，未來的新模型與算法理論上也都能夠完美支持。

圖丨 IPU 和其他計算架構的芯片布局比較。

由于其龐大的頂點數(shù)量，遠超出現(xiàn)有最大 GPU 的規(guī)模數(shù)百倍，這也意味著其在并行工作的處理潛力非常驚人。另外，這些頂點都是稀疏的，絕大多數(shù)頂點都只連結到其他一小部分頂點。另外，IPU 也是針對低精度的數(shù)據(jù)模型優(yōu)化，也就是具備數(shù)據(jù)的統(tǒng)計近似值概念，這和過去超算的概念完全不同。另外，IPU 也支持了模型參數(shù)的復用。簡單來說，卷積是空間復用，回歸是時間復用。這些復用特性可以獲取數(shù)據(jù)中的空間或時間不變性，對于訓練與推理的性能會有明顯幫助。

IPU 也具備了大量的片上緩存，以及通過 HBM 連接的片上內存，傳統(tǒng)服務器架構要連結到 CPU 或 GPU，通常都是通過多層的存取總線設計，一層一層傳遞下來，傳遞過程就會產(chǎn)生龐大的延遲，且不同層的內存也需要獨立的控制單元，以及能源供應，整體而言能效就會較差。

圖丨 IPU 的架構圖

但如果大部分的工作都能在片上，甚至芯片內部就處理完，那就可以大幅降低延遲。IPU 的設計理論上最終是要把所有的模型都放到片上內存，并且在芯片內部集成大量緩存，達成 memory-centric 設計，并且針對應用分別調整計算單元的規(guī)模，最終達到能耗的最優(yōu)化。

另外，IPU 也針對很多數(shù)據(jù)的傳輸與計算進行優(yōu)化，比如說其計算和通信采用串行處理，理論上可以讓不同工作都可以充分利用最大能量，無論實際工作量如何均衡，該計算工作都能在最短時間內完成。

IPU 預計在標準 300W 的功耗之下，將提供遠超過 NVIDIA 最新的 V100 的性能表現(xiàn)。

Graphcore 在 IPU 設計上用了很多相當極端的想法，而雖然理論上以其規(guī)模應該更適合放到云端，但 Graphcore 認為 IPU 架構擁有很好的伸縮性，邊緣或是終端計算同樣能良好勝任。Graphcore 的 IPU 預計在 2018 年初量產(chǎn)上市。

2. Wave Computing 提出能效超越 FPGA 的 GPU 架構

Wave Computing 是一家成立于 2010 年的公司。原名 Wave Semiconductor，于 2016 年改為 Wave Computing。Wave 的策略方向從最初的提供芯片方案的半導體公司，轉變成一家提供計算技術解決方案的公司。該公司不僅希望他們的系統(tǒng)可以將現(xiàn)在基于 GPU 的神經(jīng)網(wǎng)絡的訓練性能提高 10 倍，而且要在能效方面超過 FPGA。

Wave 開發(fā)的芯片命名為 DPU（Dataflow Processor）。其計算方案內有 4 個 DPU 硬件加速板，每個 DPU 板上集成 4 個 DPU 芯片。Wave 號稱其硬件加速方案可以直接用于現(xiàn)有的數(shù)據(jù)中心的服務器架構中。

圖丨 Wave 的 DPU 計算方案架構圖

DPU 使用異步邏輯實現(xiàn)其基本計算單元 PE。沒有集成時鐘信號，PE 只要一收到操作數(shù)據(jù)，就觸發(fā)計算，并得到結果。DPU 內集成了 16,000 個 PE。每個 PE 都可以當作是獨立的處理器，擁有自己的指令存儲器、數(shù)據(jù)存儲器、寄存器和處理單元，pipeline 的指令緩存可以每 0.1ns 發(fā)出一條新指令，相當于 PE 可以達到 10GHz 的峰值頻率。每個 PE 擁有 1KB 的單口數(shù)據(jù)存儲器，訪問速度可以達到 5GHz。而值得注意的是，DPU 內有 16000 個 PE，也就是說，每個 DPU 內有 8MB 的 IRAM(指令內存) 和 16MB 的 DRAM(動態(tài)內存)，是非常恐怖的規(guī)模。

圖丨 DPU 內，每 4 個全連接的 PE 組成一個 Quad，4 個 Quad 組成一個 cluster。每兩個 PE 共享一個 8-bit 加法器。每個 cluster 內包含 8 個算術單元（包括 2 個 32-bit MAC、2 個 32-bit BMU 和 4 個 16-bit 加法單元），可以根據(jù)需要組成 8/16/24/32/64bit 操作。而且支持 SIMD 和 MIMD 指令。

DPU 因為沒有時鐘樹分布，芯片面積可大幅降低，且計算單元只有在需要的時候才工作，功耗亦可大幅減少。舉例來說，每個 PE 核的大小甚至要比 ARM 的 Cortex-M 還要小，DPU 還內建了 1 個來自臺灣晶心科技(Andes)的 32 位 CPU 內核。

而根據(jù)公開測試數(shù)據(jù)，WAVE 的 DPU 可將 AlexNet 的訓練時間降到 12 分鐘，相較之下 NVIDIA 的 GPU（Pascal）需要 120 分鐘。另外針對 Inception 網(wǎng)絡的訓練數(shù)據(jù)顯示，Wave 可以實現(xiàn)達 25 倍的加速。

3. 英特爾用 CPU FPGA 欲重新拿回 AI 計算話語權

雖說英特爾放到 50 年前才能叫做初創(chuàng)公司，不過在 AI 計算領域，英特爾的確算是挑戰(zhàn)者。

英特爾改進計算競爭力的方式其實相當老套，但相當有效。舉例來說，其針對 CPU 所提出的指令集改進，包含了 AVX 多媒體指令集的寬度增加，以此容納更大的數(shù)據(jù)流，其次，就是增加了 QFMA 以及 QVNNI 指令集，可加速深度學習的效率，而這是針對其 Xeon Phi 最新世代的 Knights Landing 架構產(chǎn)品。Knights Landing 集成了 72 個 Atom 核心，每個核心可以同時執(zhí)行 4 個線程，且透過 AVX、QFMA 以及 QVNNI 指令集三者并用，可達到與 GPU 類似規(guī)模的并行計算工作，效率是上一代產(chǎn)品的 4 到 8 倍。

圖丨 Knights Landing 架構，較前代有極高的效率成長。

英特爾在 2015 年收購了實力最強的 FPGA 設計公司之一 Altera，未來憑借 FPGA 布局，可針對一般通用計算以及深度學習計算環(huán)境提供不同方案，舉例來說，其 Crest 架構產(chǎn)品就提供了與 Graphcore 的 IPU 類似的架構方式，不僅集成龐大的計算元，并增加了大量的芯片內緩存以及片上內存。

另外，英特爾也通過收購 Nervana 為 Intel 帶來更多元的生態(tài)支持能力，并支持多種不同 AI 計算架構的基礎，通過 Nervana，客戶可以同時使用 GPGPU、Xeon Phi 以及 FPGA，但只要通過 Nervana，就可以無縫銜接這些計算能力，達成更高效能，或者更多元化的應用方式。

圖丨結合 Nervana 和 FPGA，英特爾想在 2020 年實現(xiàn)現(xiàn)今百倍 AI 計算效能。

總的來看，英特爾擁有豐富的架構資源，因此是想針對不同計算應用打造不同的平臺，而通過 Nervana，英特爾就可統(tǒng)合這些不同架構之間的開發(fā)環(huán)境，構筑強大的生態(tài)。

4. 寒武紀、深鑒

寒武紀是近來中國最受矚目的 AI 計算架構之一，最近更拿到政府高達 1 億美元的投資，其針對深度學習的神經(jīng)網(wǎng)絡芯片架構不僅在能效表現(xiàn)上相當出色，最大的優(yōu)勢在于其支持了幾乎所有平臺以及所有 AI 計算標準，使其在應用的廣度上可以和世界一流的平臺相提并論。

寒武紀本身是基于神經(jīng)網(wǎng)絡架構的 ASIC 芯片，本身沒有可重定義的能力，但把計算性能集中在深度學習上。

而寒武紀更提供了業(yè)界獨有的 IP 授權與芯片銷售方式并重的經(jīng)營模式，客戶可以根據(jù)自己的需要和規(guī)模，選擇線程方案，或者是使用 IP 授權，將寒武紀做到自己芯片中，就如華為的麒麟 970，而華為也表示，透過寒武紀的 NPU，其 AI 計算效能要比 GPU 計算快 6 倍。

圖丨寒武紀在其發(fā)表會揭露的 1A 芯片規(guī)格。

深鑒科技則是中國另一家炙手可熱的 AI 計算方案廠商，其最大的特點反而不是在芯片設計，而是在算法上，通過獨家的深度壓縮算法，可以大幅減少訓練之后的模型大小，讓對于存儲空間預算有限的嵌入式系統(tǒng)可以同樣享受 AI 應用服務。

圖丨深鑒提出的 DNNDK 可大幅降低 AI 應用開發(fā)時程。

而壓縮帶來的不只是模型存儲空間減少這個優(yōu)點而已，如果可以把模型直接壓縮數(shù)十倍，權重數(shù)量減少 3 倍，那就意味著你可以減輕帶寬負載到數(shù)十分之一，并同時把性能提高到 3 倍。以算法提升方案優(yōu)勢，目前深鑒可以說是業(yè)界做的比較優(yōu)秀的。

GPU 面臨變革，或許將徹底擺脫繪圖的部分？

前面也提到，GPU 中真正拿來計算的晶體管不過占全部晶體管的 4 成左右，雖然依靠規(guī)模取勝，目前計算效率仍數(shù)一數(shù)二，但面對未來各家采用 ASIC 或 FPGA 的新架構的挑戰(zhàn)，其實也開始有點捉襟見肘。

NVIDIA 在基于 Volta 架構的 Tesla V100 中就開始針對 AI 計算環(huán)境增加了 TensorCore 這個附加的向量加速單元，用來加速特定神經(jīng)網(wǎng)絡模型的計算，借此甚至整體計算能力可和 TPU 二代相提并論。然而就二者功耗比較，Tesla V100 功耗為 300W，TPU 二代雖稍慢，但功耗僅 130W，其能量效率的落差之大，或許 NVIDIA 該考慮減少些東西，而不是一直把更多的計算功能迭加上去。

至于該減少什么東西，或許該先被開刀的就是傳統(tǒng)繪圖部分的處理能力，畢竟 NVIDIA 的 GPU 設計已經(jīng)高度模塊化，繪圖能力保留給消費性 GPU 市場即可。

目前的情況是，針對 AI 計算的新架構概念不斷涌現(xiàn)，但 CUDA 生態(tài)在短時間內仍難以動搖。除了前面提到的幾家計算方案廠商，Mythic 及 Cerebras 也是近來相當出名的 AI 計算架構初創(chuàng)公司，這些公司也同樣獲得了投資人的青睞。

但值得注意的是，這些新公司依靠在架構設計上整并多個計算步驟來強化計算效能，或許可贏過 GPU 現(xiàn)階段無法省略太多計算步驟的方式，但前者多半是針對特定應用，后者則是強調通用性。然而初創(chuàng)公司也有風險，如果新產(chǎn)品面向太多市場應用，可能就會犧牲了性能或是原先強調的彈性，這么一來，恐怕就無法和既有的產(chǎn)業(yè)龍頭對抗，最終可能必須面臨被收購，甚或者是關門大吉的命運。

另外，新架構的供應者或許在能耗及性能表現(xiàn)有一定優(yōu)勢，但 GPU 計算所依恃的 CUDA 開發(fā)環(huán)境已經(jīng)是發(fā)展超過 10 年的堅實生態(tài)，圍繞著這個生態(tài)而生的相關應用已經(jīng)多不勝數(shù)，要如何突圍而出，從而建立自己的生態(tài)并非易事，但幸好目前已經(jīng)有 TensorFlow、Caffe、MXNet 等產(chǎn)業(yè)標準接口出現(xiàn)，只要遵循這些標準來開發(fā)產(chǎn)品，并且提供夠好的能耗表現(xiàn)，要能從 NVIDIA 的手中搶得市占，并非不可能。

NVIDIA 在 AI 生態(tài)獨霸了將近 10 年，下個 10 年是否還能獨領風騷？老將新秀群雄并起，即便其中能有懸念，但可確定的是，AI 計算架構的戰(zhàn)國時代已然到來。

-End-

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频