一、計算架構(gòu)和存儲的瓶頸
隨著人工智能計算的需求劇增,現(xiàn)有計算架構(gòu)遭遇功耗墻、性能墻、內(nèi)存墻、摩爾定律趨緩等挑戰(zhàn)迫切需要計算架構(gòu)的創(chuàng)新,解決路徑主要體現(xiàn)在兩點:突破計算架構(gòu)和打破存儲墻。
計算架構(gòu)的創(chuàng)新一直是爭論的焦點,在應用上涌現(xiàn)的GPU、FPGA、ASIC、類腦甚至于3DSoC等,都是想打破適應性、性能、功效、可編程性和可擴展性等5個硬件特性的瓶頸,任何一個架構(gòu)都不會在5個特性都達到最優(yōu)。杜克大學陳怡然教授在2018人工智能計算大會上的觀點我比較認同,拋開哪個架構(gòu)最優(yōu),適合你的業(yè)務場景、數(shù)據(jù)類型、支出成本的架構(gòu),能讓你的企業(yè)跑起來賺到錢的就是好的架構(gòu)。
計算架構(gòu)更新資金成本的提高、時間成本的延長和復雜度的提升,促使學術界和產(chǎn)業(yè)界轉(zhuǎn)向研究“如何打破存儲墻”,解決路徑好多種,包括:
1. 高帶寬的數(shù)據(jù)通信
高速SerDes:點對點的串行通信提升傳輸速度
光互連:信號間無感應、無干擾、速率高、密度大替代電互聯(lián)
2.5D/3D堆疊技術:搭積木,不改變現(xiàn)有產(chǎn)品制程的基礎上提高單位芯片面積內(nèi)的晶體管數(shù)量,處理器周圍堆疊更多的存儲器件
2. 數(shù)據(jù)靠近計算
增加緩存級數(shù):處理器和主存插入高速緩存,相對來說緩存越大速度越快,但成本高。
高密度片上內(nèi)存:EDRAM動態(tài)隨機存取內(nèi)存、PCM相變存儲的靜態(tài)和非晶體轉(zhuǎn)換
3. 存內(nèi)運算
近數(shù)據(jù)計算:離數(shù)據(jù)更近的邊緣側(cè)進行計算處理。
存算一體:片外高帶寬內(nèi)存HBM、高帶寬存儲(3D-Xtacking,存儲單元和外圍電路在不同晶園獨立加工)和片內(nèi)(在存儲器顆粒本身的算法嵌入)。
二、存算一體的原理、優(yōu)劣勢和應用
1.原理
馮諾伊曼架構(gòu)是計算機的經(jīng)典架構(gòu),同時也是目前計算機以及處理器芯片的主流架構(gòu)。在馮諾伊曼架構(gòu)中,計算/處理單元與內(nèi)存是兩個完全分離的單元:計算/處理單元根據(jù)指令從內(nèi)存中讀取數(shù)據(jù),在計算/處理單元中完成計算/處理,并存回內(nèi)存。
存內(nèi)運算的主要改進就是把計算嵌入到內(nèi)存里面去,內(nèi)存變成存儲+計算的利器,在存儲/讀取數(shù)據(jù)的同時完成運算,減少了計算過程中的數(shù)據(jù)存取的耗費。把計算都轉(zhuǎn)化為帶權重加和計算,把權重存在內(nèi)存單元中,讓內(nèi)存單元具備計算能力。
內(nèi)存內(nèi)計算對于人工智能芯片帶來什么影響?首先,存內(nèi)計算本質(zhì)上會使用模擬計算,計算精度會受到模擬計算低信噪比的影響,通常精度上限在8bit左右,而且只能做定點數(shù)計算(精確到整數(shù)),難以做浮點數(shù)(精確到小數(shù)點)計算。所以,需要高計算精度的人工智能訓練市場并不適合內(nèi)存內(nèi)計算,換句話說內(nèi)存內(nèi)計算的主戰(zhàn)場是在人工智能推理市場。即使在人工智能推理市場,由于精度的限制,內(nèi)存內(nèi)計算對于精度要求較高的邊緣服務器計算等市場也并不適合,而更適合嵌入式人工智能等對于能效比有高要求而對于精確度有一定容忍的市場。
第二,存內(nèi)計算其實最適合本來就需要大存儲器的場合。舉例來說,F(xiàn)lash在IoT等場景中本來就一定需要,那么如果能讓這塊Flash加上內(nèi)存內(nèi)計算的特性就相當合適,而在那些本來存儲器并不是非常重要的場合,為了引入內(nèi)存內(nèi)計算而加上一塊大內(nèi)存就未必合適,因此,存內(nèi)計算有望成為未來嵌入式人工智能(如智能IoT)的重要組成部分。
第三,存算一體芯片解決計算瓶頸問題,本質(zhì)是乘積累加運算(Multiply Accumulate, MAC)操作加快的體現(xiàn)。乘積累加運算是在數(shù)字信號處理器或一些微處理器中的特殊運算,現(xiàn)在是在存儲器實現(xiàn)此運算操作的硬件電路單元,被稱為“乘數(shù)累加器”。這種運算的操作,是將乘法的乘積結(jié)果和累加器A的值相加,再存入累加器,以節(jié)省整個乘加操作的執(zhí)行延遲。
2.驅(qū)動力
存算一體的商業(yè)驅(qū)動力,換句話說為什么火了,主要是源于深度學習對存儲器的需求、深度學習易于并行計算、深度學習市場潛力推動人工智能發(fā)展、摩爾定律的成本越來越高。
杜克大學陳怡然教授指出存內(nèi)計算為什么火了:是因為出現(xiàn)了以深度學習為代表的應用。一個典型運算包括兩個運算輸入和一個運算操作。之前的很多科學計算應用兩輸入都是實時產(chǎn)生的,存內(nèi)計算意義不大。神經(jīng)網(wǎng)絡的權重是固定的,只有輸入是實時產(chǎn)生的,才產(chǎn)生了將權重存在內(nèi)存,等外部輸入進入后再計算的存內(nèi)計算的需求。
3.類型及優(yōu)劣勢
(1)片外存儲(基于數(shù)字芯片和存儲器配合的存算一體)
①高帶寬內(nèi)存HBM:
對于GPU來講,采用3D的DRAM和GPU金屬線連接,提高通信速度(900GB/S),但功耗高、成本高。
對于其他芯片來說,用SRAM替代HBM(3D DRAM)降低能耗和提升讀寫速度,成本高。這種情況用大量的SRAM可以匹配大量的MPU和CPU等處理器,提升運行的效率。
②新型存儲拓寬內(nèi)存:
使用新型存儲器布局在處理器周圍拓展內(nèi)存,比如磁存儲(MRAM)降低成本、提升存儲密度,斷電數(shù)據(jù)不丟失,工藝僅多提高3-4層MASK,性能有效提升,達到約10Tops/W(每瓦特10萬億次運算)。
(2)片內(nèi)存儲(數(shù)?;旌系拇嫠阋惑w化)
片內(nèi)存儲就是在存儲器顆粒嵌入算法權重MAC,將存儲單元具備計算功能,并行計算能力強,加上神經(jīng)網(wǎng)絡的對于計算精度的誤差容忍度較高(存儲位數(shù)可根據(jù)應用調(diào)整),因此存內(nèi)計算數(shù)字和模擬混合即使帶來誤差對于符合的應用性能和能效比合適,帶來存內(nèi)計算和人工智能尤其深度學習的廣泛結(jié)合。
①相變存儲PCM
相變存儲器通常是改變加熱時間促進硫族化合物在晶態(tài)和非晶態(tài)巨大的導電性差異來存儲數(shù)據(jù),相變時間100-1000ns,可擦寫次數(shù)達到108,現(xiàn)在新型材料涌現(xiàn)的越來越多。
②阻變存儲器/憶阻器 RRAM/Memristor
憶阻器,是一種有記憶功能的非線性電阻,它的電阻會隨著流過的電流而改變。在斷電之后,即使電流停止了,電阻值仍然會保持下去,直到反向電流通過,它才會返回原狀。所以,通過控制電流變化可以改變它的阻值,然后例如將高阻值定義為“1”,低阻值定義為“0”,就可以實現(xiàn)數(shù)據(jù)存儲功能。人們通常將它用于構(gòu)建高密度非易失性的阻變存儲器(RRAM)。
憶阻器網(wǎng)絡,與生物大腦的神經(jīng)網(wǎng)絡相似,可以同時處理許多任務。最重要的是,它無需反復移動數(shù)據(jù)。它可以并行地處理大量信號,特別適合于機器學習系統(tǒng)。編程時間大概10-1000ns,可編程次數(shù)106-1012次。
③浮柵器件
浮柵器件工藝成熟,編程時間10-1000ns,可編程次數(shù)105次,存儲陣列大,實現(xiàn)量產(chǎn)運算精度高、密度大、效率高、成本低,適宜深度學習和人工智能使用。
3.芯片優(yōu)化策略
終端存算一體芯片推理應用需要更低的成本、更低的功耗,對于精度、通用性要求不高。
云端存算一體芯片訓練應用需要通用性、速度和精度要求,因此目前存算一體芯片精度不高情況下適宜前端的嵌入式應用。
4.存算一體芯片挑戰(zhàn)
(1)現(xiàn)有浮柵器件存儲不適合計算,需要優(yōu)化和改進。
(2)新型存儲器的進展挑戰(zhàn)浮柵器件,會有更適合存算一體的可能。
(3)存算一體目前在8bit運算精度,在適宜的條件下需提升運算精度,比如Nor Flash做到10bit。
(4)存算一體芯片與開發(fā)環(huán)境、架構(gòu)和現(xiàn)有工藝的兼容需要市場和時間。
(5)性能與場景結(jié)合需要落地。
5.存算一體的未來
(1)低精度但準確的乘法和累加運算帶來端的效率提升,芯片成本降低,目前Nor Flash在40nm/55nm工藝下即可,但Nor 會一定程度限定應用,不過未來開發(fā)更優(yōu)化器件和工藝就可突破。
(2)存算一體芯片的投資機構(gòu)包括軟銀、英特爾、微軟、博世、亞馬遜甚至美國政府,中國存算一體的知存科技將獲得下一輪的投資,同時還有清華憶阻器的新憶科技。
(3)存算一體芯片第一代產(chǎn)品都瞄準語音,未來都將切入安防和細分市場,但。
(4)存算一體企業(yè)模式應分為兩種模式:一是銷售IP,二是做AI存算一體芯片,前者單純IP日子將非常難過。未來還是做芯片吧!不過各類競爭也不小。
(5)目前存算一體的極限效率為>300Tops/W(8bit),現(xiàn)在工業(yè)界差距較大5-50Tops/W,進步空間大。
(6)浮柵器件在摩爾定律帶動下朝著更高工藝發(fā)展,比如從40-14nm過渡,性能將大幅提升。新型存儲器將從28-5nm工藝過渡,提升工藝性能。
(7)存儲器工藝將朝著2X甚至10X及結(jié)構(gòu)優(yōu)化提升存算一體性能。
6.存算一體的應用
低功耗持續(xù)運行的物聯(lián)網(wǎng)設備,比如智能家居、可穿戴設備、移動終端及感知計算、智慧城市需要的低功耗邊緣計算設備。
三、存算一體的重要玩家
1.IBM
IBM在相變存儲(PCRAM)里實現(xiàn)神經(jīng)網(wǎng)絡計算的功能,利用新型存儲器件的模擬計算功能來實現(xiàn)神經(jīng)網(wǎng)絡的計算。
2.加州大學圣芭芭拉分校謝源教授
謝源教授的研究團隊在新型存儲器件ReRAM(阻變存儲)里面做計算的功能,讓存儲器件做神經(jīng)網(wǎng)絡的計算,稱之為PRIME架構(gòu)。2018年謝源團隊和新竹清華大學張孟凡教授團隊以及北京清華大學劉勇攀教授團隊和汪玉教授團隊合作,把PRIME的架構(gòu)在150nm工藝下流片,在阻變存儲陣列里實現(xiàn)了計算存儲一體化的神經(jīng)網(wǎng)絡,功耗降低20倍,速度提高50倍。
謝源教授和三星存儲研究部門推出DRISA架構(gòu)就是在DRAM的工藝上,實現(xiàn)了卷積神經(jīng)網(wǎng)絡的計算功能。
3.加利福尼亞州歐文市的Syntiant
位于美國加利福尼亞州的AI芯片初創(chuàng)企業(yè)Syntiant打造一類全新的超低功耗、高性能深度神經(jīng)網(wǎng)絡處理器,Syntiant的神經(jīng)決策處理器(Neural Decision Processor,NDP)沒有傳統(tǒng)處理器架構(gòu)的限制,使用模擬神經(jīng)網(wǎng)絡,該網(wǎng)絡可以通過極高的內(nèi)存效率實現(xiàn)極低的功耗,并且具有大規(guī)模并行乘法累加計算的能力。Syntiant聲稱與傳統(tǒng)的數(shù)字存儲架構(gòu)相比,使用整個網(wǎng)絡的模擬電路,希望達到20TOPS/W,Nvidia Volta V100 GPU可以達到0.4TOPS/W,NPD的效率提高提高了約50倍。Syntiant的第一批產(chǎn)品已經(jīng)成功流片,該公司在2018年早些時候演示了一個原型NDP,它可以同時支持數(shù)十種應用程序定義的音頻和關鍵字分類,使開發(fā)人員能夠創(chuàng)建定制的始終在線的語音用戶界面。同時,該處理器針對音頻數(shù)據(jù)速率進行了優(yōu)化,能夠進行揚聲器識別,音頻事件檢測、環(huán)境分類、傳感器分析,并開始研發(fā)其第二代芯片,將擴大Syntiant技術在視頻方面的應用,該芯片是20 tera-operations/watt 的NPD,計劃于2019上半年開始提供樣品。2018年10月Syntiant獲得由M12(前身為微軟風險投資公司)領投的2500萬美元B輪融資,其它戰(zhàn)略投資者包括亞馬遜Alexa基金、應用創(chuàng)投(Applied Ventures)、英特爾資本、摩托羅拉解決方案風險投資、博世風投。
4.德克薩斯州奧斯汀的Mythic
Mythic環(huán)繞著帶有可編程數(shù)字電路的模擬閃存陣列,目標是每次乘法和累加運算僅消耗0.5焦耳,每瓦特可支持約4萬億次操作(TOPS/W)。2018年3月,Mythic宣布完成了由SoftBank Ventures領導的4000萬美元的投資,以幫助將高速,低功耗AI芯片推向市場。Lockheed Martin Ventures對Mythic進行了戰(zhàn)略投資。此輪融資包括來自Mythic現(xiàn)有投資者Draper Fisher Jurvetson,Lux Capital,Data Collective和AME Cloud Ventures。Sun Microsystems聯(lián)合創(chuàng)始人Andy Bechtolsheim(曾是谷歌的早期投資人)也有所參與。Mythic計劃在今年年底之前出廠第一批硅片樣品,并于2019年全面投產(chǎn)。
5.知存科技
知存科技成立于2017年10月的知存科技,成為國內(nèi)存算一體的標志企業(yè),獲得兆易創(chuàng)新、啟迪方信、科大訊飛等投資,第一款芯片預計2019年量產(chǎn),面向超低功耗語音識別,將達到三十倍功耗降低,三倍生產(chǎn)成本降低,未來將開發(fā)視頻和圖像AI芯片和加速卡、人機交互物聯(lián)網(wǎng)芯片。
6.新憶科技
新憶科技成立于2018年,清華大學背景,致力于憶阻器的研發(fā)和產(chǎn)業(yè)化,清華華控投資。
參考文獻:
1.《內(nèi)存內(nèi)計算,下一代計算的新范式?》
1.《內(nèi)存內(nèi)計算,下一代計算的新范式?》 來源:中國電子報。作者:李飛