編者按:本文來(lái)自“機(jī)器之能”(ID:almosthuman2017),作者:四月,36氪經(jīng)授權(quán)轉(zhuǎn)載。
30年前,基于CNN(Cellular Neural Network)的定制化人工智能芯片的想法在美國(guó)加州大學(xué)伯克利分校的實(shí)驗(yàn)室里萌芽。
30年后,這個(gè)想法終于在硅谷的華人AI芯片創(chuàng)業(yè)公司Gyrfalcon Technology里得到實(shí)現(xiàn)(以下簡(jiǎn)稱(chēng)GTI)。
目前,這家成立不到兩年的公司已經(jīng)吸引了全球前五大手機(jī)芯片公司中的三家大客戶(hù)。
GTI合作客戶(hù)覆蓋手機(jī)、安防、機(jī)器人、工業(yè)和IoT領(lǐng)域,且已有量產(chǎn)產(chǎn)品出貨,其首個(gè)數(shù)據(jù)中心項(xiàng)目在2018年落地深圳。
GTI的芯片故事最早可以追溯到31年前。
1988年,加州大學(xué)伯克利分校的一位名叫楊林的博士和Leon Chua提出CNN(Cellular Neural Network)理論,并同年在IEEE上發(fā)表論文《Cellular Neural Networks: Theory》、《CellularNeural Networks: Applications》。楊林團(tuán)隊(duì)還基于該理論研發(fā)出一顆20*20矩陣的并行模擬電路芯片。
31年后,當(dāng)年的“CNN”逐步演化成當(dāng)下的卷積神經(jīng)網(wǎng)絡(luò)CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,而開(kāi)辟先河的兩篇論文的引用數(shù)也分別達(dá)到了3871和1462。
更讓人興奮的是,當(dāng)年那顆停留在實(shí)驗(yàn)室里的并行矩陣計(jì)算芯片終于在工業(yè)界落地——由楊林和董琪聯(lián)合創(chuàng)辦的AI芯片公司Gyrfalcon Technology(以下簡(jiǎn)稱(chēng)GTI)進(jìn)一步迭代和優(yōu)化,并衍生出多條產(chǎn)品線(xiàn)。
他們野心勃勃,希望借此在日益擁擠的AI芯片賽道上拔得頭籌。
機(jī)器之心1月9日消息(美國(guó)時(shí)間),CES2019期間,GTI帶來(lái)三款A(yù)I加速芯片,分別是面向AI終端的Lightspeeur?2801S、面向數(shù)據(jù)中心/云端的Lightspeeur?2803S 、以及全球首款采用MRAM(磁阻式隨機(jī)存取記憶體)技術(shù)的TheLightingpee?2802M。
活動(dòng)現(xiàn)場(chǎng),GTI數(shù)位聯(lián)合創(chuàng)始人充分展示了公司多項(xiàng)關(guān)鍵核心技術(shù),包括可同時(shí)兼?zhèn)溆?xùn)練和推理性能、可實(shí)現(xiàn)計(jì)算存儲(chǔ)一體化的獨(dú)創(chuàng)APiM架構(gòu)、采用MCMC網(wǎng)絡(luò)代替常見(jiàn)的SDG模型訓(xùn)練方法。
GTI強(qiáng)調(diào)其系列芯片在AI加速方面的高性能、低功耗、高性?xún)r(jià)比、小尺寸等特性,使用其開(kāi)發(fā)平臺(tái)能夠?qū)崿F(xiàn)非常快速和有效,支持最大規(guī)模的部署。
此外,MRAM(磁阻式隨機(jī)存取記憶體)技術(shù)也頗值得一提。
眼下主流的儲(chǔ)存器大致可分為兩類(lèi):一類(lèi)以傳統(tǒng)內(nèi)存DRAM、HM為代表,讀寫(xiě)速度快但具有易失性(斷電數(shù)據(jù)易丟失),另一類(lèi)以傳統(tǒng)閃存Flash為代表,具有非易失性但讀寫(xiě)速度慢。
而MRAM(磁阻式隨機(jī)存取記憶體)能同時(shí)兼顧非易失性和高速讀寫(xiě)。由于鐵磁體的磁性幾乎永不消失,因而磁阻內(nèi)存可以接近無(wú)限次地重寫(xiě),切斷電源時(shí),記錄的數(shù)據(jù)依然保存在磁性單元內(nèi),因而也不會(huì)丟失數(shù)據(jù),在超高速讀寫(xiě)時(shí)能耗也相對(duì)較低。
從MRAM芯片技術(shù)的特性上來(lái)看,它能解決計(jì)算機(jī)或手機(jī)啟動(dòng)慢、數(shù)據(jù)丟失、數(shù)據(jù)裝載緩慢、電池壽命短等問(wèn)題,從而改變消費(fèi)者使用電子設(shè)備的方式。因此,MARM被視為大多數(shù)手機(jī)、PC、移動(dòng)硬件等數(shù)字產(chǎn)品儲(chǔ)存器的替代品。
但MRAM的制作工藝復(fù)雜,體積會(huì)隨內(nèi)存增加而增大,生產(chǎn)成本高等難以量產(chǎn)的缺點(diǎn)讓儲(chǔ)存器市場(chǎng)望而卻步。據(jù)投資人盡調(diào)數(shù)據(jù)顯示,全球目前具備MRAM實(shí)體產(chǎn)品的公司不超過(guò)三家。
第一款芯片,Lightspeeur 2801S旨在解決廣泛的Edge AI應(yīng)用,并快速落地消費(fèi)電子產(chǎn)品,幫助企業(yè)和工業(yè)應(yīng)用此技術(shù)設(shè)計(jì)產(chǎn)品。
IDC在最近的一份報(bào)告中稱(chēng),“到2019年,大約45%的人工智能數(shù)據(jù)將在Edge上存儲(chǔ)、執(zhí)行和操作”,這使得終端由于其獨(dú)特的機(jī)遇,成為GTI的一個(gè)有吸引力的目標(biāo)。該芯片在2017年9月推出該芯片后,已在手機(jī)、機(jī)器人、工業(yè)以及安防等多個(gè)領(lǐng)域落地,其公開(kāi)客戶(hù)包括富士通、LG和三星等。
該芯片具有9.3 TOPS / W的等效性能,采用28nm工藝技術(shù)。 它尺寸為7x7mm,小尺寸可容納各類(lèi)邊緣設(shè)備。 它的峰值性能為5.6 TOPS,在0.3 W時(shí)可提供2.8TOPS。支持VGG和SSD網(wǎng)絡(luò)模型。
2801S的計(jì)算棒版本在2018年開(kāi)始供客戶(hù)使用。相比同類(lèi)的英特爾Movidius,2801S更適合采用大規(guī)模采用的商用設(shè)備,因?yàn)樗峁┝烁玫男阅埽?801S , 5.6 TOPS VS Movidius,1 TOPS),更好的功率使用(2801S的0.3W, 2.8TOPS VS Movidius的1W ,1 TOPS)和更小的尺寸和更低的價(jià)格。
第二款芯片,TheLightingpee 2802M是業(yè)界第一款基于MRAM技術(shù)的AI加速芯片,并使用專(zhuān)有的GME(Gyrfalcon MRAM引擎),將Edge AI設(shè)計(jì)帶來(lái)諸多優(yōu)勢(shì)。
使用2803M的設(shè)備可支持在同一芯片上同時(shí)運(yùn)行的多個(gè)模型,或非常大的AI模型,因?yàn)樵撔酒商峁?0MB內(nèi)存。支持多個(gè)模型對(duì)于需要復(fù)雜的AI實(shí)現(xiàn)以支持用戶(hù)交互或多階段AI功能的設(shè)備非常重要。
該芯片采用22nm工藝技術(shù),并提供非易失性存儲(chǔ)器,這對(duì)于物聯(lián)網(wǎng)端點(diǎn)和邊緣設(shè)備至關(guān)重要,這些設(shè)備在退出睡眠模式或電源中斷后,仍可立即運(yùn)行。對(duì)于使用太陽(yáng)能或電池供電的遠(yuǎn)程設(shè)備,這是一項(xiàng)強(qiáng)烈的需求。
第三款芯片,Lightspeeur 2803S同時(shí)面向邊緣產(chǎn)品(家庭和小型辦公室中心,自動(dòng)駕駛車(chē)輛,機(jī)器人等)以及提供云AI的數(shù)據(jù)中心加速。
該芯片具有24 TOPS / W的等效性能,并采用28nm工藝技術(shù)。 尺寸為9x9mm,在0.7W時(shí)的峰值性能為16.8 TOPS。它還支持448x448x4圖像尺寸,近似為VGA圖像尺寸,滿(mǎn)足更多種應(yīng)用需求。
該芯片可支持各種神經(jīng)網(wǎng)絡(luò),包括ResNet,MobileNet,ShiftNet,VGG和SSD。
此外,GTI還提供基于USB計(jì)算棒、加速卡等產(chǎn)品形態(tài)。GAINBOARD?系列加速卡可配置2801S或2803S芯片。目前,2801S僅支持并聯(lián)方式,2803S支持級(jí)聯(lián)與并聯(lián)兩種方式。
2803S支持兩種擴(kuò)展模式:一、多顆芯片級(jí)聯(lián),線(xiàn)性提升AI算力,運(yùn)行大規(guī)模神經(jīng)網(wǎng)絡(luò);二、多顆芯片并聯(lián),同時(shí)處理多任務(wù)。
據(jù)介紹,所有Lightspeeur芯片均可并聯(lián)使用,可將所有芯片封裝到GAINBOARD產(chǎn)品中,如4芯片M.2卡,16芯片PCIe服務(wù)器卡和64芯片服務(wù)器產(chǎn)品??蛻?hù)可以靈活地選擇在先進(jìn)邊緣,邊緣服務(wù)器或數(shù)據(jù)中心服務(wù)器設(shè)計(jì)中精確設(shè)計(jì)多少芯片。
據(jù)介紹,基于2803的PCIe開(kāi)發(fā)板性能將優(yōu)于NVIDIA Tesla4、以及英國(guó)的 Graphcore芯片。
16芯片2803 PCIe板將提供了271TOPS,而NVIDIA Tesla 4在PCIe中僅提供65 TOPS,而Graphcore在使用2個(gè)芯片的類(lèi)似配置中僅提供248TOPS。將TOPS的結(jié)果與所使用的功耗進(jìn)行比較,可以看出其對(duì)于先進(jìn)邊緣或數(shù)據(jù)中心操作的卓越效果,因?yàn)?803S PCIe將僅使用28W,而NVIDIAPCIe將消耗70W, Graphcore PCIe將消耗高達(dá)300W的功耗。
性能與功耗的比方面,2803S提供了驚人的10TOPS /W,而NVIDIA PCIe提供了大約1 TOPS/W,而Graphcore提供了不到1TOPS/W。
2803落地的終端產(chǎn)品可面向無(wú)人機(jī),先進(jìn)的監(jiān)控設(shè)備,機(jī)器人和自動(dòng)駕駛汽車(chē);邊緣服務(wù)器可以是復(fù)雜的工作站,家庭和小型辦公室AI中心,以及用于小型私人學(xué)校,大廈或社區(qū)的單卡AI服務(wù)器。基于2803搭建的數(shù)據(jù)中心服務(wù)器將提供大規(guī)模云AI服務(wù)器操作。這提供了無(wú)限的靈活性,因?yàn)槟P涂梢源罅坎⑿羞\(yùn)行,并且在系統(tǒng)中的實(shí)際芯片數(shù)量沒(méi)有限制。
為此外,據(jù)GTI創(chuàng)始人兼CEO董琪向機(jī)器之心介紹,基于GTI芯片首個(gè)Cloud AI已經(jīng)在中國(guó)深圳落地,可以支持廣泛的用例,包括圖像識(shí)別,文本分類(lèi),情感分析,語(yǔ)言翻譯,文本預(yù)測(cè),聊天機(jī)器人操作,閱讀理解和圖像字幕。
上述產(chǎn)品均利用GTI提供的三項(xiàng)專(zhuān)利和專(zhuān)有技術(shù)引擎、MPE(矩陣處理引擎),ConStreaming?引擎,獨(dú)特且極其有效的卷積神經(jīng)網(wǎng)絡(luò)引擎,以及GME(Gyrfalcon MRAM引擎)。
據(jù)介紹,GME引擎為業(yè)界首創(chuàng),只有這項(xiàng)技術(shù)才能實(shí)現(xiàn)嵌入式MRAM。所有這些引擎在終端設(shè)備和數(shù)據(jù)中心運(yùn)營(yíng)中都能提供卓越的結(jié)果和效率。目前,GTI已經(jīng)獲批并正在授予的技術(shù)專(zhuān)利超過(guò)50項(xiàng)。
上面提到的MPE可能夠讓芯片像人腦一樣,將邏輯和內(nèi)存集成在一起,這樣在處理人工智能數(shù)據(jù)時(shí)就不會(huì)浪費(fèi)精力和時(shí)間。 AI算法可以即時(shí)訪(fǎng)問(wèn)數(shù)據(jù),快速提供結(jié)果,并且不會(huì)浪費(fèi)將數(shù)據(jù)移入和移出位于系統(tǒng)其他位置的離散存儲(chǔ)器的能量。這使得數(shù)據(jù)處理具有非常高的性能,同時(shí)使用非常少的能量。
GTI總部位于硅谷地區(qū)的核心城市Milpitas,成立于2017年初。GTI由經(jīng)驗(yàn)豐富的硅谷企業(yè)家和人工智能科學(xué)家創(chuàng)建,通過(guò)將云人工智能的強(qiáng)大功能引入本地設(shè)備,推動(dòng)人工智能的應(yīng)用,并以更高的性能和效率提高云AI性能,提供最大的人工智能定制新設(shè)備和人工智能升級(jí)路徑給客戶(hù)。
“我們是唯一一個(gè)以矩陣乘法作為基本計(jì)算元素的人,”GTI總裁Frank Lin談道,“其他芯片制造商,他們中的一些人正在考慮新的矩陣或張量架構(gòu),”,但是Gyrfalcon在2018年1月就已經(jīng)向客戶(hù)提供了第一塊芯片。
GTI認(rèn)為,通過(guò)將每個(gè)相同的計(jì)算單元與內(nèi)存合并成“內(nèi)存中的AI處理”與 APiM架構(gòu)的方法相結(jié)合,可以大大減少外部存儲(chǔ)器的使用,從而大幅降低AI芯片的功率預(yù)算。
比如,2801能夠以1瓦特的能量計(jì)算每秒9.3萬(wàn)億次運(yùn)算,其中每次運(yùn)算都是乘法累加的步驟。“這比英特爾的Movidius部件的能效比提高了90%。”
而面向數(shù)據(jù)中心的2803,則不僅可以用于推理而且可以用于訓(xùn)練,GTI采用馬爾科夫鏈蒙特卡洛方法(Markov Chain Monte Carlo),即所謂的隨機(jī)數(shù)遞歸,以代替更常見(jiàn)的SGD(隨機(jī)梯度下降)以實(shí)現(xiàn)在APiM架構(gòu)上快速進(jìn)行模型訓(xùn)練。
2801和2803都采用了嵌入式存儲(chǔ)器,2801的數(shù)量級(jí)為9Mb,與每個(gè)計(jì)算元件集成在一起的存儲(chǔ)器允許芯片完成幾乎所有的推理工作,而不必離開(kāi)芯片到專(zhuān)門(mén)的存儲(chǔ)器。該公司將其稱(chēng)為“內(nèi)存中的AI處理”或“APiM”架構(gòu)。
“我可以將網(wǎng)絡(luò)模型和數(shù)據(jù)以及激活單元一次性預(yù)加載到芯片上嗎,”楊林說(shuō)道,“不必再與存儲(chǔ)器進(jìn)行頻繁的數(shù)據(jù)輸入與讀出交換,能夠節(jié)省大量功耗,這就是為什么性能是那么高。“
2802的另一個(gè)有趣特性:非易失性存儲(chǔ)器。
2802用MRAM替換2801和2803部件中使用的靜態(tài)RAM(SRAM)。與NAND閃存類(lèi)似,MRAM在斷電時(shí)不會(huì)丟失數(shù)據(jù)。這意味著神經(jīng)網(wǎng)絡(luò)可以由客戶(hù)預(yù)先加載,甚至可能在工廠(chǎng)預(yù)裝,然后部件出貨。
在核心軟件部分。與CPU和GPU不同,Gyrfalcon的專(zhuān)用集成電路(ASIC)沒(méi)有現(xiàn)成的編程堆棧。
出于這個(gè)原因,該公司剛剛發(fā)布了一個(gè)開(kāi)發(fā)人員SDK來(lái)為這些部件構(gòu)建應(yīng)用程序。開(kāi)發(fā)套件可以在兩個(gè)硬件配件上進(jìn)行測(cè)試,包括一個(gè)名為“PLAI Plug”的USB計(jì)算棒和“PLAIWiFi”的獨(dú)立設(shè)備,可作為移動(dòng)端的無(wú)線(xiàn)加速設(shè)備使用。
沿襲楊林教授的并行矩陣計(jì)算思想,GTI展現(xiàn)超脫尋常的算力能力,但同時(shí)他們也采取了一個(gè)看起來(lái)稍顯激進(jìn)的模式——芯片的基礎(chǔ)來(lái)自卷積神經(jīng)網(wǎng)絡(luò),雖然卷積神經(jīng)網(wǎng)絡(luò)在過(guò)去幾年中已經(jīng)成為一些最重要的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),但是這種選擇使得芯片不太容易適用于其他類(lèi)型的網(wǎng)絡(luò),例如“長(zhǎng)期短期記憶”網(wǎng)絡(luò)。
但GTI方面認(rèn)為這并不是一種局限。
“CNN是所有其他AI的基礎(chǔ),”楊林在接受采訪(fǎng)時(shí)說(shuō)道。他指出,“我們發(fā)現(xiàn)最大的市場(chǎng)份額仍然由ResNet和MobileNet占據(jù),我們需要做的是支持最主流的模型”。董琪認(rèn)為,網(wǎng)絡(luò)模型的形態(tài)并不決定真正的應(yīng)用。試圖覆蓋所有現(xiàn)有的或即將到來(lái)的神經(jīng)網(wǎng)絡(luò),會(huì)讓AI專(zhuān)用芯片的性能變得平庸。
如果新的網(wǎng)絡(luò)出現(xiàn)并占據(jù)了相當(dāng)大的市場(chǎng)份額,“那么我們將為此推出另一種芯片,”他補(bǔ)充道。
據(jù)公開(kāi)資料顯示,2017年,一村資本母公司華西股份聯(lián)合華天科技對(duì)GTI完成了首輪領(lǐng)投投資。據(jù)公開(kāi)數(shù)據(jù)顯示,Graphcore目前的融資資金超過(guò)1億美元。
Gyrfalcon在采訪(fǎng)中談道,他們已經(jīng)獲得了“美國(guó),日本,韓國(guó)和中國(guó)的機(jī)構(gòu)和企業(yè)投資者的三輪融資”,并補(bǔ)充說(shuō)“按目前的員工和費(fèi)用率,公司有資金運(yùn)營(yíng)至少三年”。
(現(xiàn)場(chǎng)照片由機(jī)器之心駐海外記者Tony提供)
聯(lián)系客服