如今,各類智能設(shè)備,例如智能手表,眼鏡,家電等已經(jīng)遍布我們生活的各個(gè)角落。然而這些設(shè)備通常只有在聯(lián)網(wǎng)時(shí)才會(huì)展現(xiàn)出它們“智能”的一面。近年來(lái),“邊緣計(jì)算”技術(shù)試圖讓這些設(shè)備在不依賴互聯(lián)網(wǎng)的情況下仍然可以保持智能。這就要求它們所搭載的芯片本身具有處理人工智能(AI)任務(wù)的能力。
這些小型設(shè)備所搭載的電池電量十分有限,往往不足以處理復(fù)雜的AI任務(wù)。因此,提高AI芯片的能效變得至關(guān)重要。在傳統(tǒng)的芯片里,數(shù)據(jù)的計(jì)算和存儲(chǔ)通常在兩個(gè)獨(dú)立的單元進(jìn)行。研究發(fā)現(xiàn)在這樣的芯片中,絕大多數(shù)的能量并非用于AI計(jì)算,而是消耗在計(jì)算和存儲(chǔ)單元之間頻繁的數(shù)據(jù)移動(dòng)中。
斯坦福大學(xué),加州大學(xué)圣地亞哥分校,以及清華大學(xué)合作研究團(tuán)隊(duì)提出了一個(gè)新的解決方案。該團(tuán)隊(duì)于2022年8月18日,在Nature發(fā)表題為“A compute-in-memory chip based on resistive random-access memory”的論文。
文章描述了一款名為“NeuRRAM”的AI芯片。這款芯片采用了基于阻變存儲(chǔ)器(RRAM)的“存算一體”架構(gòu)來(lái)減少數(shù)據(jù)流動(dòng)。它在支持多種人工智能應(yīng)用的同時(shí),大幅提升了能效,使得在邊緣設(shè)備中實(shí)現(xiàn)復(fù)雜的人工智能任務(wù)成為可能。
網(wǎng)頁(yè)截圖
“傳統(tǒng)AI芯片中的數(shù)據(jù)處理過(guò)程,就好比你一天只需工作兩小時(shí),卻要花八個(gè)小時(shí)在來(lái)去公司的路上?!比f(wàn)偉爾 (Weier Wan) 博士這樣類比到。萬(wàn)偉爾博士是該文章的第一作者,近期畢業(yè)于斯坦福大學(xué)。博士期間由斯坦福大學(xué) 菲利普·王 (H.-S. Philip Wong) 教授與加州大學(xué)圣地亞哥分校格特·考文伯格 (Gert Cauwenberghs) 教授共同指導(dǎo)。
不同于傳統(tǒng)芯片,這款NeuRRAM芯片所采用的 “存算一體”架構(gòu)直接在存儲(chǔ)器內(nèi)進(jìn)行AI計(jì)算,這就好比直接在倉(cāng)庫(kù)中對(duì)原材料進(jìn)行加工生產(chǎn),而不必頻繁地把原材料運(yùn)往專門的加工車間,極大地減少了數(shù)據(jù)流動(dòng),從而大幅提升了芯片的能效。
NeuRRAM芯片 | David Baillot / University of California San Diego
NeuRRAM芯片使用的阻變存儲(chǔ)器是一種新型的非易失性存儲(chǔ)技術(shù)。這種技術(shù)具有高密度,非易失,易加工等優(yōu)點(diǎn),是低功耗,低成本的邊緣計(jì)算場(chǎng)景的理想選擇。
在阻變存儲(chǔ)器中實(shí)現(xiàn)存算一體并不是一個(gè)全新的概念,相關(guān)的研究已經(jīng)進(jìn)行了很多年。然而在過(guò)去的存算一體工作中,AI模型推理的結(jié)果通常是由部分的軟件仿真獲得。而此篇文章中的AI模型結(jié)果均是在NeuRRAM芯片上實(shí)測(cè)獲得。這是該領(lǐng)域發(fā)展的一個(gè)重要里程碑。
除了更高的能效,NeuRRAM也是首個(gè)支持多種神經(jīng)網(wǎng)絡(luò)模型的多核存算一體芯片。因此,NeuRRAM可以被應(yīng)用到多類邊緣計(jì)算任務(wù)中,例如圖像分類,圖像去噪,關(guān)鍵詞識(shí)別。在這些不同應(yīng)用中,NeuRRAM均可實(shí)現(xiàn)和傳統(tǒng)數(shù)字芯片相當(dāng)?shù)腁I推理準(zhǔn)確度。
“在很多情況下,存算一體的高能效是以犧牲靈活性和準(zhǔn)確性為代價(jià)的,” 萬(wàn)偉爾博士介紹,“然而這三者對(duì)于存算一體芯片的廣泛應(yīng)用都至關(guān)重要,因此在NeuRRAM中,我們希望可以三者兼具?!?/p>
高效而不失靈活
和傳統(tǒng)的數(shù)字芯片不同,存算一體的芯片通常在模擬域中進(jìn)行高效的AI運(yùn)算。然而由于模擬信號(hào)容易受到噪聲干擾,模擬計(jì)算的結(jié)果最終需要被轉(zhuǎn)化為數(shù)字信號(hào)來(lái)和系統(tǒng)中其余模塊進(jìn)行通信。NeuRRAM芯片集成了48個(gè)存算核,核內(nèi)采用模擬計(jì)算,而核外采用數(shù)字信號(hào)通信。
研究發(fā)現(xiàn),在存算一體芯片中,模擬數(shù)字轉(zhuǎn)換器通常會(huì)成為計(jì)算能效的瓶頸。過(guò)往絕大多數(shù)的存算芯片采用基于電流的模數(shù)轉(zhuǎn)換方式。這樣的設(shè)計(jì)有高功耗,低計(jì)算并行度等問(wèn)題。NeuRRAM采用了一種全新的基于電壓的模數(shù)轉(zhuǎn)換設(shè)計(jì)。與過(guò)去的阻變存儲(chǔ)器存算芯片相比, 這種設(shè)計(jì)使得NeuRRAM的能效提高至過(guò)去的芯片的1.6~2.3倍,計(jì)算密度提高至7~13倍。
在實(shí)現(xiàn)高能效的同時(shí),NeuRRAM也兼顧了靈活性。以往的存算一體芯片只支持單向推導(dǎo)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)。NeuRRAM實(shí)現(xiàn)了一種名為Transposable Neurosynaptic Array (TNSA) 的架構(gòu),使其可以同時(shí)支持多種數(shù)據(jù)流向的神經(jīng)網(wǎng)絡(luò),例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)以及受限玻爾茲曼機(jī)(RBM)。不同于傳統(tǒng)的存算芯片,TNSA架構(gòu)將基于阻變存儲(chǔ)器的神經(jīng)網(wǎng)絡(luò)權(quán)重和基于CMOS的模數(shù)轉(zhuǎn)換器以及激活函數(shù)分布式地交錯(cuò)在一起,從而在不需要重新編程阻變存儲(chǔ)器的情況下完成不同數(shù)據(jù)流向的計(jì)算。
全棧式軟硬件協(xié)同優(yōu)化
在AI芯片設(shè)計(jì)中,高能效,靈活性以及準(zhǔn)確性都是非常重要的指標(biāo)。單方面地優(yōu)化芯片設(shè)計(jì)中的某一環(huán)節(jié)往往可以提高其中的一項(xiàng)指標(biāo),但也時(shí)常伴隨著其余指標(biāo)的下降。想同時(shí)兼顧三者,全棧式的軟硬件協(xié)同優(yōu)化必不可少。
對(duì)于基于阻變存儲(chǔ)器的存算一體芯片,一個(gè)不可避免的問(wèn)題是模擬計(jì)算帶來(lái)的各種非理想性,比如非線性和可變性。這些非理想性會(huì)極大地降低AI模型的準(zhǔn)確性。單純?cè)诩軜?gòu),電路和器件上的優(yōu)化往往不足以解決這個(gè)問(wèn)題。萬(wàn)偉爾博士所在團(tuán)隊(duì)提出了一系列AI算法和硬件協(xié)同優(yōu)化的策略,來(lái)克服這些非理想性。
研究團(tuán)隊(duì)測(cè)量了不同AI應(yīng)用在NeuRRAM芯片上的表現(xiàn),包擴(kuò)圖像分類,語(yǔ)音關(guān)鍵詞識(shí)別,以及圖像去噪。結(jié)果顯示在所有測(cè)量的應(yīng)用上,NeuRRAM均可實(shí)現(xiàn)和同計(jì)算精度的數(shù)字芯片相當(dāng)?shù)腁I模型推理準(zhǔn)確性。值得注意的是,所有的結(jié)果均是在芯片內(nèi)實(shí)測(cè)獲得。相比而言,以往存算一體工作中部分基于軟件仿真推算的結(jié)果往往難以準(zhǔn)確地涵蓋芯片中所有的非理想性,因此給出過(guò)于樂(lè)觀的預(yù)測(cè)。
“貫穿芯片軟硬件設(shè)計(jì)的全棧式優(yōu)化正是NeuRRAM的精髓所在。這得益于來(lái)自于世界各地不同院校的全棧式團(tuán)隊(duì)?!比f(wàn)偉爾博士介紹。為了這個(gè)項(xiàng)目,萬(wàn)偉爾博士在過(guò)去幾年間來(lái)回于斯坦福大學(xué),加州大學(xué)圣地亞哥分校,清華大學(xué)的研究組,在此過(guò)程中向不同的研究者們學(xué)習(xí)了不同領(lǐng)域的知識(shí)。
產(chǎn)業(yè)化前景
國(guó)內(nèi)外多家初創(chuàng)公司已經(jīng)進(jìn)入了存算一體芯片產(chǎn)業(yè)化的進(jìn)程。這些芯片多是基于傳統(tǒng)的存儲(chǔ)技術(shù)例如靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)和閃存(Flash)。作為首顆實(shí)測(cè)了多個(gè)AI應(yīng)用的存算一體芯片,NeuRRAM吹響了基于阻變存儲(chǔ)器的存算一體芯片產(chǎn)業(yè)化的號(hào)角。那么它距離產(chǎn)業(yè)化還有多遠(yuǎn)呢?
“NeuRRAM還不是一顆產(chǎn)品級(jí)芯片,但是它驗(yàn)證了全棧式優(yōu)化對(duì)于該技術(shù)產(chǎn)業(yè)化的重要性?!?nbsp;萬(wàn)偉爾博士介紹道?!按嫠阋惑w的產(chǎn)品化需要結(jié)合很多因素,不僅僅是繼續(xù)升級(jí)迭代芯片的設(shè)計(jì),同樣重要的是找準(zhǔn)最合適的應(yīng)用場(chǎng)景,即所謂的'killer app’”。
(編者注:殺手級(jí)應(yīng)用程序(killer app)是計(jì)算機(jī)行業(yè)中的一個(gè)行話,它指的是一個(gè)有意或無(wú)意地使你決定購(gòu)買它所運(yùn)行的整個(gè)系統(tǒng)的應(yīng)用程序)
“在制造方面,如今國(guó)內(nèi)外多家晶元代工廠逐漸擁有了量產(chǎn)阻變存儲(chǔ)器的能力,并正將阻變存儲(chǔ)器向更先進(jìn)的制程推進(jìn)。在設(shè)計(jì)方面,進(jìn)一步的軟硬件協(xié)同優(yōu)化是必不可少的。芯片的設(shè)計(jì)將不僅僅停留在優(yōu)化單個(gè)存算核的能效上,同樣重要的是如何實(shí)現(xiàn)高效且靈活的多核互連,如何構(gòu)架一顆數(shù)字模擬混合的完整AI芯片,以及如何為存算芯片優(yōu)化AI模型結(jié)構(gòu)。這些都將成為存算一體芯片產(chǎn)業(yè)化道路上重要的課題。”
若能夠成功產(chǎn)業(yè)化,該技術(shù)擁有廣泛的應(yīng)用前景。它可以被用于增強(qiáng)現(xiàn)實(shí)中,讓如今笨重的虛擬現(xiàn)實(shí)頭盔變得如同“鋼鐵俠”佩戴的眼鏡一般智能又不失時(shí)尚;它可以成為盲人的眼睛,指引他們?cè)诔鞘薪值乐邪踩匦凶?;它也可以被用于工業(yè)和農(nóng)業(yè)生產(chǎn)中,嵌入在成百上千個(gè)器械里,實(shí)時(shí)地檢測(cè)和調(diào)整器械的運(yùn)行;它可以讓生產(chǎn)生活變得更加高效便捷,讓更多人享受到人工智能技術(shù)的福利。
參考文獻(xiàn)
Wan, W., Kubendran, R., Schaefer, C. et al. A compute-in-memory chip based on resistive random-access memory. Nature 608, 504–512 (2022). https://doi.org/10.1038/s41586-022-04992-8
作者:團(tuán)隊(duì)供稿
聯(lián)系客服