作為Intel公司的Fellow,Alan Gara表示隨著神經(jīng)形態(tài)計(jì)算、量子計(jì)算等新型計(jì)算、存儲(chǔ)、通信技術(shù)快速推動(dòng)百億億次計(jì)算成為現(xiàn)實(shí),人工智能與高性能計(jì)算將走向融合。
英特爾數(shù)據(jù)中心事業(yè)部的Fellow艾倫·加拉(Al Gara)表示,隨著我們使用新的計(jì)算、存儲(chǔ)和通信技術(shù)以及神經(jīng)形態(tài)芯片和量子計(jì)算芯片向百億億級(jí)未來(lái)過(guò)渡,高性能計(jì)算和人工智能之間的關(guān)聯(lián)將會(huì)越來(lái)越緊密。加拉認(rèn)為,“人工智能(AI)、數(shù)據(jù)分析和傳統(tǒng)仿真的融合將帶來(lái)具有更廣泛功能和可配置性以及交叉授粉(cross pollination)特質(zhì)的系統(tǒng)?!?/p>
加拉為這一高性能計(jì)算(HPC)和人工智能交織的未來(lái)設(shè)定了十分具有挑戰(zhàn)性的硬件目標(biāo)。在這一未來(lái)中,硬件會(huì)提供百億億次以上的雙精度使用性能,且會(huì)在減少精度運(yùn)算的情況下提供更高的性能。他相信,如果用戶將重點(diǎn)放在單位內(nèi)存容量的計(jì)算性能上,那么用戶將跨各種架構(gòu)獲得豐厚回報(bào),并為系統(tǒng)軟件和用戶應(yīng)用程序提供通過(guò)百億億級(jí)及更高級(jí)別計(jì)算保持指數(shù)級(jí)性能增長(zhǎng)的機(jī)會(huì)。
1.“三大支柱”的統(tǒng)一
加拉提出的愿景基于高性能計(jì)算“三大支柱”的統(tǒng)一:人工智能(AI)和機(jī)器學(xué)習(xí)(ML);數(shù)據(jù)分析和大數(shù)據(jù);以及高性能計(jì)算(HPC)。這意味著未來(lái)的用戶會(huì)使用互相利用并通過(guò)內(nèi)存交互的模型進(jìn)行編程。
具體而言,英特爾正在努力研究高度可配置的百億億級(jí)系統(tǒng),該系統(tǒng)可支持到全新技術(shù)的升級(jí),其中包括可擴(kuò)展處理器、加速器、神經(jīng)網(wǎng)絡(luò)處理器、神經(jīng)形態(tài)芯片、FPGA、英特爾持久內(nèi)存、3D NAND和自定義硬件。
加拉的愿景有一個(gè)共同特征,那就是同一架構(gòu)會(huì)通過(guò)配置涵蓋高性能計(jì)算、人工智能和數(shù)據(jù)分析,這意味著這些不同的硬件后端需要擁有一致的軟件環(huán)境來(lái)處理高性能計(jì)算和人工智能工作負(fù)載。
目前,加拉的愿景有一個(gè)非常實(shí)際的實(shí)例,即在TensorFlow等熱門機(jī)器學(xué)習(xí)軟件包中使用Intel nGraphT庫(kù)。從本質(zhì)上來(lái)說(shuō),Intel nGraph庫(kù)被用作中間語(yǔ)言(類似于LLVM),可在從CPU到FPGA、專用神經(jīng)網(wǎng)絡(luò)處理器等各種硬件平臺(tái)上提供優(yōu)化的性能。
英特爾人工智能產(chǎn)品事業(yè)部首席技術(shù)官辦公室的杰森·奈特(Jason Knight)如是寫道,“我們將Intel nGraph庫(kù)視為由流行深度學(xué)習(xí)框架的優(yōu)化通道(optimization pass)、硬件后端和前端連接器構(gòu)成的生態(tài)系統(tǒng)的開端?!?/p>
整體而言,加拉指出“高性能計(jì)算實(shí)際上是許多架構(gòu)的發(fā)源地…和測(cè)試環(huán)境”,因?yàn)楦咝阅苡?jì)算編程人員、研究人員和領(lǐng)域科學(xué)家通過(guò)探索架構(gòu)空間描繪出了如下性能格局:
數(shù)據(jù)級(jí)別并行(從細(xì)粒度到粗粒度)
節(jié)能加速器(計(jì)算密度和能源效率通常是相關(guān)的)
在所有級(jí)別利用可預(yù)測(cè)的執(zhí)行(緩存到粗粒度)
集成的固定功能數(shù)據(jù)流加速器
通用數(shù)據(jù)流加速器
2.技術(shù)機(jī)遇
高性能計(jì)算和人工智能科學(xué)家將有機(jī)會(huì)獲得并能夠利用許多新網(wǎng)絡(luò)、存儲(chǔ)和計(jì)算架構(gòu)的性能功能。
其中,高性能計(jì)算是光學(xué)技術(shù)的重大驅(qū)動(dòng)因素,這是因?yàn)楣饫w是超級(jí)計(jì)算機(jī)最具挑戰(zhàn)性且成本最高昂的要素之一。出于此原因,加拉認(rèn)為,隨著我們過(guò)渡到線性設(shè)備和環(huán)形設(shè)備以及使用不同波長(zhǎng)的光進(jìn)行通信的光學(xué)設(shè)備,硅基光子學(xué)將產(chǎn)生顛覆性影響,集成硅基設(shè)備或光學(xué)設(shè)備的能力將帶來(lái)巨大的經(jīng)濟(jì)和性能優(yōu)勢(shì),包括增長(zhǎng)空間(從技術(shù)角度而言)。
新的非易失性存儲(chǔ)技術(shù)(例如英特爾持久內(nèi)存)正在模糊內(nèi)存和存儲(chǔ)之間的界線。加拉描述了一種用于百億億級(jí)超級(jí)計(jì)算機(jī)的新存儲(chǔ)堆棧,當(dāng)然,此類堆棧也可在通用計(jì)算集群中實(shí)施。
加拉評(píng)論道,關(guān)鍵在于此類堆棧是為了使用NVM存儲(chǔ)而重新設(shè)計(jì)的。這會(huì)帶來(lái)與任意對(duì)齊和事務(wù)大小相關(guān)的高吞吐IO操作,因?yàn)閼?yīng)用程序可通過(guò)新的用戶空間NVMe/pmem軟件堆棧執(zhí)行超細(xì)粒度IO。在系統(tǒng)級(jí)別,這意味著用戶將能夠在軟件托管的自我修復(fù)型冗余環(huán)境中使用可擴(kuò)展的通信和IO操作跨同源、無(wú)共享服務(wù)器管理大規(guī)模分布式NVM存儲(chǔ)。換而言之,高性能、大容量的可擴(kuò)展存儲(chǔ)能夠支持大數(shù)據(jù)和核心內(nèi)算法以及針對(duì)稀疏及非結(jié)構(gòu)化數(shù)據(jù)集的數(shù)據(jù)分析。
科研人員正在利用內(nèi)存性能和容量方面的進(jìn)步來(lái)改變我們處理人工智能和高性能計(jì)算問(wèn)題的方法。美國(guó)猶他大學(xué)(University of Uta)和沙特阿拉伯阿卜杜拉國(guó)王科技大學(xué)(King Abdullah University of Science and Technology,KAUST)都在做這方面的工作。
例如,猶他大學(xué)的科研人員強(qiáng)調(diào)了對(duì)數(shù)運(yùn)行時(shí)算法在Ospray可視化軟件包中的重要性。對(duì)數(shù)運(yùn)行時(shí)算法對(duì)于大型可視化和百億億級(jí)計(jì)算而言十分重要。運(yùn)行時(shí)基本上隨數(shù)據(jù)規(guī)模的增長(zhǎng)而緩慢增長(zhǎng)。但即使數(shù)據(jù)規(guī)模呈數(shù)量級(jí)增長(zhǎng),運(yùn)行時(shí)的增長(zhǎng)仍然會(huì)十分緩慢,因而對(duì)數(shù)增長(zhǎng)十分重要。否則,運(yùn)行時(shí)增長(zhǎng)會(huì)阻止計(jì)算在合理的時(shí)間內(nèi)完成,從而讓大內(nèi)存容量計(jì)算機(jī)的優(yōu)勢(shì)消失殆盡。
因此,提供低延遲數(shù)據(jù)訪問(wèn)的大內(nèi)存容量計(jì)算節(jié)點(diǎn)成為能夠在博弈中與大規(guī)模并行加速器競(jìng)爭(zhēng)并獲勝的使能技術(shù)。猶他大學(xué)的研究表明,相較擁有128個(gè)節(jié)點(diǎn)的GPU集群而言,單一大內(nèi)存(三萬(wàn)億字節(jié))工作站可提供具有競(jìng)爭(zhēng)力,甚至更加優(yōu)秀的交互式渲染性能。猶他大學(xué)的研究小組還在使用P-k-d樹和其他快速核心內(nèi)方法探索原位可視化(in-situ visualization),以展示大型“直接”核心內(nèi)技術(shù)是傳統(tǒng)高性能計(jì)算可視化方法的可行替代方案。
在第二個(gè)示例中,KAUST一直在與英特爾和東京工業(yè)大學(xué)(Tokyo Institute of Technology)協(xié)作,增強(qiáng)用于多核心(multi-core)和許多核心(many-core)處理器的數(shù)值工具生態(tài)系統(tǒng)。想象一下使用CPU技術(shù)以在數(shù)學(xué)和計(jì)算方面都高效的方式處理十億乘以十億的超大規(guī)模矩陣會(huì)是什么樣子。
非高性能計(jì)算科學(xué)家十分認(rèn)可線性代數(shù)和快速多級(jí)方法(Fast Multi-pole Methods,F(xiàn)MM)中這些貢獻(xiàn)的重要性,因?yàn)閿?shù)值線性代數(shù)是工程、物理、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域中幾乎所有應(yīng)用的根源所在。FMM方法已被列為二十世紀(jì)十大算法之一。
結(jié)果表明,相較使用目前在相同硬件上運(yùn)行的英特爾數(shù)學(xué)核心函數(shù)庫(kù)(Intel Math Kernel Library,Intel MKL)等經(jīng)過(guò)高度優(yōu)化的庫(kù),高性能計(jì)算科學(xué)家現(xiàn)在能夠以更快的速度解決更大的密集線性代數(shù)問(wèn)題和FMM相關(guān)數(shù)值問(wèn)題。這些方法已在名為ExaFMM和HiCMA的經(jīng)過(guò)高度優(yōu)化的庫(kù)中提供。
3.展望未來(lái):神經(jīng)形態(tài)計(jì)算和量子計(jì)算
代號(hào)為“Loihi”的新神經(jīng)形態(tài)測(cè)試芯片可能能夠代表人工智能領(lǐng)域的相變,因?yàn)樗鼈兡軌颉白詫W(xué)”。目前,數(shù)據(jù)科學(xué)家花費(fèi)了大量時(shí)間處理相關(guān)數(shù)據(jù),以創(chuàng)建用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)解決復(fù)雜問(wèn)題的訓(xùn)練數(shù)據(jù)集。神經(jīng)形態(tài)芯片讓人們不再需要?jiǎng)?chuàng)建訓(xùn)練數(shù)據(jù)集(例如,整個(gè)過(guò)程無(wú)人類的干涉)。相反,人類需要在神經(jīng)形態(tài)硬件發(fā)現(xiàn)解決方案后驗(yàn)證其準(zhǔn)確性。
簡(jiǎn)單說(shuō)來(lái),神經(jīng)形態(tài)計(jì)算利用與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域中使用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)完全不同的計(jì)算模型。此模型可更準(zhǔn)確地模仿生物大腦的運(yùn)行,因此,神經(jīng)形態(tài)芯片只需通過(guò)觀察其所處的環(huán)境就能以事件驅(qū)動(dòng)的方式“學(xué)習(xí)”。此外,它們的運(yùn)行方式非常節(jié)能。時(shí)間將告訴我們這是否能夠以及何時(shí)能夠帶來(lái)優(yōu)勢(shì)。好消息是,神經(jīng)形態(tài)硬件現(xiàn)在已經(jīng)進(jìn)入市場(chǎng)。
加拉表示,目標(biāo)在于創(chuàng)建在當(dāng)前架構(gòu)下提供100倍以上能源效率的可編程架構(gòu),從而更加高效地解決人工智能疑難問(wèn)題。他提供了稀疏編碼、字典學(xué)習(xí)、約束補(bǔ)償(constraint satisfaction)、模式匹配以及動(dòng)態(tài)學(xué)習(xí)和適應(yīng)等示例。
最后,加拉介紹了量子計(jì)算領(lǐng)域取得的進(jìn)步,這是通過(guò)與荷蘭代爾夫特理工大學(xué)(Delft University)協(xié)作實(shí)現(xiàn)的。這項(xiàng)協(xié)作旨在生成更好的Qubit(量子比特)、增強(qiáng)Qubit之間的關(guān)聯(lián)以及開發(fā)可擴(kuò)展的IO。量子計(jì)算是非直觀的,因?yàn)榇蠖鄶?shù)人無(wú)法直觀地理解糾纏的概念或同時(shí)處于多個(gè)狀態(tài)的物質(zhì)。但是,網(wǎng)絡(luò)上仍然有加拿大滑鐵盧大學(xué)(University of Waterloo)的《量子計(jì)算101》(Quantum Computing 101)等優(yōu)秀資源,可幫助人們了解這一快速進(jìn)步的技術(shù)。如果成為現(xiàn)實(shí),這項(xiàng)技術(shù)將永遠(yuǎn)改變我們的計(jì)算世界。
量子計(jì)算使得解決目前對(duì)于普通計(jì)算機(jī)而言棘手的問(wèn)題成為可能。加拉重點(diǎn)介紹了英特爾的量子計(jì)算工作目前在量子化學(xué)、微型架構(gòu)和算法協(xié)同設(shè)計(jì),以及后量子安全密碼方面的應(yīng)用。
4.總結(jié)
現(xiàn)在,新的計(jì)算、存儲(chǔ)和制造技術(shù)不斷涌現(xiàn),這讓人工智能和高性能計(jì)算社區(qū)不得不重新思考其傳統(tǒng)方法,以便能夠使用這些比以往性能更高的可擴(kuò)展且可配置的架構(gòu)。艾倫·加拉指出,技術(shù)正在推動(dòng)“三大支柱”的統(tǒng)一,這也會(huì)反過(guò)來(lái)讓人工智能和數(shù)據(jù)中心內(nèi)高性能計(jì)算的未來(lái)無(wú)法區(qū)分開來(lái)。
聯(lián)系客服