現(xiàn)今,日益完善的深度學習技術和-AI-服務愈加受到市場青睞。與此同時,數據集不斷擴大,計算模型和網絡也變得越來越復雜,這對于硬件設備也提出了更為嚴苛的需求。如何利用有限的預算,最大限度升級系統(tǒng)整體的計算性能和數據傳輸能力成為了最為重要的問題。
GPU-的選擇
熟悉深度學習的人都知道,深度學習是需要訓練的,所謂的訓練就是在成千上萬個變量中尋找最佳值的計算。這需要通過不斷的嘗試識別,而最終獲得的數值并非是人工確定的數字,而是一種常態(tài)的公式。通過這種像素級的學習,不斷總結規(guī)律,計算機就可以實現(xiàn)像人一樣思考。因而,更擅長并行計算和高帶寬的-GPU,則成了大家關注的重點。
數據并行的原理很簡單,如下圖,其中-CPU-主要負責梯度平均和參數更新,而-GPU1和-GPU2-主要負責訓練模型副本(model replica),這里稱作“模型副本”是因為它們都是基于訓練樣例的子集訓練得到的,模型之間具有一定的獨立性。具體的訓練步驟如下
除了計算能力之外,GPU-另一個比較重要的優(yōu)勢就是他的內存結構。首先是共享內存。在-NVIDIA-披露的性能參數中,每個流處理器集群末端設有共享內存。相比于-CPU-每次操作數據都要返回內存再進行調用,GPU-線程之間的數據通訊不需要訪問全局內存,而在共享內存中就可以直接訪問。這種設置的帶來最大的好處就是線程間通訊速度的提高(速度:共享內存>>全局內存)。
而在傳統(tǒng)的CPU構架中,盡管有高速緩存(Cache)的存在,但是由于其容量較小,大量的數據只能存放在內存(RAM)中。進行數據處理時,數據要從內存中讀取然后在-CPU-中運算最后返回內存中。由于構架的原因,二者之間的通信帶寬通常在-60GB/s-左右徘徊。與之相比,大顯存帶寬的-GPU-具有更大的數據吞吐量。在大規(guī)模深度神經網絡的訓練中,必然帶來更大的優(yōu)勢。
另一方面,如果要充分利用-GPU-資源處理海量數據,需要不斷向-GPU-注入大量數據。目前,PCIe-的數據傳輸速度還無法跟上這一速度,如果想避免此類“交通擁堵”,提高數據傳輸速度可以選擇應用-NVlink-技術的-GPU-卡片。
4-GPUs-with-PCIe
4-GPUs-with-NVLink
NVLink-是目前最快的-GPU-高速互聯(lián)技術,借助這種技術,GPU-和-CPU-彼此之間的數據交換速度要比使用PCIe 時快-5-到-12-倍,應用程序的運行速度可加快兩倍。通過-NVLink 連接兩個-GPU-可使其通信速度提高至-80-GB/s,比之前快了-5-倍。
其中-Nvidia-的-Volta-架構計算卡使用的-NVLink-2.0-技術速度更快(20-25Gbps),單通道可提供-50-GB/S-的顯存帶寬。
P100-NVLink1.0-數據傳輸模式
V100-NVLink2.0-數據傳輸模式
而且就目前而言,越來越多的深度學習標準庫支持基于-GPU-的深度學習加速,通俗點描述就是深度學習的編程框架會自動根據-GPU-所具有的線程/Core-數,去自動分配數據的處理策略,從而達到優(yōu)化深度學習的時間。而這些軟件上的全面支持也是其它計算結構所欠缺的。
簡單來看,選擇-GPU-有四個重要參數:浮點運算能力、顯存、數據傳輸與價格。
對于很多科學計算而言,服務器性能主要決定于-GPU-的浮點運算能力。特別是對深度學習任務來說,單精浮點運算以及更低的半精浮點運算性能則更為重要。如果資金充足的情況下,可以選擇應用-NVLink-技術單精計算性能高、顯存大的-GPU-卡片。如果資金有限的話,則要仔細考量核心需求,選擇性價比更高的-GPU-卡片。
內存大小的選擇
心理學家告訴我們,專注力這種資源會隨著時間的推移而逐漸耗盡。內存就是為數不多的,讓你保存注意力資源,以解決更困難編程問題的硬件之一。與其在內存瓶頸上兜轉,浪費時間,不如把注意力放在更加緊迫的問題上。如果你有更多的內存,有了這一前提條件,你可以避免那些瓶頸,節(jié)約時間,在更緊迫問題上投入更多的生產力。
所以,如果資金充足而且需要做很多預處理工作,應該選擇至少和-GPU-內存大小相同的內存。雖然更小的內存也可以運行,但是這樣就需要一步步轉移數據,整體效率上則大打則扣??偟膩碚f內存越大,工作起來越舒服。
硬盤驅動器/SSD
在一些深度學習案例中,硬驅會成為明顯的瓶頸。如果數據組很大,通常會在硬驅上放一些數據,內存中也放一些,GPU-內存中也放兩-mini-batch。為了持續(xù)供給-GPU,我們需要以-GPU-能夠跑完這些數據的速度提供新的-mini-batch。
為此,可以采用和異步-mini-batch-分配一樣的思路,用多重-mini-batch-異步讀取文件。如果不異步處理,結果表現(xiàn)會被削弱很多(5-10%),而且讓認真打造的硬件優(yōu)勢蕩然無存。那么,這時候就需要-SSD,因為-100-150MB/S-的硬驅會很慢,不足以跟上-GPU。
許多人買一個-SSD-是為了舒服:程序開始和響應都快多了,大文件預處理也快很多,但是,對于深度學習來說,僅當輸入維數很高,不能充分壓縮數據時,這才是必須的。如果買了-SSD,則應該選擇能夠存下和使用者通常要處理的數據集大小相當的存儲容量,也額外留出數十-GB-的空間。另外用普通硬驅保存尚未使用的數據集的主意也不錯。
AMAX-主推的應對方向及機型推薦
應對方向
1.計算機視覺
生物特征識別:人臉識別、步態(tài)識別、行人-ReID、瞳孔識別;
圖像處理:分類標注、以圖搜圖、場景分割、車輛車牌、OCR、AR;
視頻分析:安防監(jiān)控、智慧城市;
2.自然語言處理
語音識別(Siri、Cortana、訊飛)、文本數據挖掘、文本翻譯;
3.數據挖掘
消費習慣、天氣數據、推薦系統(tǒng)、知識庫(專家系統(tǒng));
4.復合應用
無人駕駛、無人機、機器人;
主推機型:
1.入門級應用
AMAX-入門級工作站專為辦公環(huán)境設計。工作站采用最新-Intel-可擴展系列處理器,可支持-2-片-GPU。為辦公環(huán)境下深度學習訓練提供超強計算能力,同時兼?zhèn)潇o音、高效等綠色環(huán)境要求。
ServMax? PSC-MB2S
突出特性:
采用新一代-Intel? Xeon?E5-2600 v3/v4-系列處理器
系統(tǒng)可靠性和可用性高
可支持兩片-GPU-卡片
支持-NVIDIA-NVLink?-技術,實現(xiàn)高速大帶寬直連通訊的快速互聯(lián)機制
支持-IPMI 2.0-和-KVM-遠程管理
靜音式服務器,噪音值低于-50db
2.中級應用
AMAX-中級工作站,工作站采用最新-Intel-可擴展系列處理器,可支持-4-片-GPU,產品線包括靜音工作站、非靜音工作站以及包括-DGX-Station-在內多款支持-NVlink-技術的高性能工作站。AMAX-中級工作站可適用于各類工作環(huán)境,更高的計算能力能滿足更強大的任務需求。
DGX STATION
突出特性:
采用最新-Intel XeonE5-2698 v4-處理器
支持水冷設計
支持-4-片最新-NVIDIA-計算卡-Tesla-V100
強大的計算性能
系統(tǒng)可靠性和可用性高
3.高級應用
AMAX-高級服務器,采用-Intel-至強可擴展系列處理器及-Power-處理器,1/2U-空間可支持-4-片-GPU-卡片,超高計算密度,極大節(jié)省機柜空間。除了支持常規(guī)-PCI-e-接口-GPU,還有多款支持-NVlink-技術的產品。AMAX-高級服務器以強大的適用性滿足各類高級用戶對計算、存儲、網絡等方面的嚴苛需求。
ServMax?-XG-14201GV
突出特性:
采用新一代-Intel? Xeon?E5-2600 v3/v4-系列處理器系統(tǒng)
支持-4-片-Tesla-V100-PCIe-GPU-卡片
超高速互連技術
可靠性和可用性高
超高計算密度,極大節(jié)省機柜空間
提供獨立網絡接口可對服務器進行遠程監(jiān)控以及管理
4.專業(yè)級
AMAX-專業(yè)級服務器,該系列產品采用最新-Intel-可擴展系列處理器,支持多達-10-片-GPU-及高達-2933-MHz-DDR4-內存。和高級服務器一樣,專業(yè)級服務器除了支持常規(guī)-PCI-e-接口-GPU,同樣有多款支持-NVlink-技術的產品。AMAX-高級服務器以更強大的計算性能、網絡吞吐、存儲能力為深度學習訓練提供強有力的硬件支持。
DGX-1V
突出特性:
采用新一代-Intel-XeonE5-2698v4 2.2-GHz-處理器
支持-8-片-Tesla-V100-GPU-卡片
NVIDIA-NVLink?-連接,實現(xiàn)高速大帶寬直連通訊的快速互聯(lián)機制
提供完整的技術支持
采用突破性的技術,更具競爭優(yōu)勢
卓越的能源和冷卻功效
系統(tǒng)可靠性和可用性高
更多請訪問:www.amaxchina.com。
聯(lián)系客服