來看NVIDIA的怪物級計(jì)算卡:Tesla K80。
Tesla K系列都是基于“開普勒”(Kepler)架構(gòu)的高性能計(jì)算產(chǎn)品,其中采用GK110大核心的已有三款,而今天這款Tesla K80,從各個方面都進(jìn)行了前所未有的增強(qiáng)。
首先,她的核心是新的GK210。
GK110核心第一次用于高性能計(jì)算是Tesla K20,只開啟了2496個流處理器,經(jīng)過一次修訂后升級為GK110B,先后推出了2688個流處理器的增強(qiáng)版Tesla K20X、2880個流處理器的完整版Tesla K40,后者還提供了三個檔次的核心頻率。
GK210則是NVIDIA第一次對某個核心進(jìn)行中途修改,最大的變化就是寄存器文件、一級緩存容量都翻了一番,分別來到512KB、128KB,不過整體架構(gòu)沒變,還是2880個流處理器、384-bit位寬,制造工藝也依然是臺積電28nm,但晶體管數(shù)量理論上應(yīng)該比71億個更多了。
寄存器文件、一級緩存增大后,可以明顯改進(jìn)流處理器陣列內(nèi)的數(shù)據(jù)吞吐能力,工作更高效,尤其適合高性能計(jì)算。這顯然是一次針對性的重新設(shè)計(jì)。
可怕的是,Tesla K80一次就用了倆GK210核心,而上次的雙芯計(jì)算卡還是Tesla K10,當(dāng)時用的是倆小核心GK104。
不過可以理解的是,如此龐大的兩個核心很難全速開動,每一個都只開啟了15組流處理器陣列中的13組,也就是總共2496×2=4992個流處理器,相當(dāng)于Tesla K20翻了一番。
核心頻率也定得很低,只有562MHz,但是第一次支持GPU Boost動態(tài)加速了,最高可達(dá)875MHz。顯存是兩組384-bit 12GB GDDR5,總計(jì)達(dá)24GB,但頻率也不是很高,只有5GHz。
這一切都是出于功耗的妥協(xié)。Tesla K20X/K20已經(jīng)達(dá)到235W,而雙芯的Tesla K80在一番折騰后,仍控制在了300W,并且保持了雙插槽的身材,但需要使用被動散熱,由系統(tǒng)風(fēng)扇帶走熱量,主動散熱版暫時沒有。
性能方面自然可期,官方宣稱FP32單精度、FP64雙精度浮點(diǎn)性能最高分別可達(dá)2.91TFlops(萬億次浮點(diǎn))、8.74TFlops(比例還是1:3),比此前提高了74%,但這只是最大加速理論性能,實(shí)際上會低一些。
1U標(biāo)準(zhǔn)機(jī)架內(nèi)可以放入最多四塊Tesla K80,雙精度性能可超10TFlops。
根據(jù)情況不同,Tesla K80的效率提升幅度最好59%,最差2%。
Tesla K80的售價(jià)高達(dá)5000美元,但其實(shí)比單芯Tesla K40 5500美元的首發(fā)價(jià)格便宜了很多,不過后者現(xiàn)在已經(jīng)降至3900美元。
目前,全球性能第十的Cray CS-Storm,以及戴爾、惠普、廣達(dá)的高性能計(jì)算系統(tǒng)都已經(jīng)配備了Tesla K80。