亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        HBM訪存特點(diǎn)分析及性能測(cè)試?

        2020-09-28 05:42:08陳海燕王耀華楊曉輝
        艦船電子工程 2020年7期

        張 顯 陳海燕 王耀華 楊曉輝

        (1.空軍航空兵第十三團(tuán) 日喀則 857000)(2.國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院 長(zhǎng)沙 410073)

        1 引言

        X-DSP是課題組自主研制的一款面向高性能計(jì)算的多核向量數(shù)字信號(hào)處理器。隨著性能需求的增長(zhǎng),X-DSP采用了更多的內(nèi)核和更高的時(shí)鐘頻率,而其采用的DDR3存儲(chǔ)部件逐漸不能滿足大規(guī)模應(yīng)用程序的高帶寬需求。JEDEC提出的HBM[4]作為一款通過3D堆棧技術(shù)實(shí)現(xiàn)的新型內(nèi)存技術(shù),在電壓只有1.2V時(shí)鐘頻率1GHz情況下,其理論帶寬可達(dá)265GB/s??赏行Ь徑飧咝阅芏嗪宋⑻幚砥鞯脑L存帶寬瓶頸。

        HBM存儲(chǔ)顆粒由一個(gè)基本邏輯層和四個(gè)DRAM層通過3D堆棧構(gòu)成,之間通過TSV互連[5~8],基本邏輯層包含I/O緩存模塊和測(cè)試邏輯模塊[9~12]。每個(gè)DRAM堆棧層包含2個(gè)內(nèi)存通道,共集成8個(gè)通道,各通道之間相互獨(dú)立。8個(gè)通道各自對(duì)應(yīng)一個(gè)內(nèi)存控制器,如圖1,每個(gè)通道支持兩個(gè)AXI從機(jī)接口,對(duì)應(yīng)其中的兩個(gè)虛通道。

        圖1 HBM功能模塊圖

        HBM支持虛通道訪存模式,每個(gè)虛通道對(duì)應(yīng)一個(gè)128位數(shù)據(jù)位寬32位地址位寬的AXI4.0接口;支持不同讀地址ID讀請(qǐng)求亂序返回讀數(shù)據(jù),而相同讀地址ID需按讀請(qǐng)求順序返回讀數(shù)據(jù);僅支持自增Burst類型。HBM單個(gè)虛通道支持交錯(cuò)地址映射方案,如圖2,4~9位指向6位列地址,10~13位指向4位Bank地址,14~28位指向15位行地址,可訪問的內(nèi)存空間為512MB,則整個(gè)HBM共8GB尋址空間。

        圖2 HBM單個(gè)虛通道地址映射方案

        2 HBM測(cè)試平臺(tái)及性能測(cè)試

        2.1 HBM測(cè)試平臺(tái)

        由于HBM 16個(gè)虛通道完全并行,對(duì)應(yīng)不同地址空間,下面只需針對(duì)單個(gè)虛通道搭建測(cè)試平臺(tái)進(jìn)行基本的性能測(cè)試。單個(gè)虛通道從機(jī)接口遵循AXI4.0協(xié)議,包含讀地址通道、讀數(shù)據(jù)通道、寫地址通道、寫數(shù)據(jù)通道和寫響應(yīng)通道[13]。本文利用Ver?ilog HDL搭建了HBM測(cè)試平臺(tái),整個(gè)平臺(tái)包括HBM主機(jī)模型、HBM、參考模型、比較器四個(gè)模塊。主機(jī)模型通過相應(yīng)讀、寫請(qǐng)求通道向AXI從接口發(fā)送請(qǐng)求激勵(lì)。請(qǐng)求內(nèi)容主要包括:訪存類型、訪存地址、Burst類型、Burst大小、Burst長(zhǎng)度、選通信號(hào)、握手對(duì)信號(hào)VALID和READY等。參考模型為基于數(shù)組實(shí)現(xiàn)的存儲(chǔ)器,用于和HBM的輸出結(jié)果進(jìn)行比較,判斷讀寫數(shù)據(jù)的正確性。

        圖3 HBM測(cè)試平臺(tái)

        2.2 HBM讀寫性能

        讀寫性能測(cè)試主要是計(jì)算HBM讀寫有效帶寬和帶寬利用率。HBM主機(jī)模型向HBM發(fā)送地址遞增的連續(xù)讀請(qǐng)求,讀地址ID分為固定和不固定兩種。結(jié)果表明,讀ID號(hào)固定和不固定的情況下,HBM讀數(shù)據(jù)帶寬利用率分別最大為85.34%和91.11%,有效帶寬分別最大為218.47GB/s和233.24GB/s。讀地址ID固定時(shí)讀數(shù)據(jù)需按讀請(qǐng)求順序返回,ID不固定時(shí)可亂序返回,導(dǎo)致讀ID固定最大有效帶寬利用率較ID號(hào)不固定情況下降5.8%,如圖4所示。

        圖4 HBM讀數(shù)據(jù)帶寬利用率

        寫地址ID號(hào)固定和不固定的情況下,HBM寫數(shù)據(jù)帶寬利用率最大為74.50%,有效帶寬最大為190.72GB/s。寫ID號(hào)固定有效帶寬利用率和寫ID號(hào)不固定表現(xiàn)相同,是由于寫數(shù)據(jù)到達(dá)HBM控制器時(shí)進(jìn)入緩存,并同時(shí)返回寫響應(yīng)信號(hào)所致,如圖5所示。

        圖5 HBM寫數(shù)據(jù)帶寬利用率

        3 基于HBM和DDR3的X-DSP性能測(cè)試

        3.1 X-DSP體系結(jié)構(gòu)

        X-DSP為自主研制的一款高性能多核數(shù)字信號(hào)處理芯片,包含6個(gè)DSP超節(jié)點(diǎn),每個(gè)超節(jié)點(diǎn)包含2個(gè)同構(gòu)的DPS內(nèi)核,12個(gè)內(nèi)核通過片上網(wǎng)絡(luò)訪存核外存儲(chǔ)。單個(gè)DSP內(nèi)核采用SIMD和VLIW技術(shù),可一拍實(shí)現(xiàn)11條標(biāo)向量指令派發(fā);其主要包括指控單元、標(biāo)量處理單元SPU、向量處理單元VPU、DMA、768KB的片上陣列存儲(chǔ)器AM等,如圖6所示。指控單元用于取指和將指令派發(fā)至SPU和VPU;SPU包括指令流控、標(biāo)量運(yùn)算單元SPE和標(biāo)量存儲(chǔ)器SM,指令流控用于程序流控制,SPE內(nèi)部集成2個(gè)同構(gòu)的乘加運(yùn)算部件SMAC2、SMAC1,SM主要實(shí)現(xiàn)標(biāo)量數(shù)據(jù)訪存。VPU包含16個(gè)同構(gòu)向量運(yùn)算單元VPE,每個(gè)VPE集成3個(gè)運(yùn)算部件VMAC1、VMAC2、VMAC3進(jìn)行向量乘加。DMA可實(shí)現(xiàn)核內(nèi)AM、核內(nèi)SM與核外存儲(chǔ)的數(shù)據(jù)傳輸。

        圖6 X-DSP體系結(jié)構(gòu)

        3.2 基于HBM和DDR3的X-DSP性能測(cè)試

        為評(píng)估HBM高帶寬性能,本文基于X-DSP體系結(jié)構(gòu),在X-DSP仿真模擬平臺(tái)中分別將核外內(nèi)存配置為HBM和DDR3,評(píng)估GEMM程序和典型深度學(xué)習(xí)程序 AlexNet[14]、VGG16[15]的程序執(zhí)行時(shí)間并分析其性能。

        GEMM(通用矩陣乘法)在深度學(xué)習(xí)中十分重要,全連接層和卷積層基本上都是通過GEMM來(lái)實(shí)現(xiàn)。我們通過圖3.2示例說(shuō)明矩陣 A12×9216·B9216×4032在X-DSP12個(gè)核內(nèi)劃分運(yùn)算過程:將矩陣B9216×4032按列分成12份,對(duì)應(yīng)到12核中,單核包含336(21×16)列。因AM大小為768KB,將矩陣B9216×336按行分成18份,這樣每份大小為B’512×336=672KB(512×18×21×16×4B)依次存入AM。相應(yīng)的將矩陣A12×9216按列劃分為18份得A’12×512,則 A’12×512·B’512×336=C’12×336。矩陣B’各行可劃分為21個(gè)寬度為16的向量B’0,0,B’0,1,。。。,B’0,20,。。。,B’511,0,B’511,1,。。。,B’511,20。取出存儲(chǔ)在 SM 中的 A’中第一行元素 a’0,0,a’0,1,a’0,2,。。。,a’0,511,通過標(biāo)向量廣播操作擴(kuò)展為寬度為 16 向量 A’0,0,A’0,1,A’0,2,。。。,A’0,511。A’0,0分別與B’0,0,B’0,1,。。。,B’0,20到VPE中進(jìn)行向量乘后得中間結(jié)果 T0,T1,T2,。。。,T20,大小為 1.325KB,放入AM。然后取 A’0,1與 B’1,0,B’1,1,。。。,B’1,20到 VPE中進(jìn)行向量乘后與之前中間結(jié)果累加為新的中間結(jié)果 T0,T1,T2,。。。,T20。依次進(jìn)行 512次上述運(yùn)算后得C’0,0,C’0,1,C’0,2,。。。,C’0,20。同理,矩陣A’12×512剩余11行與B’512×336進(jìn)行上述同樣運(yùn)算后得到C’1,0,C’1,1,C’1,2,。。。,C’1,20,。。。,C’11,0,C’11,1,C’11,2,。。。,C’11,20,進(jìn)而得到矩陣C’12×336。將矩陣B按行分成的18份分別從核外內(nèi)存中取至AM與矩陣A按列分成的18份進(jìn)行上述全部運(yùn)算過程,每次累加更新得到的矩陣C’12×336。最后將12個(gè)核所有最終結(jié)果合并得到 A12×9216·B9216×4032的最終結(jié)果矩陣 C12×4032。

        圖7 GEMM分塊計(jì)算示例

        經(jīng)過分析GEMM在12個(gè)核中的運(yùn)算映射過程后,在X-DSP仿真模擬平臺(tái)運(yùn)行不同數(shù)據(jù)規(guī)模的GEMM程序。隨著GEMM數(shù)據(jù)規(guī)模的不斷增加,將數(shù)據(jù)從核外內(nèi)存搬移至AM的過程中,HBM相比DDR3的高帶寬優(yōu)勢(shì)大大縮短了數(shù)據(jù)搬移時(shí)間,從而縮短了程序執(zhí)行時(shí)間,如圖8所示。可以看到HBM最大計(jì)算資源利用率(計(jì)算時(shí)間/(計(jì)算時(shí)間+數(shù)據(jù)傳輸時(shí)間))達(dá)85%左右,而DDR3僅為48%左右。

        圖8 不同規(guī)模GEMM執(zhí)行時(shí)間及計(jì)算資源利用率

        AlexNet程序主要也是矩陣乘法,其共八層,前五層為卷積層conv1~conv5,后三層為全連接層fc6~fc8。五層卷積層中數(shù)據(jù)計(jì)算占主導(dǎo),數(shù)據(jù)搬移量相對(duì)較少,對(duì)內(nèi)存帶寬要求不高,HBM和DDR3表現(xiàn)差異不大,如圖9所示。而三層全連接層中數(shù)據(jù)搬移量大,DDR3帶寬較低,導(dǎo)致VPE需要等待很長(zhǎng)的時(shí)間才能獲得數(shù)據(jù)進(jìn)行運(yùn)算,特別是fc6層;而HBM帶寬非常高,可以很快將數(shù)據(jù)傳輸?shù)絍PE進(jìn)行計(jì)算??傮w上HBM相比DDR3將AlexNet程序的執(zhí)行速度提升3.2倍左右。

        圖9 AlexNet各層執(zhí)行時(shí)間

        VGG16共16層,前13層為卷積層如AlexNet,數(shù)據(jù)搬移相較數(shù)據(jù)計(jì)算不占主導(dǎo),HBM比DDR3提升不大,而在后3個(gè)全連接層中HBM表現(xiàn)出更好的性能,大大縮減了全連接層執(zhí)行時(shí)間,總體上比DDR3提升VGG16執(zhí)行速度1.5倍左右。

        圖10 VGG16各層執(zhí)行時(shí)間

        4 結(jié)語(yǔ)

        本文通過搭建HBM測(cè)試平臺(tái),對(duì)HBM讀寫性能進(jìn)行基本測(cè)試,并在多核X-DSP仿真模擬平臺(tái)中運(yùn)行GEMM程序及典型深度學(xué)習(xí)程序AlexNet和VGG16,基于HBM和DDR3對(duì)DSP性能差異進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,HBM擁有更高的訪存帶寬及利用率,可有效提升X-DSP面對(duì)大規(guī)模算法程序時(shí)的計(jì)算效率,為新一代多核X-DSP的性能擴(kuò)展提供了方向。

        亚洲色大成网站www久久九| 国产精品一区久久综合| 国产欧美综合一区二区三区| 国产办公室沙发系列高清| 色婷婷资源网| 亚洲av影片一区二区三区| 亚洲av香蕉一区二区三区av| 国产成年女人毛片80s网站| 国产精品内射后入合集| 精品国产日韩无 影视| 亚洲乱码一区二区av高潮偷拍的| 亚洲女同一区二区| 四虎影院在线观看| 中文字幕日本熟妇少妇| 久久亚洲中文字幕伊人久久大| 久久久久亚洲精品无码蜜桃| 艳妇乳肉豪妇荡乳av无码福利| 久久亚洲精品成人综合| 日本久久精品视频免费| 亚洲愉拍99热成人精品热久久| 亚洲欧美日韩精品高清| 亚洲国产精品第一区二区三区| 亚洲黄色一级在线观看| 岳好紧好湿夹太紧了好爽矜持| 99国产精品视频无码免费 | 亚洲青涩在线不卡av| 一本久道竹内纱里奈中文字幕| 极品少妇被猛的白浆直喷白浆| 国产乱淫视频| 三级黄片一区二区三区| 伊人情人色综合网站| 无码人妻丰满熟妇区毛片| 亚洲公开免费在线视频| 人妻人妇av一区二区三区四区| 无码中文亚洲av影音先锋| 奇米影视久久777中文字幕| 男子把美女裙子脱了摸她内裤| 亚洲综合av大全色婷婷| 国产精品熟女一区二区| 久久熟女五十路| 中文字幕34一区二区|