亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于FPGA 的Winograd 算法卷積神經(jīng)網(wǎng)絡(luò)加速器設(shè)計與實現(xiàn)

        2023-11-18 12:12:58牛朝旭孫海江
        液晶與顯示 2023年11期
        關(guān)鍵詞:加速器乘法卷積

        牛朝旭,孫海江*

        (1.中國科學(xué)院 長春光學(xué)精密機械與物理研究所,吉林 長春 130033;2.中國科學(xué)院大學(xué),北京 100049)

        1 引 言

        卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于許多深度學(xué)習(xí)系統(tǒng)中,并在全息圖像重建[1]、光學(xué)計量[2]和自動駕駛[3]等多種計算機視覺任務(wù)中取得了顯著的成效。為了達(dá)到更高的精度,一些研究引入了多尺度特征增強[4]、弱光照圖像增強[5]以及RGB-D 特征融合[6]等更為復(fù)雜的算法,使得網(wǎng)絡(luò)計算復(fù)雜度和模型規(guī)模也更為龐大,進(jìn)而導(dǎo)致了計算功耗的提升[7]。在一些低功耗的應(yīng)用場景中,如星上AI 計算、遙感圖像在軌處理等,常規(guī)的硬件平臺部署卷積神經(jīng)網(wǎng)絡(luò)十分困難[8]:通用的中央處理器(Central Processing Unit,CPU)無法滿足卷積神經(jīng)網(wǎng)絡(luò)的計算需求;圖形處理器(Graphic Processing Units,GPU)功耗太高,無法應(yīng)用于嵌入式環(huán)境;專用集成電路(Application Specific Integrated Circuit,ASIC)成本高昂且通用性差。與之相比,計算并行度高、功耗低、可重復(fù)編程的現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)更適合應(yīng)用于星上智能計算、在軌目標(biāo)識別等低功耗環(huán)境下的卷積神經(jīng)網(wǎng)絡(luò)的硬件加速中。

        傳統(tǒng)的空間卷積算法通過循環(huán)展開、并行計算的方法進(jìn)行加速計算,在早期被人們廣泛使用,如脈動陣列[9]、層集群并行映射方法[10]等加速方法被先后提出。隨著卷積神經(jīng)網(wǎng)絡(luò)的層次變深、卷積核尺寸變小,傳統(tǒng)的卷積方法在卷積效率上已經(jīng)逐漸落后,快速卷積算法顯現(xiàn)出它的優(yōu)勢。文獻(xiàn)[11]將快速傅里葉變換FFT 算法應(yīng)用于卷積中以加速計算,但此方法只對大尺寸卷積核具有良好的加速效果,否則其轉(zhuǎn)換過程會引入大量補零操作,得不償失。文獻(xiàn)[12]提出在卷積計算中使用Winograd 算法降低計算復(fù)雜度。Winograd 算法是通過對輸入特征矩陣和權(quán)重矩陣做線性變換后再求哈達(dá)瑪積,減少了乘法次數(shù),實現(xiàn)了硬件上計算效率的提升。文獻(xiàn)[13]提出在FPGA 上使用行緩存結(jié)構(gòu)提高Winograd 算法切片之間的行數(shù)據(jù)重用。文獻(xiàn)[14]提出雙緩沖區(qū)5×5 流水線卷積方法。但是上述文獻(xiàn)并沒有充分復(fù)用重疊數(shù)據(jù),也沒有在目前使用廣泛的小卷積核網(wǎng)絡(luò)上充分發(fā)揮FPGA 低功耗的特性。

        本文設(shè)計了一種Winograd 算法卷積神經(jīng)網(wǎng)絡(luò)加速器。首先設(shè)計了輸入數(shù)據(jù)緩存復(fù)用模塊,結(jié)合行緩存和列緩存重疊數(shù)據(jù),最大化重用了片上數(shù)據(jù),減少了頻繁數(shù)據(jù)搬運的開銷。針對FPGA并行運算特性,設(shè)計多通道并行Winograd 卷積運算陣列,并將卷積過程分解為六級流水線,提高了運算效率和吞吐量。為了提升計算速度和數(shù)據(jù)傳輸速度,使用權(quán)重8 位定點數(shù)(INT8)量化的方式來壓縮模型,數(shù)據(jù)量減少到1/4。最后針對遙感圖像分類數(shù)據(jù)集修改VGG16 網(wǎng)絡(luò),將加速器部署至ZCU104 平臺進(jìn)行實驗驗證。實驗結(jié)果表明,本設(shè)計相比其他FPGA 設(shè)計方案在功耗和計算效率上都有一定的提升。

        2 Winograd 算法

        文獻(xiàn)[15]提出的Winograd 算法可以用于減少有限脈沖響應(yīng)(Finite Impulse Response,F(xiàn)IR)濾波器的乘法次數(shù),之后被應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)加速中以減少乘法數(shù)量的方式來提升計算速度。在一維Winograd 卷積計算中,設(shè)卷積核尺寸為r,卷積結(jié)果輸出長度為m,則一維Winograd 卷積計算公式F(m,r)需要的乘法數(shù)量為m+r-1,而傳統(tǒng)卷積為m×r??梢钥闯?,當(dāng)r和m都大于1時,Winograd 卷積乘法數(shù)量更少。

        以F(2,3)為例,用d=[d0d1d2d3]T表示輸入向量,g=[g0g1g2]T表示卷積核,r=[r0r1]T表示輸出向量,其計算過程可以表示為:

        因此可知,普通卷積需要6 次乘法和4 次加法,即:

        而F(2,3)的Winograd 卷積可寫成如下矩陣乘法形式:

        其中m0、m1、m2、m3計算如下:

        其中,輸入信號d的變換需要4 次加法。而對于卷積神經(jīng)網(wǎng)絡(luò)推理階段的卷積核g,其數(shù)值是固定的,其變換可以預(yù)先計算好進(jìn)行存儲,同時其中的除2 操作可以用位移代替,所以計算需求可以忽略。輸出項r還需要中間項m進(jìn)行4 次乘法和4 次加法,所以F(2,3)的Winograd 乘法數(shù)量為4 次、加法數(shù)量為8 次。相較于傳統(tǒng)卷積,以加法為代價,節(jié)省了33%的乘法數(shù),考慮到在硬件實現(xiàn)的乘法的實現(xiàn)成本遠(yuǎn)高于加法。因此使用Winograd 算法能夠提升運算速度。

        上述計算可以整理為如下的矩陣形式:

        一維Winograd 卷積推廣到二維Winograd 卷積,可得到如下矩陣形式:

        其中W和In 是輸入數(shù)據(jù),Out 是輸出結(jié)果。AT、G、BT都是常數(shù)矩陣,在F(22,32)時為:

        Winograd 卷積計算F(22,32)的過程如圖1 所示。一次F(22,32)卷積計算可以將乘法數(shù)從36次降低為16 次,計算效率提升了2.25 倍。

        圖1 Winograd 卷積過程示意圖Fig.1 Schematic diagram of Winograd convolution process

        3 卷積神經(jīng)網(wǎng)絡(luò)加速器的構(gòu)成

        卷積神經(jīng)網(wǎng)絡(luò)加速器的整體架構(gòu)如圖2 所示。因為基于ZYNQ 平臺,所以分為可編程邏輯(Progarmmable Logic,PL)端和處 理系統(tǒng)(Processing System,PS)端兩部分。PL 端負(fù)責(zé)計算卷積神經(jīng)網(wǎng)絡(luò)的卷積、池化、全連接等相關(guān)層,PS 端負(fù)責(zé)控制PL 端的運行以及傳輸數(shù)據(jù)。兩部分主要通過AXI-DMA 進(jìn)行數(shù)據(jù)交互,并使用AXI-FIFO起到對數(shù)據(jù)流緩沖的作用,防止數(shù)據(jù)接收不及時造成的數(shù)據(jù)丟失。

        圖2 卷積神經(jīng)網(wǎng)絡(luò)加速器硬件架構(gòu)圖Fig.2 Hardware architecture diagram of convolutional neural network accelerator

        PS 端讀取SD 卡中的權(quán)重數(shù)據(jù)和特征數(shù)據(jù)到DDR 內(nèi)存,通過寫寄存器控制當(dāng)前PL 端運行網(wǎng)絡(luò)的層數(shù)。之后開始計算,通過AXI-DMA 使用AXI-Stream 總線向PL 端寫入DDR 上的數(shù)據(jù),緩存至特征數(shù)據(jù)緩存模塊或權(quán)重數(shù)據(jù)緩存模塊。在卷積層中,將卷積計算按照并行計算方式循環(huán)展開,之后根據(jù)計算窗口位置的不同,輸出數(shù)據(jù)到六級流水線卷積層,得到中間計算結(jié)果后累加緩存,完成整幅輸出通道的計算后經(jīng)AXI-DMA輸出數(shù)據(jù)到DDR 上,作為下一層特征數(shù)據(jù)存儲。依此類推,直至完成網(wǎng)絡(luò)全部層的計算,得到輸出結(jié)果。

        4 卷積神經(jīng)網(wǎng)絡(luò)加速器設(shè)計

        4.1 硬件8 位定點數(shù)量化

        32 位浮點數(shù)在FPGA 上進(jìn)行乘加運算時會消耗更多的片上資源,占用更多的位寬。為了提高數(shù)據(jù)吞吐速率和加速器計算效率,可以使用量化后的8 位定點數(shù),在精度損失不大的情況下達(dá)到壓縮模型的目的。為了更適合FPGA 硬件電路實現(xiàn),本文選擇了線性對稱且逐層的量化方式。

        量化的過程就是放縮的過程。將32 位浮點數(shù)的數(shù)值范圍線性縮小到8 位定點數(shù)的數(shù)值范圍,就得到了INT8 的權(quán)重數(shù)據(jù)。其量化公式如式(11)所示:其中:x表示32 位浮點數(shù)據(jù),scale 表示縮放比例,zero_point 表示映射零點偏移,round 表示四舍五入的取整操作。因為采用對稱式量化,所以zero_point 為0。通過KL 散度校準(zhǔn)訓(xùn)練可以得到最優(yōu)縮放比例,提升量化后精度。VGG16 網(wǎng)絡(luò)逐層量化后的部分結(jié)果如表1 所示,可以看到量化后結(jié)果全部為整數(shù),且縮放比例均為2 的整數(shù)冪,可以通過移位實現(xiàn)縮放,易于在硬件上實現(xiàn)8 位定點數(shù)量化。

        表1 VGG-16 網(wǎng)絡(luò)量化后的部分結(jié)果Tab.1 Partial results after quantification of VGG-16 network

        硬件量化流程如圖3 所示。將32 位浮點數(shù)權(quán)重經(jīng)過訓(xùn)練后量化,可以得到8 位定點權(quán)重,與8 位定點特征數(shù)據(jù)卷積后,擴(kuò)展位寬到16 位。經(jīng)過多通道累加,輸出數(shù)據(jù)位寬擴(kuò)展到32 位。之后累加上偏置,利用移位量化得到下一層計算所需的8 位定點特征數(shù)據(jù)。為減小誤差,移位量化時對需要舍去的小數(shù)位采用向偶數(shù)進(jìn)位的模式。

        圖3 硬件量化流程圖Fig.3 Diagram of hardware quantification flow

        4.2 輸入數(shù)據(jù)緩存復(fù)用模塊

        FPGA 的存儲資源可以分為片上存儲和片外存儲兩種。片上存儲主要是Block RAM,它存儲和讀取的速度快,但是容量小,無法將網(wǎng)絡(luò)權(quán)重數(shù)據(jù)全部保存在片上,只能夠?qū)⑵浯嬗谄獯鎯DR 中,再分批輸入到片上進(jìn)行計算。

        卷積計算時一個輸出通道的結(jié)果需要累加全部輸入通道的中間計算結(jié)果。為了減少片上緩存的占用,采用輸入通道切片的方式處理特征數(shù)據(jù)。計算完成一組輸出通道對應(yīng)的全部輸入通道切片后,再切換到下一組輸出通道。

        切片卷積的整體流程如圖4 所示。開始某一卷積層計算后,循環(huán)完成部分卷積核的切片卷積計算。待部分卷積核的全部層卷積完成后,更換卷積核繼續(xù)進(jìn)行循環(huán)卷積,直至全部卷積核都已運算完成,結(jié)束當(dāng)前卷積層運算。

        圖4 切片卷積流程圖Fig.4 Slice convolution flow chart

        為了便于不同輸入通道同時計算,使用特征數(shù)據(jù)融合設(shè)計。原輸入順序是輸入第一通道后再輸入下一通道,這種方式需要將全部數(shù)據(jù)輸入完成后才可開始計算,占用較多的存儲空間。而經(jīng)過數(shù)據(jù)融合,可以將同一位置的4 個輸入通道數(shù)據(jù)組合傳輸,如圖5 所示。這種設(shè)計可以充分利用輸入數(shù)據(jù)位寬,在得到中間結(jié)果后,不需要暫存中間數(shù)據(jù)就可以完成結(jié)果累加,減少了片上緩存的占用。

        圖5 特征數(shù)據(jù)融合設(shè)計圖Fig.5 Design drawing of feature data fusion

        在輸入數(shù)據(jù)緩存復(fù)用模塊中,因為Winograd卷積的特殊性,輸出窗口大小為4×4,步長為2。這就導(dǎo)致相鄰窗口間有步長為2 的數(shù)據(jù)重疊。為了復(fù)用行重疊數(shù)據(jù),本文設(shè)計了循環(huán)復(fù)用的輸入數(shù)據(jù)緩存模塊,如圖6 所示。設(shè)置6 個Block RAM,每個存儲一行特征數(shù)據(jù)。數(shù)據(jù)以128 bit 位寬順序?qū)懭?,?dāng)寫入完成前4 個Block RAM 后,在寫入第5 個Block RAM 的同時,并行輸出前4 個Block RAM。當(dāng)Block RAM 數(shù)據(jù)全部輸出后,第5、6 個Block RAM 也完成寫入,此時在寫入第1 個Block RAM 的同時,復(fù)用第3、4 個Block RAM 數(shù)據(jù),并行輸出后4 個Block RAM。依此交替,3 個狀態(tài)構(gòu)成循環(huán)的一個周期。在降低片上存儲占用的同時,實現(xiàn)了串并轉(zhuǎn)換和行數(shù)據(jù)復(fù)用。

        圖6 輸入數(shù)據(jù)緩存復(fù)用模塊示意圖Fig.6 Schematic diagram of input data buffer reuse module

        4.3 Winograd 流水線卷積模塊

        卷積計算存在內(nèi)部的并行性,分別是行并行、列并行、輸入通道并行、輸出通道并行和核內(nèi)并行。從算法層面看,這5 種并行方式可以任意組合先后順序。但從硬件實現(xiàn)的角度,合理的并行計算方式可以節(jié)省片上資源,提高計算效率。經(jīng)分析,本文選擇使用4 輸入通道并行、8 輸出通道并行、核內(nèi)16 并行度的方式進(jìn)行卷積計算。

        Winograd 卷積需要逐步計算完成,采用流水線的設(shè)計方式可以提高計算效率。卷積模塊共分為六級流水線,其結(jié)構(gòu)如圖7 所示。

        圖7 六級流水線卷積設(shè)計圖Fig.7 Convolution design drawing of six stage assembly line

        第一級是列數(shù)據(jù)復(fù)用組合輸出。模塊接收并暫存輸入數(shù)據(jù)緩存模塊輸出的4×2 數(shù)據(jù),即圖中的灰色數(shù)據(jù)塊。等下一周期橙色數(shù)據(jù)塊輸入后,組合為4×4 窗口大小輸出到第二級,便于下一級進(jìn)行Winograd 矩陣變換。暫存數(shù)據(jù)也替換為橙色數(shù)據(jù)塊。下一周期綠色數(shù)據(jù)塊輸入后再次組合輸出,如此循環(huán)往復(fù)。緩存的4 行2 列數(shù)據(jù)每周期切換,實現(xiàn)了相鄰窗口之間的列重疊數(shù)據(jù)復(fù)用,提高了數(shù)據(jù)利用效率。

        第二級和第三級是矩陣變換。特征矩陣和權(quán)重矩陣都需要進(jìn)行變換。由于權(quán)重是預(yù)先訓(xùn)練完成的,可以提前變換后保存在DDR 上直接輸入,降低片上資源的占用。因此只需要對特征矩陣乘上常數(shù)矩陣進(jìn)行變換。

        第四級是多通道并行乘加。多輸入通道和多輸出通道可以并行相乘,這也是計算最為集中的環(huán)節(jié)。不同輸入通道的中間結(jié)果累加后才可以得到輸出數(shù)據(jù),為了優(yōu)化時序,使用加法樹的方式進(jìn)行累加。

        最后經(jīng)過第五級和第六級矩陣變換之后,就可以得到8 個輸出通道的2×2 輸出數(shù)據(jù)。作為中間結(jié)果輸出到緩存模塊暫存。

        以VGG-16 網(wǎng)絡(luò)的第一層卷積為例,當(dāng)輸入圖像為圖8 時,可以得到輸出前8 個輸出通道結(jié)果以灰度圖展示如圖9。

        圖8 河流圖的遙感圖像Fig.8 Remote sensing image of river map

        圖9 卷積輸出灰度圖Fig.9 Grayscale image of convolution output

        4.4 數(shù)據(jù)累加輸出模塊

        數(shù)據(jù)累加輸出模塊(圖10)獲取到卷積模塊的輸出數(shù)據(jù)后,按照輸出通道不同,暫存在緩存A 的不同Block RAM 中。當(dāng)存儲完一組卷積核的一組輸出結(jié)果后,在下一組結(jié)果輸入前依次讀出,一起輸入加法樹累加后再次存入Block RAM,覆蓋之前的結(jié)果。當(dāng)這組卷積核的全部結(jié)果計算完成后,切換緩存,使緩存B 繼續(xù)存儲結(jié)果,緩存A 則輸出所有計算結(jié)果到DDR 中。這種設(shè)計可以在不中斷數(shù)據(jù)輸入和計算的同時輸出結(jié)果,減少了數(shù)據(jù)輸出時的阻塞時間。

        圖10 數(shù)據(jù)累加輸出模塊狀態(tài)圖Fig.10 Status diagram of data accumulation output module

        在卷積計算之后,裁剪了邊緣處的數(shù)據(jù),輸出特征圖像的尺寸會減小。隨著網(wǎng)絡(luò)層數(shù)的加深,如果不做處理,特征圖像尺寸會越來越小,造成信息的丟失。為了防止這一現(xiàn)象,在一層數(shù)據(jù)輸出時進(jìn)行padding 填充,即對特征圖像周圍補0。為了減少數(shù)據(jù)傳輸時間、節(jié)省存儲資源,在設(shè)計中省略了第一行和最后一行全部數(shù)據(jù)為0 的值,只在中間行的首尾列補0,在特征數(shù)據(jù)窗口讀取時再補首末行的0。

        5 實驗結(jié)果及分析

        5.1 實驗環(huán)境

        本文的實驗平臺為Xilinx 公司的ZCU104 開發(fā)板,芯片型號為XCZU7EV-2FFVC1156。PS 端片外存儲為2 GB 大小的DDR4,PL 端片上存儲為38 Mb 的Block RAM 和Ultra RAM,可以滿足實驗需求。在RTL 代碼編寫完成后,使用Vivado 2018.3 進(jìn)行仿真測試。在綜合實現(xiàn)完成后,編寫SDK 程序,燒錄上板進(jìn)行實驗。

        本文基于經(jīng)典的VGG-16 網(wǎng)絡(luò)進(jìn)行了改進(jìn)。VGG-16 網(wǎng)絡(luò)具有提取特征能力強,結(jié)構(gòu)清晰簡單、易于修改的特點,且其卷積核尺寸小,全部為3×3,更便于Winograd 算法的應(yīng)用。但是VGG-16 網(wǎng)絡(luò)主 要針對ImageNet ILSVRC2012 數(shù)據(jù)集進(jìn)行1 000 種標(biāo)簽的分類,為了將其適用于遙感圖像分類的任務(wù)中,使用NWPU-RESISC45 數(shù)據(jù)集對其進(jìn)行遷移學(xué)習(xí),并修改最后的全連接層輸出為45,對應(yīng)數(shù)據(jù)集的飛機、機場、棒球場、籃球場、沙灘等45 種標(biāo)簽。修改后的VGG-16 網(wǎng)絡(luò)結(jié)構(gòu)如表2 所示。

        表2 修改后的VGG-16 的網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 Revised VGG-16 network structure table

        5.2 性能分析

        設(shè)定加速器時鐘頻率為200 MHz,經(jīng)綜合實現(xiàn)后硬件資源占用情況如表3 所示。其中LUT表示片上所有查找表;LUTRAM 表示作為存儲資源使用的查找表;BRAM 和URAM 表示片上的專用塊RAM 存儲器;DSP 則表示片上運算單元,主要用于乘法運算當(dāng)中。

        表3 硬件資源占用情況Tab.3 Hardware resource usage

        可以看出,加速器使用DSP 資源比例相較LUT 和BRAM 等資源比例較低,原因在于數(shù)據(jù)帶寬限制了數(shù)據(jù)傳輸速度。如果通過提高DSP 使用量的方式繼續(xù)提升加速效果,可以更換硬件資源更豐富、帶寬更大的開發(fā)板平臺或者使用PL 端的DDR 存儲圖像和權(quán)重數(shù)據(jù)。在時序穩(wěn)定的前提下,也可以通過提高時鐘頻率來獲得更快的加速效果。

        實驗時,首先讀取SD 卡中的權(quán)重數(shù)據(jù)和圖像數(shù)據(jù)到DDR 內(nèi)存上,讀取后的圖像數(shù)據(jù)如圖11所示,位于DDR內(nèi)存的0×1 000 000地址處。

        圖11 圖像數(shù)據(jù)存入DDR 內(nèi)存展示圖Fig.11 Display diagram of image data stored in DDR memory

        硬件實驗平臺如圖12 所示。讀取圖8 所示圖像后完成計算,通過串口輸出到上位機得到圖像分類的標(biāo)簽與分類概率,如圖13 所示。

        圖12 ZCU104 硬件平臺測試圖Fig.12 ZCU104 hardware platform test diagram

        在NWPU-RESISC45 數(shù)據(jù)集上驗證后得到FPGA 實現(xiàn)遙感圖像分類的TOP-1 準(zhǔn)確率,與GPU 實現(xiàn)的準(zhǔn)確率對比如表4 所示。在精度損失不超過1%的情況下,將網(wǎng)絡(luò)大小壓縮為原大小的28.6%,效果顯著。

        表4 硬件實現(xiàn)后網(wǎng)絡(luò)精度對比Tab.4 Comparison of network accuracy after hardware implementation

        將加速器與其他方案的實驗結(jié)果進(jìn)行對比,如表5 所示。由于不同的設(shè)計方案采用的FPGA平臺不同,因此將計算效率和能效作為主要性能指標(biāo)進(jìn)行分析。本文提出的加速器與文獻(xiàn)[16]的Caffeine 結(jié)構(gòu)、文獻(xiàn)[17]的Angel-Eye 結(jié)構(gòu)相比,使用了更少的硬件DSP 資源,實現(xiàn)了更高的計算吞吐量。與文獻(xiàn)[18]中提出的將乘加樹與脈動陣列相結(jié)合的乘加陣列相比,雖然由于硬件規(guī)模不同,在卷積層計算性能方面存在差距,但是本設(shè)計在能效比上較為接近,且DSP 計算效率提升為1.635 倍。

        表5 與現(xiàn)有FPGA 加速方案的對比Tab.5 Comparison with existing FPGA acceleration schemes

        6 結(jié) 論

        本文提出了一種基于FPGA 的Winograd 算法卷積神經(jīng)網(wǎng)絡(luò)加速器。在卷積算法方面,采用Winograd算法減少乘法運算量,并設(shè)計了輸入數(shù)據(jù)緩存復(fù)用和流水線相結(jié)合的方式,充分復(fù)用了行列間的重疊數(shù)據(jù),提高了傳輸效率。使用8 位定點數(shù)對權(quán)重和數(shù)據(jù)量化,提高數(shù)據(jù)吞吐速率和加速器計算效率。經(jīng)過六級流水線并行卷積計算之后,得到的數(shù)據(jù)分組循環(huán)累加,降低了片上緩存的占用。在ZCU104開發(fā)板上的實驗表明,加速器卷積層計算性能達(dá)到了354.5 GOPS,片上DSP 計算效率達(dá)到0.69,與相關(guān)研究相比,實現(xiàn)了1.6 倍以上的提升。本設(shè)計在計算效率上優(yōu)于其他FPGA加速器設(shè)計方案,能夠以較高能效完成遙感圖像分類任務(wù)中的硬件加速計算。

        猜你喜歡
        加速器乘法卷積
        輪滑加速器
        化學(xué)工業(yè)的“加速器”
        算乘法
        我們一起來學(xué)習(xí)“乘法的初步認(rèn)識”
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        全民小康路上的“加速器”
        少先隊活動(2021年6期)2021-07-22 08:44:24
        《整式的乘法與因式分解》鞏固練習(xí)
        把加法變成乘法
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        中文文精品字幕一区二区| 色又黄又爽18禁免费网站现观看| 高清偷自拍亚洲精品三区| 国产乱子伦视频大全| 97久久久久国产精品嫩草影院| 网址视频在线成人亚洲| 精品午夜福利在线观看| 国产亚洲人成a在线v网站| 亚洲日韩区在线电影| 翘臀诱惑中文字幕人妻| 欧美日本精品一区二区三区| 欧美野外疯狂做受xxxx高潮 | 国产影片免费一级内射| 国产免费观看黄av片| 中文字幕人妻丝袜乱一区三区| 天天综合网天天综合色| 久久狠狠第一麻豆婷婷天天| 亚洲一区二区三区综合网| 国产精品视频自拍在线| 男女裸交无遮挡啪啪激情试看 | 手机看片福利日韩国产| 久久午夜一区二区三区| 中文字幕亚洲欧美在线不卡| www插插插无码免费视频网站| 精品无码国产一二三区麻豆| 蜜桃视频第一区免费观看| 国产精品www夜色视频| 精品四虎免费观看国产高清| 午夜一区二区三区在线观看| 手机在线看片| 国产极品美女高潮抽搐免费网站| 亚洲中文字幕精品久久久久久直播| 阴唇两边有点白是怎么回事| 精品www日韩熟女人妻| 久久人妻AV无码一区二区| 亚洲精品综合久久国产二区| 欧美国产亚洲日韩在线二区| 免费无码成人av在线播| 加勒比亚洲视频在线播放| 精品人妻码一区二区三区剧情| 亚洲精品97久久中文字幕无码|