亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        異構(gòu)計(jì)算環(huán)境下NPU架構(gòu)與深度學(xué)習(xí)加速方法

        2025-07-20 00:00:00王穎徐天驊孫德龍
        電腦知識(shí)與技術(shù) 2025年18期

        摘要:當(dāng)前,隨著異構(gòu)計(jì)算技術(shù)的快速發(fā)展,如何高效部署深度神經(jīng)網(wǎng)絡(luò)成為業(yè)界關(guān)注的焦點(diǎn)。文章重點(diǎn)研究了面向邊緣場景的神經(jīng)網(wǎng)絡(luò)加速技術(shù),通過剖析現(xiàn)有NPU架構(gòu)的優(yōu)缺點(diǎn),提出了一套低功耗加速方案。該方案有效結(jié)合了流水線并行與循環(huán)展開技術(shù),顯著提升了計(jì)算資源利用率,同時(shí)在數(shù)據(jù)調(diào)度與存儲(chǔ)管理方面實(shí)現(xiàn)了有效優(yōu)化。在采用混合精度模式時(shí),DSP與BRAM資源利用率分別達(dá)到98.15%與72.44%,相較于CPU基準(zhǔn)實(shí)現(xiàn)獲得了37.3倍的性能提升。此外,該方案的平均功耗僅為5.85 W,功耗波動(dòng)控制在7.2%以內(nèi),為神經(jīng)網(wǎng)絡(luò)在邊緣設(shè)備上的實(shí)際應(yīng)用提供了可靠的技術(shù)路徑。

        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)處理器(NPU) ;異構(gòu)計(jì)算;深度學(xué)習(xí)加速;邊緣計(jì)算;流水線優(yōu)化

        中圖分類號(hào):TP18" " " 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2025)18-0095-03

        開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)

        0 引言

        近年來,人工智能技術(shù)的突飛猛進(jìn)推動(dòng)神經(jīng)網(wǎng)絡(luò)在自動(dòng)駕駛與智能醫(yī)療等領(lǐng)域的廣泛應(yīng)用。然而,依賴傳統(tǒng)GPU與CPU進(jìn)行深度學(xué)習(xí)推理時(shí),高功耗與高延遲問題日益凸顯,極大限制了神經(jīng)網(wǎng)絡(luò)在邊緣設(shè)備的落地,為此,專為神經(jīng)網(wǎng)絡(luò)計(jì)算優(yōu)化的NPU(神經(jīng)網(wǎng)絡(luò)處理器) 憑借其出色的并行計(jì)算能力與能效優(yōu)勢(shì),成為行業(yè)關(guān)注的重點(diǎn)方向。本研究深入分析當(dāng)前NPU架構(gòu)的局限性,并提出一種面向邊緣計(jì)算的高效神經(jīng)網(wǎng)絡(luò)加速方案。通過多級(jí)優(yōu)化策略,該方案在計(jì)算性能與能源效率上均實(shí)現(xiàn)顯著提升。

        1 NPU架構(gòu)發(fā)展現(xiàn)狀與分析

        在異構(gòu)計(jì)算中,GPU與FPGA是兩種重要的加速器形式,其中GPU提供了強(qiáng)大的并行計(jì)算能力,而NPU作為深度學(xué)習(xí)專用處理器,通過集成專用的矩陣乘法單元與高效的卷積加速電路,在神經(jīng)網(wǎng)絡(luò)任務(wù)上展現(xiàn)出獨(dú)特優(yōu)勢(shì)。隨著人工智能技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用,計(jì)算架構(gòu)正經(jīng)歷一場深刻變革——從傳統(tǒng)CPU向異構(gòu)計(jì)算的轉(zhuǎn)型已成定局。在這一進(jìn)程中,NPU(神經(jīng)網(wǎng)絡(luò)處理器) 作為深度學(xué)習(xí)加速的專用芯片,其架構(gòu)設(shè)計(jì)實(shí)現(xiàn)重大進(jìn)展:從早期的單一計(jì)算單元發(fā)展到如今的多核并行處理架構(gòu)[1]?,F(xiàn)代NPU普遍采用SIMT(單指令多線程) 并行計(jì)算架構(gòu),并集成專用矩陣乘法單元(MMU) 與卷積加速器,以高效處理神經(jīng)網(wǎng)絡(luò)中密集的張量運(yùn)算。相較于數(shù)據(jù)中心級(jí)NPU,邊緣端設(shè)備必須在嚴(yán)苛的功耗與資源限制下保持高效推理能力。為此,新一代邊緣NPU采用了靈活可配置的計(jì)算單元架構(gòu),以及動(dòng)態(tài)功耗管理結(jié)合精度可調(diào)的智能計(jì)算策略。

        2 基于新型NPU架構(gòu)的加速器設(shè)計(jì)

        2.1 加速器總體架構(gòu)

        針對(duì)邊緣計(jì)算場景的特殊需求,本文設(shè)計(jì)了一種基于ZYNQ-7020的異構(gòu)NPU加速器架構(gòu)。圖1示意了ARM+FPGA異構(gòu)加速器的層級(jí)架構(gòu),該架構(gòu)采用ARM+FPGA的異構(gòu)計(jì)算模式,充分利用兩種處理器的優(yōu)勢(shì)特點(diǎn)。其中,ARM處理器作為系統(tǒng)的中央控制單元,負(fù)責(zé)協(xié)調(diào)接口映射、數(shù)據(jù)交互及任務(wù)調(diào)度等核心功能,而FPGA端則集成了包括標(biāo)準(zhǔn)卷積、逐點(diǎn)卷積及上采樣等在內(nèi)的通用計(jì)算單元IP核[2]。在數(shù)據(jù)傳輸方面,系統(tǒng)采用“加載—計(jì)算—寫回”三級(jí)計(jì)算通信機(jī)制,在ARM處理器端將外部存儲(chǔ)的數(shù)據(jù)流先加載到主存,再經(jīng)由數(shù)據(jù)緩存?zhèn)鬏數(shù)紽PGA片上緩存區(qū),最終以多維數(shù)組形式參與計(jì)算任務(wù),有效降低了訪存延遲,提升了整體計(jì)算效率。

        2.2 流水線并行優(yōu)化設(shè)計(jì)

        為充分發(fā)揮NPU的并行計(jì)算能力,本文采用多級(jí)流水線并行優(yōu)化設(shè)計(jì),如圖2所示,通過Xilinx Vitis HLS 2020.2工具將高層算法描述轉(zhuǎn)換為RTL級(jí)硬件實(shí)現(xiàn)。本設(shè)計(jì)采用以下兩種關(guān)鍵優(yōu)化策略:

        1) 循環(huán)展開優(yōu)化:針對(duì)5×5卷積核的計(jì)算,采用pragma HLS unroll指令將原本需要25個(gè)時(shí)鐘周期的串行運(yùn)算轉(zhuǎn)化為單周期并行執(zhí)行。

        2) 流水線并行優(yōu)化:通過設(shè)置pragma HLS pipeline II=2指令,使得相鄰指令之間能夠在保證數(shù)據(jù)依賴的前提下實(shí)現(xiàn)重疊執(zhí)行,有效提升了計(jì)算吞吐率。

        2.3 計(jì)算資源調(diào)度策略

        針對(duì)異構(gòu)架構(gòu)下的資源調(diào)度問題,本文設(shè)計(jì)了一套基于任務(wù)優(yōu)先級(jí)的動(dòng)態(tài)調(diào)度策略。LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)包含卷積層與池化層,其中卷積層需要大量的乘累加運(yùn)算,而池化層則主要進(jìn)行比較操作[4]。考慮到ZYNQ-7020的片上資源限制(DSP:220個(gè),LUT:53 200個(gè),BRAM:4.9 MB) ,系統(tǒng)采用層間流水線結(jié)構(gòu)進(jìn)行并行計(jì)算,根據(jù)每層任務(wù)的計(jì)算特性與硬件資源利用率,每個(gè)時(shí)鐘周期動(dòng)態(tài)分配計(jì)算資源。在卷積層執(zhí)行期間,優(yōu)先分配DSP資源以支持大量的乘累加運(yùn)算,而在池化層計(jì)算階段,則主要使用LUT資源進(jìn)行比較操作。這種細(xì)粒度的資源調(diào)度策略使得系統(tǒng)在處理不同類型的神經(jīng)網(wǎng)絡(luò)層時(shí)能夠保持較高的硬件利用率。

        3 神經(jīng)網(wǎng)絡(luò)加速方法研究與實(shí)現(xiàn)

        3.1 NPU指令集優(yōu)化

        針對(duì)邊緣計(jì)算場景的神經(jīng)網(wǎng)絡(luò)特點(diǎn),本文提出基于Vitis HLS的NPU指令集優(yōu)化方案。該方案主要圍繞卷積運(yùn)算展開,通過對(duì)5×5卷積核計(jì)算過程的重構(gòu),利用pragma HLS unroll指令將傳統(tǒng)的25個(gè)時(shí)鐘周期的串行計(jì)算轉(zhuǎn)化為單周期并行執(zhí)行。經(jīng)優(yōu)化后,卷積計(jì)算的基本過程可表述為:

        [output(w,h,m) += input(w+x,h+y,c)×filter(m,x,y,c)] (1)

        式中:w與h分別表示輸出特征圖的寬度與高度坐標(biāo),m為輸出通道索引,x與y為卷積核坐標(biāo),c為輸入通道索引,通過指令級(jí)優(yōu)化,系統(tǒng)實(shí)現(xiàn)了從串行到并行的計(jì)算模式轉(zhuǎn)換,顯著提升了NPU的計(jì)算效率。經(jīng)測試,該指令集優(yōu)化方案使卷積運(yùn)算的計(jì)算延時(shí)降低了約95%,同時(shí)DSP資源利用率提升至96.82%。

        3.2 數(shù)據(jù)流優(yōu)化與存儲(chǔ)分配

        1) 針對(duì)神經(jīng)網(wǎng)絡(luò)推理過程中的數(shù)據(jù)訪問特征,本文設(shè)計(jì)了一種層間緩存的數(shù)據(jù)流優(yōu)化策略,考慮到ZYNQ-7020平臺(tái)的資源限制,系統(tǒng)采用“加載—計(jì)算—寫回”三級(jí)計(jì)算通信機(jī)制。2) 通過在PS與PL之間建立高效的數(shù)據(jù)傳輸通道,具體而言,數(shù)據(jù)首先從外部存儲(chǔ)加載至DDR內(nèi)存,隨后經(jīng)由數(shù)據(jù)緩存?zhèn)鬏數(shù)紽PGA片上緩存區(qū),最終以多維數(shù)組形式參與計(jì)算[5]。3) 優(yōu)化后的多級(jí)緩存結(jié)構(gòu)通過合理的數(shù)據(jù)分塊策略,確保了對(duì)片上存儲(chǔ)資源的高效利用。該策略使得系統(tǒng)在處理LeNet-5網(wǎng)絡(luò)時(shí),能夠達(dá)到70.36%的BRAM利用率,同時(shí)將數(shù)據(jù)傳輸開銷降至最低。上述三級(jí)優(yōu)化策略形成了完整的數(shù)據(jù)流水線,通過降低訪存延遲、提高數(shù)據(jù)吞吐率及優(yōu)化資源利用率,實(shí)現(xiàn)了數(shù)據(jù)傳輸與計(jì)算的高效協(xié)同。

        3.3 運(yùn)算精度優(yōu)化策略

        為了在保證推理精度的同時(shí)降低計(jì)算復(fù)雜度,本文實(shí)現(xiàn)了一種動(dòng)態(tài)精度調(diào)節(jié)機(jī)制。通過對(duì)LeNet-5網(wǎng)絡(luò)不同層的計(jì)算特性分析,采用混合精度量化策略,在關(guān)鍵卷積層保持較高精度計(jì)算,而在精度要求相對(duì)較低的池化層采用低精度運(yùn)算。系統(tǒng)支持從32位浮點(diǎn)數(shù)到16位定點(diǎn)數(shù)的靈活轉(zhuǎn)換,采用Vitis Quantizer工具進(jìn)行定點(diǎn)化處理,量化參數(shù)通過對(duì)1000個(gè)測試樣本的激活值分布進(jìn)行統(tǒng)計(jì)分析得到。在關(guān)鍵層的計(jì)算中,采用均方誤差(MSE) 評(píng)估量化效果,結(jié)果顯示量化誤差控制在1%以內(nèi)。經(jīng)過精度優(yōu)化后的系統(tǒng)在保持識(shí)別準(zhǔn)確率的同時(shí),功耗僅為傳統(tǒng)GPU平臺(tái)的1/8。

        4 實(shí)驗(yàn)評(píng)估與性能分析

        4.1 實(shí)驗(yàn)平臺(tái)與評(píng)估方法

        本研究選擇ZYNQ-7020作為實(shí)驗(yàn)驗(yàn)證平臺(tái),該平臺(tái)集成了ARM處理器與FPGA可編程邏輯,是典型的異構(gòu)計(jì)算架構(gòu)代表。實(shí)驗(yàn)采用LeNet-5網(wǎng)絡(luò)作為基準(zhǔn)測試模型,使用MNIST數(shù)據(jù)集進(jìn)行訓(xùn)練與測試,重點(diǎn)關(guān)注計(jì)算性能、資源利用率及功耗效率三個(gè)核心指標(biāo)。為確保評(píng)估的準(zhǔn)確性,在相同的數(shù)據(jù)規(guī)模與運(yùn)行環(huán)境下,分別對(duì)CPU(Intel i5-12490F) 、GPU(RTX 3060) 及本文提出的NPU加速方案進(jìn)行對(duì)比測試。實(shí)驗(yàn)采用Vitis HLS工具鏈完成從高層算法到RTL實(shí)現(xiàn)的轉(zhuǎn)換,通過AXI協(xié)議實(shí)現(xiàn)PS端與PL端的高效數(shù)據(jù)交互,功耗測試使用Agilent 34410A高精度萬用表進(jìn)行采樣記錄,采樣頻率為1 kHz,確保測量數(shù)據(jù)的時(shí)序精確性。

        4.2 性能對(duì)比與分析

        為全面評(píng)估所提出的NPU加速方案的性能優(yōu)勢(shì),本研究在實(shí)驗(yàn)設(shè)計(jì)中采用統(tǒng)一的測試數(shù)據(jù)集與評(píng)估標(biāo)準(zhǔn),確保不同平臺(tái)間的性能數(shù)據(jù)具有可比性(如表1所示) 。

        在同等工作頻率(約1 GHz) 下,CPU單線程與多線程模式分別實(shí)現(xiàn)了2.5 GFLOPS與3.8 GFLOPS的吞吐率,采用TensorRT優(yōu)化的GPU方案在絕對(duì)推理速度上表現(xiàn)最佳,達(dá)到426.8 GFLOPS。本文提出的NPU加速方案在混合精度模式下達(dá)到了15.68 GFLOPS,雖然推理速度不及GPU,但其硬件資源利用率顯著提升,DSP與BRAM利用率分別達(dá)到98.15%與72.44%,在邊緣計(jì)算場景中展現(xiàn)出獨(dú)特優(yōu)勢(shì)。

        4.3 能耗評(píng)估結(jié)果

        在邊緣計(jì)算場景中,能耗效率往往是比計(jì)算性能更為關(guān)鍵的指標(biāo)。為系統(tǒng)評(píng)估能耗效率,采用以下評(píng)價(jià)指標(biāo):1) 單次推理能耗(J) = 平均功耗(W) × 推理時(shí)間(s);2) 節(jié)能率(%) = (1 - 當(dāng)前方案能耗/CPU單線程能耗) × 100%;3) 能效比(GFLOPS/W) = 吞吐率/平均功耗。為評(píng)估本文提出方案的能耗優(yōu)勢(shì),針對(duì)不同計(jì)算平臺(tái)在執(zhí)行相同神經(jīng)網(wǎng)絡(luò)推理任務(wù)時(shí)的功耗特性進(jìn)行系統(tǒng)測試(如表2所示) 。

        如表2所示,在相同模型規(guī)模下,CPU多線程相比單線程模式節(jié)能率提升了16.3%。GPU方案雖然功耗高達(dá)48 W,但由于其強(qiáng)大的計(jì)算能力,實(shí)現(xiàn)了最高的能效比9.442 GFLOPS/W。本文提出的NPU加速方案在混合精度模式下,平均功耗僅為5.85 W,較單精度模式(6.21 W) 降低約6%,同時(shí)功耗波動(dòng)控制在7.2%以內(nèi),展現(xiàn)出優(yōu)秀的能效特性,混合精度模式下的能效比達(dá)到2.680 GFLOPS/W,相較于單精度模式提升了24%,驗(yàn)證了精度優(yōu)化策略的有效性。

        5 結(jié)束語

        本文針對(duì)邊緣計(jì)算場景下神經(jīng)網(wǎng)絡(luò)高效部署的挑戰(zhàn),提出了一種基于ARM+FPGA的異構(gòu)CNN加速器方案。通過軟硬件協(xié)同設(shè)計(jì),實(shí)現(xiàn)了從高層算法到RTL實(shí)現(xiàn)的快速映射,并在加速器架構(gòu)與資源調(diào)度等方面進(jìn)行了系統(tǒng)性創(chuàng)新。實(shí)驗(yàn)結(jié)果表明,該方案在ZYNQ-7020平臺(tái)上工作頻率達(dá)到130 MHz,在混合精度模式下實(shí)現(xiàn)了13.40 GOPS的吞吐率與2.680 GOPS/W的能效比,功耗僅為5.85 W。這些性能指標(biāo)驗(yàn)證了本文所提出的異構(gòu)加速方案在邊緣計(jì)算場景下實(shí)現(xiàn)了高效低功耗的神經(jīng)網(wǎng)絡(luò)推理。未來可進(jìn)一步探索細(xì)粒度的片上存儲(chǔ)分配策略與動(dòng)態(tài)功耗管理機(jī)制,將重點(diǎn)研究自適應(yīng)量化算法與多任務(wù)調(diào)度策略,以適應(yīng)更加復(fù)雜的應(yīng)用場景與更大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。

        參考文獻(xiàn):

        [1] 謝志豪,李國剛.軟硬件協(xié)同設(shè)計(jì)的異構(gòu)CNN加速器[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2025,46(2):209-216.

        [2] 喻緒邦,吳濟(jì)文,夏宏,等.嵌入式異構(gòu)智能計(jì)算系統(tǒng)的PCIe總線傳輸帶寬優(yōu)化[J/OL].計(jì)算機(jī)應(yīng)用,2025.[2025-03-31].10.11772/j.issn.1001-9081.2024091299.

        [3] 葛培洲,于清玥,宋宇波.異構(gòu)環(huán)境下的聯(lián)邦強(qiáng)化學(xué)習(xí)分布式?jīng)Q策優(yōu)化[J/OL].微電子學(xué)與計(jì)算機(jī),2025.[2025-03-31].https://kns.cnki.net/kcms2/article/abstract?v=gPdQxwyUTL9G HOrdijrDhd1wKo8lgyfCj_OT040RkHZ3PuYAANXXELF7CV3l0J RyAq-37KGRAL1KWaBmtbD-lErUIvEJB6GIkDomDbzMDIfSf 2icit-57XYK3Cf1wrC4l6x3Rq-5ELE3ZIXKIvZdbgFGoMzZT4 AYfUw28dAgUag=amp;uniplatform=NZKPT.

        [4] 賀鞏山,趙傳磊,蔣金虎,等.面向深度學(xué)習(xí)的數(shù)據(jù)存儲(chǔ)技術(shù)綜述[J/OL].計(jì)算機(jī)學(xué)報(bào),2025.[2025-03-31].https://kns.cnki.net/kcms2/article/abstract?v=gPdQxwyUTL-7Bla7oEi_8DOQ62 pkou5qmlEm24cD3CQp-wqQPyunCX7_oDOSh0So6yIVDM-qOq HhHN-6zb3sQMNOTbME9v5vxRKyulCisEafXNAXa0mTq4Tt TZKvTWm2OUCZ4GfyC6Ee2O7UmWFXOVmA8082mXAbamp;uniplatform=NZKPT.

        [5] 顧蓓蓓,邱霽巖,王寧,等.一種異構(gòu)系統(tǒng)下計(jì)算軟件性能數(shù)據(jù)采集方法[J/OL].計(jì)算機(jī)研究與發(fā)展,2025.[2025-03-31].https://kns.cnki.net/kcms2/article/abstract?v=gPdQxwyUTL-cfByHGGKysCyzImj4bNhBskp3QMG9PGIYAzSfuJ2Mf0RPYfy2eojjRaCkOwEEs5ktQCBw2qP7W3ownftHp4Bz41Rwaa9ROMWB 8jlCEJp6BRHU1bkksuY15g1ncmVbHI_PfgBLfzn9f96a10b1skw-IMD--JdS170=amp;uniplatform=NZKPT.

        【通聯(lián)編輯:謝媛媛】

        可以直接在线看国产在线片网址| 亚洲男人第一av网站| 久久亚洲AV无码精品色午夜| 人妻少妇av无码一区二区| 日本免费一区二区三区在线看| 国产盗摄XXXX视频XXXX| 最新福利姬在线视频国产观看 | 国产啪精品视频网给免丝袜| 真实国产网爆门事件在线观看| 亚洲一区二区三区1区2区| 免费一区二区三区女优视频| 色大全全免费网站久久| 内射人妻少妇无码一本一道| 欧洲精品免费一区二区三区| 国产一区二区不卡老阿姨| 亚洲熟妇在线视频观看| 国产精品国产午夜免费看福利| 国产一区二区在线免费视频观看| 色欲色香天天天综合网www| 女的扒开尿口让男人桶30分钟 | 尤物99国产成人精品视频| 蜜臀av中文人妻系列| 深夜日韩在线观看视频| 十四以下岁毛片带血a级| 中文字幕天天躁日日躁狠狠躁免费 | 日韩精品一区二区三区av| 少妇真人直播免费视频| 99精品国产一区二区三区| 亚洲精品无码高潮喷水在线| 91美女片黄在线观看| 一级黄色一区二区三区视频| 免费人成视频网站网址| 久久成人影院精品777| 国产又黄又爽视频| 青青草国内视频在线观看| 成人一区二区三区国产| 女人和拘做受全程看视频| 波多野结衣免费一区视频| 开心五月婷婷综合网站| 草逼动态图视频免费观看网站| 中文字幕乱码无码人妻系列蜜桃|