亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

異構(gòu)計(jì)算環(huán)境下NPU架構(gòu)與深度學(xué)習(xí)加速方法

2025-07-20 00:00:00王穎徐天驊孫德龍

電腦知識(shí)與技術(shù) 2025年18期

摘要：當(dāng)前，隨著異構(gòu)計(jì)算技術(shù)的快速發(fā)展，如何高效部署深度神經(jīng)網(wǎng)絡(luò)成為業(yè)界關(guān)注的焦點(diǎn)。文章重點(diǎn)研究了面向邊緣場景的神經(jīng)網(wǎng)絡(luò)加速技術(shù)，通過剖析現(xiàn)有NPU架構(gòu)的優(yōu)缺點(diǎn)，提出了一套低功耗加速方案。該方案有效結(jié)合了流水線并行與循環(huán)展開技術(shù)，顯著提升了計(jì)算資源利用率，同時(shí)在數(shù)據(jù)調(diào)度與存儲(chǔ)管理方面實(shí)現(xiàn)了有效優(yōu)化。在采用混合精度模式時(shí)，DSP與BRAM資源利用率分別達(dá)到98.15%與72.44%，相較于CPU基準(zhǔn)實(shí)現(xiàn)獲得了37.3倍的性能提升。此外，該方案的平均功耗僅為5.85 W，功耗波動(dòng)控制在7.2%以內(nèi)，為神經(jīng)網(wǎng)絡(luò)在邊緣設(shè)備上的實(shí)際應(yīng)用提供了可靠的技術(shù)路徑。

關(guān)鍵詞：神經(jīng)網(wǎng)絡(luò)處理器（NPU）；異構(gòu)計(jì)算；深度學(xué)習(xí)加速；邊緣計(jì)算；流水線優(yōu)化

中圖分類號(hào)：TP18" " " 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2025）18-0095-03

開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）

0 引言

近年來，人工智能技術(shù)的突飛猛進(jìn)推動(dòng)神經(jīng)網(wǎng)絡(luò)在自動(dòng)駕駛與智能醫(yī)療等領(lǐng)域的廣泛應(yīng)用。然而，依賴傳統(tǒng)GPU與CPU進(jìn)行深度學(xué)習(xí)推理時(shí)，高功耗與高延遲問題日益凸顯，極大限制了神經(jīng)網(wǎng)絡(luò)在邊緣設(shè)備的落地，為此，專為神經(jīng)網(wǎng)絡(luò)計(jì)算優(yōu)化的NPU（神經(jīng)網(wǎng)絡(luò)處理器）憑借其出色的并行計(jì)算能力與能效優(yōu)勢(shì)，成為行業(yè)關(guān)注的重點(diǎn)方向。本研究深入分析當(dāng)前NPU架構(gòu)的局限性，并提出一種面向邊緣計(jì)算的高效神經(jīng)網(wǎng)絡(luò)加速方案。通過多級(jí)優(yōu)化策略，該方案在計(jì)算性能與能源效率上均實(shí)現(xiàn)顯著提升。

1 NPU架構(gòu)發(fā)展現(xiàn)狀與分析

在異構(gòu)計(jì)算中，GPU與FPGA是兩種重要的加速器形式，其中GPU提供了強(qiáng)大的并行計(jì)算能力，而NPU作為深度學(xué)習(xí)專用處理器，通過集成專用的矩陣乘法單元與高效的卷積加速電路，在神經(jīng)網(wǎng)絡(luò)任務(wù)上展現(xiàn)出獨(dú)特優(yōu)勢(shì)。隨著人工智能技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用，計(jì)算架構(gòu)正經(jīng)歷一場深刻變革——從傳統(tǒng)CPU向異構(gòu)計(jì)算的轉(zhuǎn)型已成定局。在這一進(jìn)程中，NPU（神經(jīng)網(wǎng)絡(luò)處理器）作為深度學(xué)習(xí)加速的專用芯片，其架構(gòu)設(shè)計(jì)實(shí)現(xiàn)重大進(jìn)展：從早期的單一計(jì)算單元發(fā)展到如今的多核并行處理架構(gòu)[1]?，F(xiàn)代NPU普遍采用SIMT（單指令多線程）并行計(jì)算架構(gòu)，并集成專用矩陣乘法單元（MMU）與卷積加速器，以高效處理神經(jīng)網(wǎng)絡(luò)中密集的張量運(yùn)算。相較于數(shù)據(jù)中心級(jí)NPU，邊緣端設(shè)備必須在嚴(yán)苛的功耗與資源限制下保持高效推理能力。為此，新一代邊緣NPU采用了靈活可配置的計(jì)算單元架構(gòu)，以及動(dòng)態(tài)功耗管理結(jié)合精度可調(diào)的智能計(jì)算策略。

2 基于新型NPU架構(gòu)的加速器設(shè)計(jì)

2.1 加速器總體架構(gòu)

針對(duì)邊緣計(jì)算場景的特殊需求，本文設(shè)計(jì)了一種基于ZYNQ-7020的異構(gòu)NPU加速器架構(gòu)。圖1示意了ARM+FPGA異構(gòu)加速器的層級(jí)架構(gòu)，該架構(gòu)采用ARM+FPGA的異構(gòu)計(jì)算模式，充分利用兩種處理器的優(yōu)勢(shì)特點(diǎn)。其中，ARM處理器作為系統(tǒng)的中央控制單元，負(fù)責(zé)協(xié)調(diào)接口映射、數(shù)據(jù)交互及任務(wù)調(diào)度等核心功能，而FPGA端則集成了包括標(biāo)準(zhǔn)卷積、逐點(diǎn)卷積及上采樣等在內(nèi)的通用計(jì)算單元IP核[2]。在數(shù)據(jù)傳輸方面，系統(tǒng)采用“加載—計(jì)算—寫回”三級(jí)計(jì)算通信機(jī)制，在ARM處理器端將外部存儲(chǔ)的數(shù)據(jù)流先加載到主存，再經(jīng)由數(shù)據(jù)緩存?zhèn)鬏數(shù)紽PGA片上緩存區(qū)，最終以多維數(shù)組形式參與計(jì)算任務(wù)，有效降低了訪存延遲，提升了整體計(jì)算效率。

2.2 流水線并行優(yōu)化設(shè)計(jì)

為充分發(fā)揮NPU的并行計(jì)算能力，本文采用多級(jí)流水線并行優(yōu)化設(shè)計(jì)，如圖2所示，通過Xilinx Vitis HLS 2020.2工具將高層算法描述轉(zhuǎn)換為RTL級(jí)硬件實(shí)現(xiàn)。本設(shè)計(jì)采用以下兩種關(guān)鍵優(yōu)化策略：

1）循環(huán)展開優(yōu)化：針對(duì)5×5卷積核的計(jì)算，采用pragma HLS unroll指令將原本需要25個(gè)時(shí)鐘周期的串行運(yùn)算轉(zhuǎn)化為單周期并行執(zhí)行。

2）流水線并行優(yōu)化：通過設(shè)置pragma HLS pipeline II=2指令，使得相鄰指令之間能夠在保證數(shù)據(jù)依賴的前提下實(shí)現(xiàn)重疊執(zhí)行，有效提升了計(jì)算吞吐率。

2.3 計(jì)算資源調(diào)度策略

針對(duì)異構(gòu)架構(gòu)下的資源調(diào)度問題，本文設(shè)計(jì)了一套基于任務(wù)優(yōu)先級(jí)的動(dòng)態(tài)調(diào)度策略。LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)包含卷積層與池化層，其中卷積層需要大量的乘累加運(yùn)算，而池化層則主要進(jìn)行比較操作[4]。考慮到ZYNQ-7020的片上資源限制（DSP：220個(gè)，LUT：53 200個(gè)，BRAM：4.9 MB），系統(tǒng)采用層間流水線結(jié)構(gòu)進(jìn)行并行計(jì)算，根據(jù)每層任務(wù)的計(jì)算特性與硬件資源利用率，每個(gè)時(shí)鐘周期動(dòng)態(tài)分配計(jì)算資源。在卷積層執(zhí)行期間，優(yōu)先分配DSP資源以支持大量的乘累加運(yùn)算，而在池化層計(jì)算階段，則主要使用LUT資源進(jìn)行比較操作。這種細(xì)粒度的資源調(diào)度策略使得系統(tǒng)在處理不同類型的神經(jīng)網(wǎng)絡(luò)層時(shí)能夠保持較高的硬件利用率。

3 神經(jīng)網(wǎng)絡(luò)加速方法研究與實(shí)現(xiàn)

3.1 NPU指令集優(yōu)化

針對(duì)邊緣計(jì)算場景的神經(jīng)網(wǎng)絡(luò)特點(diǎn)，本文提出基于Vitis HLS的NPU指令集優(yōu)化方案。該方案主要圍繞卷積運(yùn)算展開，通過對(duì)5×5卷積核計(jì)算過程的重構(gòu)，利用pragma HLS unroll指令將傳統(tǒng)的25個(gè)時(shí)鐘周期的串行計(jì)算轉(zhuǎn)化為單周期并行執(zhí)行。經(jīng)優(yōu)化后，卷積計(jì)算的基本過程可表述為：

[output（w，h，m） += input（w+x，h+y，c）×filter（m，x，y，c）] （1）

式中：w與h分別表示輸出特征圖的寬度與高度坐標(biāo)，m為輸出通道索引，x與y為卷積核坐標(biāo)，c為輸入通道索引，通過指令級(jí)優(yōu)化，系統(tǒng)實(shí)現(xiàn)了從串行到并行的計(jì)算模式轉(zhuǎn)換，顯著提升了NPU的計(jì)算效率。經(jīng)測試，該指令集優(yōu)化方案使卷積運(yùn)算的計(jì)算延時(shí)降低了約95%，同時(shí)DSP資源利用率提升至96.82%。

3.2 數(shù)據(jù)流優(yōu)化與存儲(chǔ)分配

1）針對(duì)神經(jīng)網(wǎng)絡(luò)推理過程中的數(shù)據(jù)訪問特征，本文設(shè)計(jì)了一種層間緩存的數(shù)據(jù)流優(yōu)化策略，考慮到ZYNQ-7020平臺(tái)的資源限制，系統(tǒng)采用“加載—計(jì)算—寫回”三級(jí)計(jì)算通信機(jī)制。2）通過在PS與PL之間建立高效的數(shù)據(jù)傳輸通道，具體而言，數(shù)據(jù)首先從外部存儲(chǔ)加載至DDR內(nèi)存，隨后經(jīng)由數(shù)據(jù)緩存?zhèn)鬏數(shù)紽PGA片上緩存區(qū)，最終以多維數(shù)組形式參與計(jì)算[5]。3）優(yōu)化后的多級(jí)緩存結(jié)構(gòu)通過合理的數(shù)據(jù)分塊策略，確保了對(duì)片上存儲(chǔ)資源的高效利用。該策略使得系統(tǒng)在處理LeNet-5網(wǎng)絡(luò)時(shí)，能夠達(dá)到70.36%的BRAM利用率，同時(shí)將數(shù)據(jù)傳輸開銷降至最低。上述三級(jí)優(yōu)化策略形成了完整的數(shù)據(jù)流水線，通過降低訪存延遲、提高數(shù)據(jù)吞吐率及優(yōu)化資源利用率，實(shí)現(xiàn)了數(shù)據(jù)傳輸與計(jì)算的高效協(xié)同。

3.3 運(yùn)算精度優(yōu)化策略

為了在保證推理精度的同時(shí)降低計(jì)算復(fù)雜度，本文實(shí)現(xiàn)了一種動(dòng)態(tài)精度調(diào)節(jié)機(jī)制。通過對(duì)LeNet-5網(wǎng)絡(luò)不同層的計(jì)算特性分析，采用混合精度量化策略，在關(guān)鍵卷積層保持較高精度計(jì)算，而在精度要求相對(duì)較低的池化層采用低精度運(yùn)算。系統(tǒng)支持從32位浮點(diǎn)數(shù)到16位定點(diǎn)數(shù)的靈活轉(zhuǎn)換，采用Vitis Quantizer工具進(jìn)行定點(diǎn)化處理，量化參數(shù)通過對(duì)1000個(gè)測試樣本的激活值分布進(jìn)行統(tǒng)計(jì)分析得到。在關(guān)鍵層的計(jì)算中，采用均方誤差（MSE）評(píng)估量化效果，結(jié)果顯示量化誤差控制在1%以內(nèi)。經(jīng)過精度優(yōu)化后的系統(tǒng)在保持識(shí)別準(zhǔn)確率的同時(shí)，功耗僅為傳統(tǒng)GPU平臺(tái)的1/8。

4 實(shí)驗(yàn)評(píng)估與性能分析

4.1 實(shí)驗(yàn)平臺(tái)與評(píng)估方法

本研究選擇ZYNQ-7020作為實(shí)驗(yàn)驗(yàn)證平臺(tái)，該平臺(tái)集成了ARM處理器與FPGA可編程邏輯，是典型的異構(gòu)計(jì)算架構(gòu)代表。實(shí)驗(yàn)采用LeNet-5網(wǎng)絡(luò)作為基準(zhǔn)測試模型，使用MNIST數(shù)據(jù)集進(jìn)行訓(xùn)練與測試，重點(diǎn)關(guān)注計(jì)算性能、資源利用率及功耗效率三個(gè)核心指標(biāo)。為確保評(píng)估的準(zhǔn)確性，在相同的數(shù)據(jù)規(guī)模與運(yùn)行環(huán)境下，分別對(duì)CPU（Intel i5-12490F）、GPU（RTX 3060）及本文提出的NPU加速方案進(jìn)行對(duì)比測試。實(shí)驗(yàn)采用Vitis HLS工具鏈完成從高層算法到RTL實(shí)現(xiàn)的轉(zhuǎn)換，通過AXI協(xié)議實(shí)現(xiàn)PS端與PL端的高效數(shù)據(jù)交互，功耗測試使用Agilent 34410A高精度萬用表進(jìn)行采樣記錄，采樣頻率為1 kHz，確保測量數(shù)據(jù)的時(shí)序精確性。

4.2 性能對(duì)比與分析

為全面評(píng)估所提出的NPU加速方案的性能優(yōu)勢(shì)，本研究在實(shí)驗(yàn)設(shè)計(jì)中采用統(tǒng)一的測試數(shù)據(jù)集與評(píng)估標(biāo)準(zhǔn)，確保不同平臺(tái)間的性能數(shù)據(jù)具有可比性（如表1所示）。

在同等工作頻率（約1 GHz）下，CPU單線程與多線程模式分別實(shí)現(xiàn)了2.5 GFLOPS與3.8 GFLOPS的吞吐率，采用TensorRT優(yōu)化的GPU方案在絕對(duì)推理速度上表現(xiàn)最佳，達(dá)到426.8 GFLOPS。本文提出的NPU加速方案在混合精度模式下達(dá)到了15.68 GFLOPS，雖然推理速度不及GPU，但其硬件資源利用率顯著提升，DSP與BRAM利用率分別達(dá)到98.15%與72.44%，在邊緣計(jì)算場景中展現(xiàn)出獨(dú)特優(yōu)勢(shì)。

4.3 能耗評(píng)估結(jié)果

在邊緣計(jì)算場景中，能耗效率往往是比計(jì)算性能更為關(guān)鍵的指標(biāo)。為系統(tǒng)評(píng)估能耗效率，采用以下評(píng)價(jià)指標(biāo)：1）單次推理能耗（J） = 平均功耗（W） × 推理時(shí)間（s）；2）節(jié)能率（%） = （1 - 當(dāng)前方案能耗/CPU單線程能耗） × 100%；3）能效比（GFLOPS/W） = 吞吐率/平均功耗。為評(píng)估本文提出方案的能耗優(yōu)勢(shì)，針對(duì)不同計(jì)算平臺(tái)在執(zhí)行相同神經(jīng)網(wǎng)絡(luò)推理任務(wù)時(shí)的功耗特性進(jìn)行系統(tǒng)測試（如表2所示）。

如表2所示，在相同模型規(guī)模下，CPU多線程相比單線程模式節(jié)能率提升了16.3%。GPU方案雖然功耗高達(dá)48 W，但由于其強(qiáng)大的計(jì)算能力，實(shí)現(xiàn)了最高的能效比9.442 GFLOPS/W。本文提出的NPU加速方案在混合精度模式下，平均功耗僅為5.85 W，較單精度模式（6.21 W）降低約6%，同時(shí)功耗波動(dòng)控制在7.2%以內(nèi)，展現(xiàn)出優(yōu)秀的能效特性，混合精度模式下的能效比達(dá)到2.680 GFLOPS/W，相較于單精度模式提升了24%，驗(yàn)證了精度優(yōu)化策略的有效性。

5 結(jié)束語

本文針對(duì)邊緣計(jì)算場景下神經(jīng)網(wǎng)絡(luò)高效部署的挑戰(zhàn)，提出了一種基于ARM+FPGA的異構(gòu)CNN加速器方案。通過軟硬件協(xié)同設(shè)計(jì)，實(shí)現(xiàn)了從高層算法到RTL實(shí)現(xiàn)的快速映射，并在加速器架構(gòu)與資源調(diào)度等方面進(jìn)行了系統(tǒng)性創(chuàng)新。實(shí)驗(yàn)結(jié)果表明，該方案在ZYNQ-7020平臺(tái)上工作頻率達(dá)到130 MHz，在混合精度模式下實(shí)現(xiàn)了13.40 GOPS的吞吐率與2.680 GOPS/W的能效比，功耗僅為5.85 W。這些性能指標(biāo)驗(yàn)證了本文所提出的異構(gòu)加速方案在邊緣計(jì)算場景下實(shí)現(xiàn)了高效低功耗的神經(jīng)網(wǎng)絡(luò)推理。未來可進(jìn)一步探索細(xì)粒度的片上存儲(chǔ)分配策略與動(dòng)態(tài)功耗管理機(jī)制，將重點(diǎn)研究自適應(yīng)量化算法與多任務(wù)調(diào)度策略，以適應(yīng)更加復(fù)雜的應(yīng)用場景與更大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。

參考文獻(xiàn)：

[1] 謝志豪，李國剛.軟硬件協(xié)同設(shè)計(jì)的異構(gòu)CNN加速器[J].華僑大學(xué)學(xué)報(bào)（自然科學(xué)版），2025，46（2）：209-216.

[2] 喻緒邦，吳濟(jì)文，夏宏，等.嵌入式異構(gòu)智能計(jì)算系統(tǒng)的PCIe總線傳輸帶寬優(yōu)化[J/OL].計(jì)算機(jī)應(yīng)用，2025.[2025-03-31].10.11772/j.issn.1001-9081.2024091299.

[3] 葛培洲，于清玥，宋宇波.異構(gòu)環(huán)境下的聯(lián)邦強(qiáng)化學(xué)習(xí)分布式?jīng)Q策優(yōu)化[J/OL].微電子學(xué)與計(jì)算機(jī)，2025.[2025-03-31].https：//kns.cnki.net/kcms2/article/abstract？v=gPdQxwyUTL9G HOrdijrDhd1wKo8lgyfCj_OT040RkHZ3PuYAANXXELF7CV3l0J RyAq-37KGRAL1KWaBmtbD-lErUIvEJB6GIkDomDbzMDIfSf 2icit-57XYK3Cf1wrC4l6x3Rq-5ELE3ZIXKIvZdbgFGoMzZT4 AYfUw28dAgUag=amp;uniplatform=NZKPT.

[4] 賀鞏山，趙傳磊，蔣金虎，等.面向深度學(xué)習(xí)的數(shù)據(jù)存儲(chǔ)技術(shù)綜述[J/OL].計(jì)算機(jī)學(xué)報(bào)，2025.[2025-03-31].https：//kns.cnki.net/kcms2/article/abstract？v=gPdQxwyUTL-7Bla7oEi_8DOQ62 pkou5qmlEm24cD3CQp-wqQPyunCX7_oDOSh0So6yIVDM-qOq HhHN-6zb3sQMNOTbME9v5vxRKyulCisEafXNAXa0mTq4Tt TZKvTWm2OUCZ4GfyC6Ee2O7UmWFXOVmA8082mXAbamp;uniplatform=NZKPT.

[5] 顧蓓蓓，邱霽巖，王寧，等.一種異構(gòu)系統(tǒng)下計(jì)算軟件性能數(shù)據(jù)采集方法[J/OL].計(jì)算機(jī)研究與發(fā)展，2025.[2025-03-31].https：//kns.cnki.net/kcms2/article/abstract？v=gPdQxwyUTL-cfByHGGKysCyzImj4bNhBskp3QMG9PGIYAzSfuJ2Mf0RPYfy2eojjRaCkOwEEs5ktQCBw2qP7W3ownftHp4Bz41Rwaa9ROMWB 8jlCEJp6BRHU1bkksuY15g1ncmVbHI_PfgBLfzn9f96a10b1skw-IMD--JdS170=amp;uniplatform=NZKPT.

【通聯(lián)編輯：謝媛媛】

電腦知識(shí)與技術(shù)2025年18期

電腦知識(shí)與技術(shù)的其它文章: 基于“互聯(lián)網(wǎng)+職業(yè)教育”視域下高職院校教師信息素養(yǎng)評(píng)價(jià)指標(biāo)體系構(gòu)建研究; 眼底圖像中利用血管分叉點(diǎn)進(jìn)行特征匹配的研究; 基于虛擬現(xiàn)實(shí)的數(shù)字媒體職業(yè)技能培訓(xùn)系統(tǒng)設(shè)計(jì); 工程教育引領(lǐng)與產(chǎn)學(xué)協(xié)同驅(qū)動(dòng)在高職軟件技術(shù)專業(yè)中的實(shí)踐與反思; 機(jī)載綜合CNI系統(tǒng)的多通道電源模塊設(shè)計(jì)與實(shí)施; AIGC在醫(yī)學(xué)類高職信息技術(shù)課程中的應(yīng)用