亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

KCPStack：張量分解的卷積核分層矩陣壓縮方法

2024-01-01 00:00:00王鼎衡劉保榮楊維楊朝旭

西安交通大學學報(醫(yī)學版) 2024年2期

摘要：針對現有張量分解卷積核壓縮方法難以兼顧時空輕量化、過于依賴卷積瓶頸結構等問題，提出一種具有可觀壓縮與加速能力的卷積核分層矩陣壓縮方法（KCPStack）。首先，在矩陣乘法視角下，將卷積核按通道拆分為2階克羅內克規(guī)范多項式（KCP）分解，所得因子張量組合為兩層權重矩陣，使卷積計算轉換為具有較高推理效率的雙層輕量卷積結構；其次，對比所提KCPStack方法與其他典型張量分解卷積核壓縮方法的參數約減空間復雜度與推理計算時間復雜度；最后，基于RK3588神經處理單元進行KCPStack方法的部署，面向實際場景目標檢測識別需求開發(fā)相關應用。實驗結果表明：與現有張量分解方法相比，在張量秩相同或者參數量相當的前提下，所提KCPStack方法具有最快的推理計算效率；在圖像分類標準數據集CIFAR-10和ImageNet上，KCPStack方法能夠將精度損失控制在1%左右，最高可減少85.0%的參數量和79.8%的計算量；在目標檢測識別標準數據集COCO上，KCPStack方法相對于基線模型的平均精度下降不超過1%；采用所提KCPStack方法對實際場景進行目標檢測識別，在RK3588神經處理單元上能達到95.4%的平均精度和35幀/s的圖像處理幀率，內存開銷僅為33.1MB。

關鍵詞：克羅內克規(guī)范多項式張量分解；卷積核壓縮；推理效率；分層矩陣；目標檢測識別

中圖分類號：TP274+.5 文獻標志碼：A

DOI：10.7652/xjtuxb202403013 文章編號：0253-987X（2024）03-0137-12

KCPStack： Tensor Decomposed Compression Method with

Layered Matrices for Convolutional Kernels

WANG Dingheng1， LIU Baorong1， YANG Wei1， YANG Zhaoxu2，3

（1. Northwest Institute of Mechanical amp; Electrical Engineering， Xianyang， Shaanxi 712099， China;

2. School of Aerospace Engineering， Xi’an Jiaotong University， Xi’an 710049， China; 3. State Key Laboratory for

Strength and Vibration of Mechanical Structures， Xi’an Jiaotong University， Xi’an 710049， China）

Abstract：To address the limitations of existing tensor decomposition-based methods for compressing convolutional kernels， such as the trade-off between spatial and temporal lightweight and excessive reliance on convolutional bottleneck structure， a compression method with layered matrices called KCPStack is proposed in this paper which offers considerable compression and acceleration capabilities. Firstly， from the perspective of matrix multiplication， the convolutional kernels are split by channel and subjected to a second-order Khatri-Rao Product （KCP） decomposition and the resulting factor tensors are combined into two-layer weight matrices， thereby transforming the convolutional computation into a two-layer lightweight convolutional structure with higher inference efficiency. Secondly， a comparison is made between the space complexity regarding parameter reduction and time complexity regarding inference computation of the KCPStack method and other typical tensor decomposition-based compression methods for convolutional kernels. Lastly， the KCPStack method is deployed on the RK3588 neural processing unit to develop related applications to meet the object detection and recognition needs for the real scene. The experimental results demonstrate that， compared with existing tensor decomposition-based methods， the proposed KCPStack method achieves the highest inference computation efficiency under the same tensor rank or comparable parameter quantity conditions. On the benchmark datasets CIFAR-10 and ImageNet for image classification， the KCPStack method controls the accuracy loss to around 1% while achieving a maximum parameter reduction of 85.0% and a computational saving of 79.8%. On the benchmark dataset COCO for object detection and recognition， the KCPStack method exhibits an average precision drop of less than 1% compared to the baseline model. When the KCPStack method is adopted for an object detection and recognition task in the real scene， an average precision of 95.4% and of an image processing frame rate of 35 frames per second are achieved on the RK3588 neural processing unit， and it requires only 33.1 MB of memory consumption.

Keywords：KCP tensor decomposition; convolutional kernel compression; inference efficiency; layered matrices; object detection and recognition

卷積神經網絡（CNN）在現代計算機視覺與人工智能領域發(fā)揮了重要作用，但優(yōu)越的視覺理解能力往往意味著CNN需要可觀的參數量與計算量以提供足夠的表達能力，這對CNN在資源受限條件下的部署提出了挑戰(zhàn)［1-3］。為了解決這一問題，學者們提出了大量的CNN壓縮方法，其中，具有堅實理論基礎的張量分解方法［4］，憑借其便于實現、壓縮比高、可直接訓練等優(yōu)勢，在近年受到越來越多的關注［5］。

張量分解用于CNN壓縮一般有兩種方式，分別是張量估計與張量映射［6］。其中，張量估計將矩陣低秩估計的思想拓展至張量層面，將CNN中需要壓縮的卷積核分解為若干小規(guī)模因子張量并作為新權重，使這些因子張量形成對原卷積核的低秩表達［7］；張量映射將張量分解得到的因子張量視作多層神經網絡模塊，通過更多非線性表達能力提升CNN壓縮效果［8］。張量估計在循環(huán)神經網絡（RNN）的壓縮方面應用較多，可以實現上萬倍的壓縮比。例如，Yang等［9］借助張量串（TT）分解實現了上萬倍壓縮比的輕量化RNN，其他如Ye等［10］、Pan等［11］、Yin等［12］分別使用塊項（BT）分解、張量環(huán)（TR）分解、分層塔克（HT）分解達成了相當甚至更好的輕量化效果。張量估計的輕量化RNN近年也產生了一些面向現實業(yè)務的應用，如司法案件判定［13］、用戶推薦［14］等。張量映射在CNN中效果更佳，如Zhang等［15］將卷積核以奇異值分解（SVD）方式轉換為一個輕量化卷積與1×1卷積堆疊的形式，Kim等［16］將塔克（Tucker）分解映射為ResNet瓶頸結構，Chen等［17］將BT分解映射為ResNeXt的分組瓶頸結構，Astrid等［18］和Lebedev等［19］將CP分解各自映射為3層可分離瓶頸結構與4層非對稱可分離瓶頸結構，文獻［20］借助克羅內克規(guī)范多項式（KCP）分解提出4層非對稱變通道可分離瓶頸結構。

上述多種張量估計和張量映射方法各有優(yōu)劣。例如，張量估計受限于具體張量分解表達能力的差異，在壓縮精度與壓縮比兩方面較難達到均衡；張量映射雖能帶來額外非線性表達能力，但往往會將神經網絡改造為一個深而窄的新模型，導致訓練難度明顯提升甚至無法獲得好的訓練結果。尤其是在面向CNN時，現有張量估計方法受卷積特殊的計算方式制約，在推理過程中往往必須先將因子張量恢復為普通卷積核的形式再計算正常卷積；現有張量映射方法大多與已成為常用模塊的瓶頸結構相似，故不具備再次壓縮ResNet等典型CNN的能力。雖然文獻［21］在RNN壓縮角度指出KCP分解有著兼顧壓縮比與推理計算效率的理論潛力，但在實踐中受張量轉置、多路計算等影響，其實際計算的時間復雜度仍然很高?？傊F有張量分解卷積核壓縮方法難以較好地兼顧時間和空間復雜度，且不便于壓縮已經具有瓶頸結構的典型CNN模型。

為解決這些問題，本文考慮KCP分解可能兼顧壓縮比與推理計算效率的潛力，充分研究其因子張量拓撲結構的靈活性，提出一種具有可觀壓縮與加速能力的卷積核分層矩陣壓縮方法KCPStack；挖掘KCP分解數學特性，分析卷積計算與矩陣乘法的關系，提出卷積核以2階KCP分解進行壓縮并將因子張量轉換為雙層輕量卷積結構的方法，在理論上分析其推理效率優(yōu)越性，證明其計算結果合理性；對比KCPStack與其他典型張量壓縮方法的時空復雜度，并在CIFAR-10和ImageNet數據集上進行仿真實驗；面向實際場景目標檢測識別需求，提出KCPStack在RK3588神經處理單元（NPU）上的部署方法并開發(fā)相關應用。

1 KCPStack卷積核壓縮方法

KCPStack方法旨在將KCP壓縮的循環(huán)神經網絡（KCP-RNN）［21］拓展至卷積核壓縮并解決其實際推理計算效率較差的問題。具體思路為：首先將卷積運算按照圖像到矩陣（im2col）算法思想轉換為矩陣乘法，其次借助KCP對卷積核轉換后得到的權重矩陣進行2階分解，接著將輸入特征數據與KCP因子張量之間的運算過程優(yōu)化為兩個連續(xù)矩陣乘法，最后通過im2col算法的逆變換使卷積核及其計算轉變?yōu)殡p層輕量卷積結構。

其中p表示輸入特征圖四周補0寬度，s為卷積掃描步長。

卷積運算在實際中一般轉換為矩陣乘法完成，具體是將每個特征圖按照對應卷積核掃描位置展開，再將展開后的特征圖與卷積核均重構為矩陣，兩個矩陣相乘所得結果即為輸出特征圖的矩陣排列形式，該過程即所謂im2col算法［23］，如圖1所示。卷積轉變?yōu)榫仃嚦朔ㄖ?，即可使用各類張量分解權重與輸入之間的計[HJ2.2mm]算方法，如TT序列化縮并［6］、KCP多路計算［21］、HT中序遍歷［24］等。相比之下，文獻［21］研究了KCP分解在神經網絡壓縮方面的潛力，發(fā)現其在理論上可同時減少神經網絡的參數量和計算量，但其對應的計算方法在實踐中并未實現高效性，故本文進一步挖掘KCP分解壓縮卷積核的潛力和實際加速能力。

2 KCPStack方法的壓縮效果

本節(jié)首先以單個卷積核壓縮為仿真對象，分析并驗證KCPStack方法，并對比其與TT［9］、BT［10］、TR［11］、HT［12］以及普通KCP方法［21］的壓縮效果；然后在CIFAR-10與ImageNet標準數據集上綜合考察KCPStack方法對CNN的壓縮效果，并與SVD［15］、Tucker［16］、BT［17］、CP［18］、克魯斯卡爾（Kruskal）［19］和KCPNet［20］等現有典型輕量化CNN方法進行對比。

2.1 卷積核壓縮與加速

圖5顯示，除HT分解的參數量在秩較低時表現出了足夠的優(yōu)勢之外，KCP分解（包括KCPStack與KCP-RNN）的參數量隨秩的增長呈線性變化，而其他張量分解方法的參數量都表現出一定的指數增長趨勢，原因在于KCP分解的因子皆為秩一次冪復雜度的矩陣，且能夠消解Tucker分解無法處理的高階核張量。在時間復雜度方面，雖然文獻［21］認為KCP-RNN算法在面向矩陣壓縮時能夠獲得相對最低的計算量，但在壓縮卷積核時無法避免式（6）中hw與R（A）R（B）高度耦合的情況，故其計算量增長反而最為明顯。相比之下，本文所提KCPStack算法即使在包含構建F（A）與F（B）計算量的前提下仍有明顯優(yōu)勢，若在實際CNN的推理中預先定義F（A）與F（B），則推理計算將與CP秩無關從而更為顯著地節(jié)省計算量。值得再次強調的是，圖5顯示所提KCPStack方法與文獻［21］的KCP-RNN具有相同的壓[HJ2.0mm]縮參數量，這是因為二者采用同樣的KCP張量分解數據結構；與此對應，本文KCPStack方法在推理計算量方面相比KCP-RNN有著明顯改觀。

2.2 CNN綜合壓縮效果

為了從CNN整體角度更為綜合地評判KCPStack相對其他張量分解方法的優(yōu)勢，構建VGG-14模型，并分別使用現有效果較好的張量映射方法：SVD［15］、Tucker/TT［16］（Tucker分解映射為3層卷積瓶頸結構的因子張量等價于3階TT分解）、BT［17］、CP［18］、Kruskal［19］、KCPNet［20］以及KCPStack方法對其進行壓縮。此處VGG-14指將通用VGG-16模型的多層全連接分類器替換為全局平均池化分類器，如此避免對全連接層的壓縮。此外，第一層卷積核因輸入通道數過低同樣不考慮壓縮。為公平對比，通過調整各個方法的秩使得壓縮后的模型參數量大體相當；其中，秩的取法主要參考各個方法所引用的文獻，本文的KCPStack方法則在確保降低計算量的前提下盡量使因子矩陣F（Ak）1、F（Bk）1、F（Ak）2和F（Bk）2保持均衡性，也就是令不同k值下的CP秩R（A）k與R（B）k相等，同時令CP秩與KT秩K也盡量相等，且K不可過低，以使式（18）的雙層輕量卷積保持一定的寬度。

另外，針對文獻［6］指出張量映射使CNN模型加深導致訓練難度增大的問題，考慮仿照文獻［15-20］，在KCPStack引入殘差連接，將式（18）改為

KCPStack的卷積核分解詳細參數如表1所示，特征圖邊長根據待使用的CIFAR-10和ImageNet標準圖像分類數據集的樣本尺寸區(qū)別而有所不同。CP秩記為R，相關描述方式遵循文獻［20］。具體地，（w×h，T，z）指卷積窗口尺寸為w×h，輸出通道為T，卷積掃描步長為z（z=1則忽略）；多個卷積的組合模塊之后的乘數y表示該模塊重復堆疊y次；池化參數將（w×h，T，z）之中的輸出通道T替換為縮寫MP（最大池化）或AP（平均池化），其余意義相同；全連接（M×N）表示其權重矩陣尺寸；→表示特征圖邊長在此層內發(fā)生數值變化。

分別將VGG-14及其各種張量分解壓縮的輕量化模型在CIFAR-10和ImageNet這兩個標準圖像分類數據集上進行測試，結果如表2、3所示。由表2、3可知，除無殘差連接且存在寬度收緊瓶頸的SVD壓縮模型之外，其余張量分解方法壓縮VGG模型的圖像分類識別準確率并無明顯差異，與基線模型相比的精度損失在1%左右；在不同方法參數量基本相當的情況下，本文所提KCPStack方法的推理計算量除SVD外是最低的，在CIFAR-10和ImageNet上相對基線模型分別減少85.0%和82.2%的參數量，分別減少79.8%和79.5%的計算量；若與SVD一樣不考慮殘差連接，則KCPStack方法的計算量在CIFAR-10和ImageNet上將分別降至38.0×106和159.8×106。KCPStack計算量低的原因在于，和其他張量映射方法相比，式（19）的卷積核F（A）與F（B）來自式（8）的F（A）與F（B），后者實際上由KCP因子矩陣構成，參數量基于KCP因子矩陣而非F（A）與F（B），這使KT秩K擁有足夠的余地來維持

網絡寬度；同時，計算量卻是根據式（10）以預先縮并所有CP秩的形式統(tǒng)計，即CP秩不影響KCPStack雙層輕量卷積的實際推理效率。簡言之，在與其他壓縮方法參數量相當的前提下，KCPStack的KT秩K確保了足夠的神經網絡寬度以維持表達能力，同時屏蔽了CP秩對推理計算的負擔，這是本文所提算法最顯著的特點和優(yōu)勢。

3 KCPStack方法輕量化目標檢測識別

本節(jié)結合實際場景的具體需求，將KCPStack用于已有的YOLOv5模型中并在嵌入式設備上部署，實現復雜環(huán)境下對特定類別目標的高效檢測識別。

3.1 YOLOv5模型的KCPStack壓縮方案

YOLOv5作為較新的單階段目標檢測模型在很多領域得到了應用，本文涉及的實際場景具有對人、車等典型目標的檢測識別需求，前期也已在實際場景光電模塊中搭載了以國產瑞芯微RK3588的NPU為部署核心的YOLOv5s（YOLOv5系列較輕的變體）目標檢測識別模塊。然而，在NPU上直接運行未壓縮的YOLOv5s時，目標檢測識別的處理幀率難以超過25幀/s，不能完全滿足實際場景的實時性指標需要。另外，RK3588對裁剪的支持尚屬試用階段，壓縮比和稀疏化程度不夠。

為了解決該問題，將YOLOv5s中的部分卷積模塊以KCPStack方法分解，如圖7所示。需強調，并非所有的卷積模塊都需要進行壓縮，因為文獻［1-2］指出，部分特殊位置的卷積核對模型精度影響較大，如整個CNN輸入側的一兩層卷積與輸出側的卷積，一般不宜壓縮。另外，1×1卷積作為單純處理特征圖通道變換的特殊模塊，如何對其進行壓縮仍是需要慎重考慮的開放性問題［1-2］。因此，本文只考慮對YOLOv5骨干網絡的大部分3×3卷積使用KCPStack方法進行壓縮，即圖7中的KCPStack模塊，注意原始C3模塊中的1×1與3×3卷積瓶頸可直接替換為KCPStack的雙層輕量卷積結構，即原有的普通1×1與3×3卷積堆疊替換為式（8）定義的由分解因子張量構成的3×3與1×1兩層輕量卷積堆疊，C3模塊相應地更名為KC3模塊。

為更好對比KCPStack的性能，與常用的可分離卷積［26］進行對比?？煞蛛x卷積與普通卷積通道數相同，但其每個特征圖只對應一個卷積掃描窗口，不存在通道之間的交互，故相比普通卷積具有更少的參數量和計算量，常被看作普通卷積的一種輕量化替代。KT秩K的取法考慮為原3×3卷積寬度的一半以保證足夠的網絡寬度，所有因子的CP秩取4、6或8以使參數量小于對應的可分離卷積參數量。

3.2 KCPStack方法用于目標檢測的效果

記可分離卷積的YOLOv5s模型為DW-YOLOv5s、KCPStack的YOLOv5s模型為KS-YOLOv5s?；€YOLOv5s、DW-YOLOv5s和KS-YOLOv5s都先用COCO大規(guī)模公開數據集預訓練，然后使用圖8所示的復雜環(huán)境目標檢測專用數據集進行微調訓練。從圖8中可知，專用數據集存在大量遠小目標，部分具有與背景相似涂裝的目標增大了檢測難度。

不同目標檢測模型在RK3588的NPU上部署并連續(xù)處理COCO標準數據集和專用數據集測試圖像的綜合效果如表4所示。由表4可見，YOLOv5s、DW-YOLOv5s和KS-YOLOv5s在COCO標準數據集上的目標檢測識別平均精度逐漸下降，但控制在1%以內，在專用數據集上的精度損失則收縮至0.5%以內；作為基線模型的常規(guī)YOLOv5s具有最高的參數量和內存占用，圖像處理速度也最慢；使用可分離卷積壓縮的DW-YOLOv5s較好地改善了普通YOLOv5s的時空復雜度，帶來了內存使用和推理效率的提升；而KS-YOLOv5s的參數量為最低，內存占用也最小；更重要的是，KS-YOLOv5s的連續(xù)圖像處理幀率略超過35幀/s，明顯優(yōu)于DW-YOLOv5s，表明所提方法至少在該任務中比目前常用的可分離卷積具有更佳的時空輕量化能力，更好地滿足了實際場景目標檢測識別的實時性要求。KS-YOLOv5s對遠小目標檢測效果的可視化展示圖9所示，由圖可見，KS-YOLOv5s能夠對隱蔽、雜物遮擋、遠距離及低能見度條件下的各類目標實現很好的檢測識別效果，且識別置信度大多高于80%。

綜合而言：針對實際的特定場景目標檢測任務，KCPStack方法構建的KS-YOLOv5s模型與常規(guī)YOLOv5s模型相比，僅犧牲0.5%左右平均精度，卻換來約10幀/s的處理速度提升；KS-YOLOv5s模型與可分離卷積壓縮的DW-YOLOv5s相比，以0.2%左右的精度差實現了超過35幀/s的圖像處理幀率；所提KS-YOLOv5s既保持了對人、車等典型目標的識別精度，又更好地滿足了圖像處理實時性的要求。

但需要強調的是，YOLOv5s的輕量化并不像表2、3的VGG那樣可以顯著節(jié)省模型參數。原因在于，未壓縮的1×1卷積核實際上貢獻了YOLOv5s基線模型的絕大部分參數量，而VGG模型中并未使用大量的1×1卷積，該現象在文獻［20］也有提及。然而，如前所述，壓縮1×1卷積仍然是有挑戰(zhàn)性的問題［1-2］。根據作者對國內外研究現狀調研所知，目前很少有工作考慮研究壓縮1×1卷積對整個CNN產生的影響，因此，出于面向實際應用的謹慎態(tài)度，本文暫不考慮對1×1卷積進行壓縮。

4 結論

本文針對卷積核輕量化引入KCP張量分解，提出同時具有壓縮與加速能力的KCPStack卷積核分層矩陣壓縮方法，并理論證明其加速算法的成立性。實驗表明，所提方法隨著秩的增長能夠保持高效的參數量與計算量節(jié)省能力；面向CIFAR-10和ImageNet標準數據集壓縮VGG模型分別可減少85.0%和82.2%的參數量，減少79.8%和79.5%的計算量；在RK3588上能夠令YOLOv5s的目標檢測識別推理幀率超過35幀/s，面向COCO標準數據集和實際場景專用數據集時分別保持了55.8%和95.4%的平均精度，且對實際的特定場景下的隱蔽、遮擋、低能見度等遠小目標實現了較好的檢測識別效果。

KCPStack方法展現了KCP張量分解靈活的拓撲結構變化特點及其輕量化神經網絡模型推理計算效率優(yōu)化的能力，如何將這些優(yōu)勢拓展至1×1卷積、Transformer自注意力等模塊，是值得進一步研究的方向。

參考文獻：

［1］DENG Lei， LI Guoqi， HAN Song， et al. Model compression and hardware acceleration for neural networks： a comprehensive survey ［J］. Proceedings of the IEEE， 2020， 108（4）： 485-532.

［2］WU Yang， WANG Dingheng， LU Xiaotong， et al. Efficient visual recognition： a survey on recent advances and brain-inspired methodologies ［J］. Machine Intelligence Research， 2022， 19（5）： 366-411.

［3］郭朝鵬，王馨昕，仲昭晉，等. 能耗優(yōu)化的神經網絡輕量化方法研究進展［J］. 計算機學報， 2023， 46（1）： 85-102.

GUO Chaopeng， WANG Xinxin， ZHONG Zhaojin， et al. Research advance on neural network lightweight for energy optimization ［J］. Chinese Journal of Computers， 2023， 46（1）： 85-102.

［4］林景棟，吳欣怡，柴毅，等. 卷積神經網絡結構優(yōu)化綜述［J］. 自動化學報， 2020， 46（1）： 24-37.

LIN Jingdong， WU Xinyi， CHAI Yi， et al. Structure optimization of convolutional neural networks： a survey ［J］. Acta Automatica Sinica， 2020， 46（1）： 24-37.

［5］WANG Maolin， PAN Yu， XU Zenglin， et al. Tensor networks meet neural networks： a survey and future perspectives ［EB/OL］. （2023-05-08）［2023-07-01］. https：//arxiv.org/abs/2302.09019.

［6］WANG Dingheng， ZHAO Guangshe， CHEN Hengnu， et al. Nonlinear tensor train format for deep neural network compression ［J］. Neural Networks， 2021， 144： 320-333.

［7］NOVIKOV A， PODOPRIKHIN D， OSOKIN A， et al. Tensorizing neural networks ［C］//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge， MA， USA： MIT Press， 2015： 442-450.

［8］KOSSAIFI J， TOISOUL A， BULAT A， et al. Factorized higher-order CNNs with an application to spatio-temporal emotion estimation ［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Piscataway， NJ， USA： IEEE， 2020： 6059-6068.

［9］YANG Yinchong， KROMPASS D， TRESP V. Tensor-train recurrent neural networks for video classification ［C］//Proceedings of the 34th International Conference on Machine Learning. Piscataway， NJ， USA： IEEE， 2017： 3891-3900.

［10］YE Jinmian， WANG Linnan， LI Guangxi， et al. Learning compact recurrent neural networks with block-term tensor decomposition ［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ， USA： IEEE， 2018： 9378-9387.

［11］PAN Yu， XU Jing， WANG Maolin， et al. Compressing recurrent neural networks with tensor ring for action recognition ［C］//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto， CA， USA： AAAI Press， 2019： 4683-4690.

［12］YIN Miao， LIAO Siyu， LIU Xiaoyang， et al. Towards extremely compact RNNs for video recognition with fully decomposed hierarchical tucker structure ［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Piscataway， NJ， USA： IEEE， 2021： 12080-12089.

［13］李大鵬，陳劍，王晨，等. 基于模板張量分解和雙向LS TM的司法案件罪名認定［J］. 電子學報， 2021， 49（4）： 760-767.

LI Dapeng， CHEN Jian， WANG Chen， et al. Conviction in judicial cases based on template tensor decomposition and bidirectional LSTM ［J］. Acta Electronica Sinica， 2021， 49（4）： 760-767.

［14］李晶晶，夏鴻斌，劉淵. 融合注意力LSTM的神經張量分解推薦模型［J］. 中文信息學報， 2021， 35（5）： 91-100.

LI Jingjing， XIA Hongbin， LIU Yuan. Neural tensor factorization recommendation model based on attention LSTM ［J］. Journal of Chinese Information Processing， 2021， 35（5）： 91-100.

［15］ZHANG Xiangyu， ZOU Jianhua， MING Xiang， et al. Efficient and accurate approximations of nonlinear convolutional networks ［C］//2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Piscataway， NJ， USA： IEEE， 2015： 1984-1992.

［16］KIM Y D， PARK E， YOO S， et al. Compression of deep convolutional neural networks for fast and low power mobile applications ［C］//International Conference on Learning Representations （ICLR）. San Juan， Puerto Rico： Open Review， 2016： 1-16.

［17］CHEN Yunpeng， JIN Xiaojie， KANG Bingyi， et al. Sharing residual units through collective tensor factorization to improve deep neural networks ［C］//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Palo Alto， CA， USA： AAAI Press， 2018： 635-641.

［18］ASTRID M， LEE S I. CP-decomposition with tensor power method for convolutional neural networks compression ［C］//2017 IEEE International Conference on Big Data and Smart Computing （BigComp）. Piscataway， NJ， USA： IEEE， 2017： 115-118.

［19］LEBEDEV V， GANIN Y， RAKHUBA M， et al. Speeding-up convolutional neural networks using fine-tuned CP-decomposition ［C］//International Conference on Learning Representations （ICLR）. San Diego， CA， USA： Open Review， 2015： 1-11.

［20］王鼎衡，趙廣社，姚滿，等. KCPNet：張量分解的輕量卷積模塊設計、部署與應用［J］. 西安交通大學學報， 2022， 56（3）： 135-146.

WANG Dingheng， ZHAO Guangshe， YAO Man， et al. KCPNet： design， deployment， and application of tensor-decomposed lightweight convolutional module ［J］. Journal of Xi’an Jiaotong University， 2022， 56（3）： 135-146.

［21］WANG Dingheng， WU Bijiao， ZHAO Guangshe， et al. Kronecker CP decomposition with fast multiplication for compressing RNNs ［J］. IEEE Transactions on Neural Networks and Learning Systems， 2023， 34（5）： 2205-2219.

［22］PHAN A H， CICHOCKI A， TICHAVSK P， et al. From basis components to complex structural patterns ［C］//2013 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ， USA： IEEE， 2013： 3228-3232.

［23］CHETLUR S， WOOLLEY C， VANDERMERSCH P， et al. cuDNN： efficient primitives for deep learning ［EB/OL］. （2014-12-18）［2023-07-01］. https：//arxiv.org/abs/1410.0759.

［24］WU Bijiao， WANG Dingheng， ZHAO Guangshe， et al. Hybrid tensor decomposition in neural network compression ［J］. Neural Networks， 2020， 132： 309-320.

［25］DOLGOV S V， SAVOSTYANOV D V. Alternating minimal energy methods for linear systems in higher dimensions ［J］. SIAM Journal on Scientific Computing， 2014， 36（5）： A2248-A2271.

［26］SANDLER M， HOWARD A， ZHU Menglong， et al. MobileNetV2： inverted residuals and linear bottlenecks ［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ， USA： IEEE， 2018： 4510-4520.

（編輯亢列梅）

收稿日期：2023-08-16。

作者簡介：王鼎衡（1988—），男，助理研究員；楊朝旭（通信作者），男，副教授，碩士生導師。

基金項目：國家自然科學基金資助項目（12002254）。

網絡出版時間：2023-12-05網絡出版地址：https：∥link.cnki.net/urlid/61.1069.T.20231204.1413.002