摘 要:現有的知識蒸餾技術主要集中于知識表示、目標損失函數和蒸餾位置的選擇,而忽視了特征對齊和融合的重要性,從而限制了學生模型的學習能力。為此,提出了一種基于雙路徑投影層和注意力機制的知識蒸餾方法。該方法首先在空間維度上對齊學生和教師模型的特征,通過雙路徑投影層在通道維度上對齊師生特征。同時,添加一個集成注意力機制的適配器模塊,以確保多尺度特征的均衡融合。采用輕量并行化注意力機制進行深層次的特征融合,并利用教師模型的判別分類器進行推理。在CIFAR-100和Tiny-ImageNet數據集上進行實驗驗證,結果顯示相比于基線學生模型,WRN-40-1模型在CIFAR-100數據集上的top-1準確率提高了5.85百分點,ResNet-10模型在Tiny-ImageNet數據集上的top-1準確率提高了8.09百分點。實驗結果表明,該方法能夠有效提升學生模型的學習能力,證明了特征對齊和融合在知識蒸餾中的重要作用。
關鍵詞: 知識蒸餾; 模型壓縮; 圖像分類; 注意力機制; 特征融合
中圖分類號: TP301.6 文獻標志碼: A 文章編號: 1001-3695(2025)02-012-0413-06
doi: 10.19734/j.issn.1001-3695.2024.07.0229
Knowledge distillation based on dual-path projection layer and attention mechanism
Zhou Qin’, Fan Yongsheng, Sang Binbin, He Pan
(College of Computer amp; Information Science, Chongqing Normal University, Chongqing 401331, China)
Abstract:Existing knowledge distillation techniques have mainly focused on knowledge representation, target loss function, and the selection of distillation positions, often overlooking the importance of feature alignment and fusion. This limitation reduces the learning capacity of the student model. To address this issue, this paper proposed a knowledge distillation method based on dual-path projection layers and an attention mechanism. The method aligned features of the student and teacher mo-dels in the spatial dimension and further aligned features in the channel dimension through dual-path projection layers. An adapter module with an integrated attention mechanism ensured balanced fusion of multi-scale features. A lightweight parallel attention mechanism performed deep feature fusion, and the teacher model’s discriminative classifier supported inference. Experimental results on CIFAR-100 and Tiny-ImageNet datasets show that the top-1 accuracy of the WRN-40-1 model on CIFAR-100 increases by 5.85 percentage point, and the ResNet-10 model on Tiny-ImageNet improves by 8.09 percentage point compared to the baseline student model. These results demonstrate that the method effectively enhances the student model’s lear-ning ability and highlight the critical role of feature alignment and fusion in knowledge distillation.
Key words:knowledge distillation; model compression; image classification; attention mechanism; feature fusion
0 引言
卷積神經網絡(CNN)在圖像處理領域表現出色,廣泛應用于圖像分類[1]、目標檢測[2]和語義分割[3]。隨著網絡性能的提升,模型規(guī)模也隨之擴大,導致計算和存儲需求激增,從而限制了CNN在邊緣設備上的應用。為了解決這一問題,知識蒸餾(knowledge distillation, KD)技術應運而生。知識蒸餾是一種通過將大型教師模型的知識轉移到小型學生模型中,以減少計算和存儲需求,從而提高運行效率的模型壓縮技術。Hinton等人[4] 于2015年首次提出了這一技術,旨在通過學生模型模仿教師模型的輸出軟標簽來傳遞知識。目前的蒸餾方法主要分為基于響應、基于關系和基于特征的蒸餾[5]。
基于響應的知識蒸餾主要關注輸出層的對齊,未能充分利用教師模型的中間特征信息[6, 7]。基于特征的蒸餾方法通過模仿教師模型中間層或最后一層的輸出,直接促進學生模型性能的提升[8~10]。該部分研究提出了多種優(yōu)化中間層知識提取的方法。盡管這些方法能提升學生模型的性能,但涉及復雜的參數調整,并增加了知識的復雜性[11]。在近期的研究中,SimKD[12]通過復用預訓練的教師模型中的分類器來實現學生模型的推理,并使用L2損失函數訓練學生編碼器,以實現特征對齊。由于教師模型和學生模型的特征維度通常不同,為此,開發(fā)了一個額外的投影層,以輔助學生編碼器與教師分類器的匹配,從而適應不同的教師和學生架構。Chen 等人[13]提出了一種基于投影層集成的改進特征蒸餾方法,以進一步提升學生模型的特征學習能力和泛化性能。該方法旨在解決學生模型容易過擬合教師模型特征的問題,即使在學生和教師模型的特征維度相同時,添加投影層仍然能顯著提高蒸餾效果。
雖然基于特征的蒸餾方法已經在許多任務中取得了不錯的效果,但它們仍然存在一些問題:
a)特征對齊不足。單一投影層在處理多樣化特征時顯得不足,無法充分捕捉不同層次和類型的特征?,F有方法在對齊教師和學生模型的特征時,往往只關注某一層或某幾層特征,忽視了特征空間的多樣性和層次性。這種不充分的特征對齊可能導致知識傳遞不完全,影響學生模型的性能。
b)高計算成本。復雜的投影層設計和優(yōu)化過程需要大量的計算資源和時間,增加了模型訓練的難度?,F有方法中的多層投影或復雜的蒸餾過程,雖然能提高學生模型的性能,但也使計算開銷和訓練時間顯著增加,限制了其在實際應用中的可行性。
c)缺乏特征重要性區(qū)分。大多數知識蒸餾算法都是學生直接學習教師模型傳遞來的知識,這些知識并沒有重要性的區(qū)分,使得學生訓練的效果不能足夠接近預期。不同特征在任務中的重要性不同,忽視這一點可能會導致學生模型學習到大量無關或次要的特征,影響模型的有效性。因此,本文更加關注于投影層的結構設計和投影轉換后的特征匹配與融合過程,以提升知識蒸餾性能。
針對上述問題,本文提出了一種基于雙路徑投影層和注意力機制的知識蒸餾方法(dual-path projection layer and attention-based knowledge distillation, DPA-KD)。該方法通過雙路徑投影層策略,增強了特征對齊的效果。與此同時,優(yōu)化了投影層的結構,采用輕量級設計,減少了不必要的計算負擔,提高了訓練效率。為了進一步提升特征對齊效果,本文引入了輕量化并行注意力機制,通過計算各特征的注意力權重,實現對不同特征的加權融合,從而提高了模型的性能和泛化能力。
本文的主要貢獻如下:
a)雙路徑投影層策略:設計了兩個不同功能的投影層,第一個投影層專注于基礎的特征對齊和維度匹配,而第二個投影層通過深度可分離卷積進一步細化和增強特征的表達。這種設計融合了多層次的特征,使模型能夠捕捉到更多的細節(jié)和上下文信息。
b)適配器(adapter)模塊的設計:設計了一個適配器,用于整合來自不同投影層的特征,并通過集成輕量級注意力機制優(yōu)化特征匹配過程。該機制能夠聚焦關鍵特征,從而提升學生模型的學習效率和整體性能。
c)輕量并行化注意力機制(lightweight parallel attention, LPA):本文提出將輕量局部全局注意力機制并行化,通過同時考慮局部和全局特征來增強學生模型的特征表達能力。這種新穎的并行結構不僅提升了信息處理的效率,還增強了模型對于復雜場景的適應性。
1 相關工作
普通知識蒸餾方法中使用的損失函數由兩部分組成[1]。第一部分是傳統(tǒng)的交叉熵損失CE,用于學習學生模型的預測能力,其中交叉熵損失衡量學生模型輸出與真實標簽之間的差異,溫度T為1;另一部分是具有Kullback-Leibler散度的ps 和教師模型輸出pt 之間預測對的對齊損失KL。與交叉熵損失相比,引入的預測對齊損失提供了有關錯誤類別的額外信息,以促進學生訓練。由于 softmax 變換后分配給錯誤類別的概率通常較小,所以需要通過提高溫度 T 來生成更加平滑的分布,從而傳遞更多信息。在這種情況下,溫度 T 通常大于 1。投影層的核心目的是通過特征轉換和對齊來優(yōu)化知識轉移過程。投影層技術通過使用簡單的1×1卷積核或線性投影,對學生模型的特征進行轉換,使其與教師模型的特征在通道維度上進行匹配[14, 15]。文獻[13]提出了一種投影層集成的特征蒸餾方法,通過使用多個投影層來增強學生模型的特征學習能力。適配器的核心目的是在不改變學生網絡架構的前提下,通過最小化結構上的改動,實現對教師網絡特征的有效適配[16, 17]。這種適配不僅涉及空間維度的調整,也包括特征通道數的匹配,確保學生網絡能夠接收和處理與教師網絡相一致的特征表示。研究表明,在特征蒸餾中,注意力機制在知識蒸餾中的應用主要是用來加強特征的重要性學習和融合[18]。通過對特征進行加權,注意力機制幫助學生模型集中于教師模型中最關鍵的特征。這不僅提升了特征蒸餾的效果,還增強了模型對復雜數據模式的適應能力。近期的研究表明,引入注意力機制可以優(yōu)化蒸餾過程中的特征提取和整合,從而提升學生模型的整體性能[19]。
2 方法
本文提出的方法如圖1所示,包含三個部分:a)通過兩條獨立的投影轉換路徑,從不同角度深度對齊學生模型與教師模型的特征;b)使用集成注意力機制的適配器模塊(adapter)對投影轉換后的特征進行匹配;c)采用輕量并行化注意力機制(lightweight parallel attention,LPA)實現特征融合。最終,使用教師模型的分類器對學生模型進行推理,損失函數如式(2)所示。
其中: ft表示教師的中間特征; fs為學生的中間特征;Proj(·)表示投影函數;n為投影層的個數;adapter(·)表示特征匹配函數;LPA(·)表示特征融合函數。
2.1 雙路徑投影層策略
為了增強教師模型與學生模型之間的特征對齊,本文設計了雙路徑投影層策略,分別采用兩種不同的投影層結構以提取多樣化特征。通過這兩條并行路徑,能夠調整和優(yōu)化學生模型的特征表示,并在不顯著增加計算量的前提下提高模型的特征提取能力,從而更好地模擬教師模型的特征。在SimKD[12]方法的基礎上,保留了原投影層(左側分支a)的同時,增加了一個額外的投影層。新增的投影層可以更好地解決單一投影層無法完全對齊特征的問題。此外,額外的投影層(右側分支b)使得模型能夠捕捉更多的細節(jié)和上下文信息,進一步促進教師模型與學生模型之間特征的精確對齊。兩個分支投影層的結構如圖2所示。
2.1.1 第一個投影層
如圖2(a)所示,其主要目的是通過一系列卷積和非線性激活操作,實現特征的初步轉換與維度匹配。首先,采用1×1卷積核進行卷積操作,減少特征圖的通道數,從而簡化模型結構并降低計算成本。具體而言,此操作將輸入通道數從學生模型的通道數減少至教師模型通道數的一半,以便更深入地提取特征。每次卷積后,緊隨其后的是一層批量歸一化(batch normalization, BN),以規(guī)范化特征圖,加速訓練過程并提升模型的穩(wěn)定性。此外,引入ReLU激活函數以增加非線性,從而使模型能夠捕捉更復雜的特征。隨后,采用3×3卷積核進行深度卷積,以增強局部特征的表達能力。最后,再次使用1×1卷積核將通道數擴展至教師模型的完整通道數,以整合前述步驟中獲得的豐富特征。
2.1.2 第二個投影層
如圖2(b)所示,重新設計的投影層采用深度可分離卷積和特征拼接的方式。該投影層的核心由多層深度可分離卷積構成,每層均配備批量歸一化和ReLU激活函數。這種設計不僅增強了模型的非線性處理能力,而且提高了訓練的穩(wěn)定性。深度特征融合層采用了更為復雜的瓶頸結構,主要由連續(xù)三個深度可分離卷積操作組成。這種結構顯著減少了參數量,同時有效地捕捉關鍵輸入特征,并逐步調整特征圖的通道數。此層首先將通道數從學生模型降低至教師模型的一半,然后在中間處理階段恢復至全通道數,以便進行更細致的特征處理。最終,模塊中所有深度卷積層的輸出特征圖通過連接操作融合,增強了特征的表達能力并增加了多樣性。通過1×1卷積層的整合,進一步調整通道數以匹配后續(xù)層的需求,并優(yōu)化特征細節(jié)。這種設計策略不僅提高了模型的效率和參數優(yōu)化效果,而且通過深度與寬度的有效結合,提升了模型的特征提取能力及整體性能。在處理需要高效特征提取的復雜任務中,該結構展現出了卓越的性能表現。在處理雙路徑投影層輸出的特征時,首先需要對齊學生特征圖 Xs和教師特征圖Xt 的空間維度,尺寸分別為Hs×Ws 和Ht×Wt。如果學生特征圖的尺寸小于教師特征圖,則通過最近鄰插值法對學生特征圖進行上采樣(upsample),以使其空間維度與教師特征圖一致。這一步確保了后續(xù)處理中特征圖尺寸的統(tǒng)一,避免了尺寸不匹配的問題。上述語句可以用下面的公式表示:
X=upsample(Xs,Xt(Ht,Wt))(3)
其中:X是上采樣后的學生特征圖,其尺寸與教師特征圖 Xt相匹配。接著,調整學生模型的特征圖,使其在通道數上與教師模型的特征圖相匹配。通過兩條路徑的投影層的連續(xù)操作,逐步調整特征圖的通道數,以便與教師模型相應層的通道數一致。
Xi=Proji(X)i=1,2(4)
其中:Xi為通過兩個投影層處理后的學生特征圖。通過這兩個不同的投影層設計提高了模型的特征提取和表示能力。
2.2 適配器模塊
適配器模塊通過整合全局信息提取模塊、注意力機制、殘差連接和縮放因子,增強了特征的表示能力。全局信息提取模塊捕捉了輸入特征的全局背景,而注意力機制則突出輸入特征圖中的關鍵區(qū)域。殘差連接保留了原始特征信息,確保在增強過程中不會丟失重要細節(jié)??s放因子提供了對增強特征的靈活調節(jié)能力,使得模型能夠更有效地利用教師模型的知識。
全局信息提取模塊處理過程是:a)使用自適應平均池化層(Avgpool)捕獲全局空間信息,匯總整個特征圖的統(tǒng)計數據;b)通過平展操作(flatten)將特征圖轉換為一維向量,為全連接層做好準備;c)通過全連接層(FC)對池化后的特征進行變換,在該層中首先將其映射至一個低維的隱藏空間,隨后擴展至所需的輸出維度,這樣可以重建適用于后續(xù)處理的特征表達。另外,本文引入了SimAM[20]注意力機制,提高模型對輸入特征的敏感度和特征質量。該機制自動調整特征圖中的注意力權重,突出重要部分,抑制不重要的信息。而殘差連接通過一個1×1卷積層實現,直接將輸入特征調整至目標輸出維度。這一設計不僅幫助保留了輸入特征的原始信息,還有助于緩解訓練過程中可能出現的梯度消失問題,確保了訓練過程中信息流的穩(wěn)定性,加速了模型收斂。此外,引入的縮放因子(scale_factor)作為一個調節(jié)參數,允許模型在不同層面上微調整合后特征的影響力,以達到最優(yōu)的學習效果。總而言之,這可以表述如下:
其中:Fgi表示全局特征;Fatti表示注意力加權后的特征;Fri表示殘差特征;將全局特征、注意力加權特征和殘差特征逐元素相加,得到組合特征 Fci;F為經過適配器模塊處理后的最終特征。
2.3 輕量并行化注意力機制
LPA主要由多分支特征提取策略、特征融合和注意力模塊(圖3 attention)以及特征增強模塊(圖3 FE)組成。
2.3.1 多分支特征提取策略
多分支特征提取策略結構如圖3所示。該策略采用輕量級并行處理,主要是為了減少計算資源消耗和提升處理速度,從而使模型能夠在資源受限的設備上高效運行。輕量化設計減小了模型參數量,雖然在某些復雜特征處理上可能會導致特征表達能力和精度的輕微下降,但實驗表明,這種設計在計算成本和模型性能之間實現了良好的平衡。不采用輕量化處理的模型雖然能略微提高精度,但計算資源需求顯著增加,難以在實際應用中推廣。因此,輕量級并行處理是提高訓練效率和模型適用性的有效方法。這種方法的多分支結構有利于多尺度特征的捕獲,進而增強對圖像分類的準確性。在LPA模塊中,通過精心設計的局部分支(local branch)、全局分支(global branch),以及串行卷積分支,共同作用于輸入特征張量,實現了特征綜合和增強。給定輸入特征張量F,大小為H×W×C。然后,通過這三個分支,可以分別計算出Flocal、Fglobal 和 Fconv。最后,將這三個結果相加,得到 F′,大小為H×W×C。
具體來說,局部分支和全局分支的區(qū)分是通過控制補丁大小參數p來實現的,而補丁大小參數p則是通過非重疊補丁在空間維度上的聚合和位移來實現的。當補丁大小 p等于2時,該模塊專注于局部分支的特征提取。首先,輸入特征圖的維度從C×H×W轉換為H×W×C,然后將輸入特征圖分割成大小為2×2的局部補丁,結果形狀為 H/2×W/2×2×2×C。接著,將這些局部補丁重新轉換為H/2×W/2×4×C,并沿著通道維度計算每個補丁的平均值,得到形狀為 HW/4×4的補丁特征。然后,通過全連接層將每個局部補丁映射到輸出維度,并使用LayerNorm層進行歸一化處理。接下來,使用softmax函數計算注意力權重,并將其應用于局部補丁特征,以獲得加權后的局部特征。隨后,將加權后的局部特征恢復為H/2×W/2×C的形狀,并通過維度轉換變?yōu)?C×H/2×W/2。之后,使用最近鄰插值方法將局部特征插值到原始大小H×W。最后,通過卷積層對插值后的特征進行處理,得到最終的輸出特征圖。
該過程通過局部補丁的注意力機制,有效提取了細粒度的局部特征,從而增強了模型捕捉局部細節(jié)的能力。當補丁大小 p等于4時,該模塊專注于全局分支的特征提取,操作與局部分支類似,最終產生 Flocal和 Fglobal特征。最后,串行卷積分支由三個3×3卷積層組成的序列卷積組成。這將產生三個不同的輸出結果:Fconv1、Fconv2、Fconv3,然后將它們相加得到序列卷積輸出Fconv。
2.3.2 特征融合和注意力模塊
在完成多分支特征提取后,使用注意力機制(attention)對特征進行自適應增強。如圖4所示,注意力模塊由一系列高效通道注意力ECA[21]和注意力SimAM組成。在這一模塊中,特征依次通過一維通道注意力圖 Mc和三維注意力圖 Ms進行處理,其過程可總結如下:
2.3.3 特征增強模塊
經過注意力融合處理后的特征F″,進一步進行特征增強。FE模塊優(yōu)先考慮本地響應模式識別出的感興趣區(qū)域來優(yōu)化特征圖,增強最終預測任務所使用的特征圖。計算學生特征和教師特征之間的匹配程度,以指導模型在知識蒸餾過程中更好地學習教師模型的知識。根據匹配分數加權調整學生特征圖,合并加權后的特征圖與原始特征圖。匹配分數可以用來加權學生特征,使得學生網絡更加關注與教師網絡相似的部分,從而提高模型的泛化能力和性能。這一過程表示如下:
Score=FE(F″,Xt),Fs=Score⊙F″+F″(7)
其中:FE(·)表示特征增強函數;Score表示學生特征圖與教師特征圖之間的匹配分數;⊙表示元素相乘; Fs表示最終增強后的學生特征。
2.4 算法實現
DPA-KD算法的偽代碼如算法1所示,輸入為數據集和epoch,輸出為模型損失和準確率。首先初始化預訓練的教師模型權重和用于記錄準確率和損失的參數,對應于步驟a)和b);根據輸入,得到教師模型和學生模型的中間特征圖,對應于步驟e);然后計算中間特征圖的尺寸,對應于步驟f);根據式(3)進行空間對齊,對應于步驟g);接著,根據式(4)進行通道對齊,對應于步驟h);根據式(5)對投影特征進行特征匹配,對應于步驟i);然后,根據式(6)(7)對特征匹配后的特征進行融合與增強,對應于步驟j);最后使用教師分類器進行分類預測,對應于步驟k)。
算法1 DPA-KD算法
輸入:輸入數據集;epoch。
輸出:模型損失Loss;模型準確率Acc。
a) 初始化預訓練的教師模型權重
b) 初始化用于記錄準確率和損失的參數
c) for epoch=1 → epoch =240 do
d) for each batchsize, (inputs, targets) from trainloader do
e)
根據輸入inputs,得到教師模型和學生模型的中間特征圖
f)
計算教師模型中間特征圖和學生模型中間特征圖的尺寸
g)
根據式(3)進行空間對齊
h)
根據式(4)進行通道對齊
i)
根據式(5)對投影特征進行特征匹配
j)
根據式(6)(7)對特征匹配后的特征進行融合與增強
k)
使用教師分類器進行分類預測
l) end for
m) 在測試集上驗證模型性能,記錄ACC和Loss
n) end for
o) 返回最終的損失和ACC
3 實驗
本章首先介紹實驗中使用的數據集和實驗設置。隨后報告與所提出的方法相關的實驗數據,比較基準方法和KD方法?;鶞史椒ò‵itNet[8]、AT[22]、SP[23]、VID[11]、CRD[14]、SRRL[24]、SemCKD[25]、SimKD[12]、CAT-KD [26]、ATSC[27]、CTKF[28]。
3.1 數據集和實驗設置
a)數據集選擇。CIFAR-100[29]數據集共有60 k張尺寸為 32×32 的彩色圖像,分為100個類別,包括50 k訓練樣本和10 k測試樣本。Tiny-ImageNet[30]數據集包含100 k張訓練圖像和10 k張驗證圖像,共200個類別,圖像大小為64×64。
b)基線模型選擇。實驗中應用了五種神經網絡,包括:一種經典的深度殘差網絡ResNet[31] ;WideResNet[32]比ResNet更寬但更淺;VGG[33]是一種經典的線性結構網絡;MobileNet[34]使用深度可分離卷積代替普通卷積,使模型更加輕量級;ShuffleNet[35, 36]使用逐點分組卷積和通道重排來減小模型大小。
c)超參數設置。所使用的數據預處理方法基于SimKD處理方法。對于CIFAR-100數據集的訓練集,首先在圖像周圍填充4個像素,然后將圖像隨機切割為32×32像素,以0.5的概率進行隨機水平翻轉,最后用每個通道的均值和標準差對圖像進行歸一化。但對于測試數據集,歸一化僅適用于處理數據。對于Tiny-ImageNet數據集,數據增強方式與CIFAR-100數據集類似。
為了驗證DPA-KD的有效性,所有訓練都遵循SimKD的訓練參數設置。采用隨機梯度下降(SGD)算法進行網絡優(yōu)化,其中SGD動量設置為0.9,權重衰減為5E-4。MobileNet和ShuffleNet系列架構的學習率設置為0.01,其他架構的初始學習率設置為 0.05,在第150、180和210個epoch以 0.1 的速率衰減??偣差A先確定了240個訓練epoch,訓練時的批量大小設置為64。計算軟目標的溫度(T)設置為4.0。所有實驗均在 GPU (RTX2080Ti) 設備上的 PyTorch 中實現。
3.2 方法比較
3.2.1 在CIFAR-100數據集實驗結果比較
表1和2展示了基于 CIFAR-100 數據集上14個不同師生對的測試準確率,分別用粗體和下畫線表示最優(yōu)和次優(yōu)的結果。使用了十二種蒸餾方法對這些網絡組合進行實驗,并報告了其準確率。
首先,將DPA-KD方法與一些經典的和先進的蒸餾方法進行比較。在師生架構相同的情況下,如在WRN-40-2與WRN-40-1師生對中,DPA-KD與KD方法相比,準確率提高了3.76百分點。即使與性能較好的 SimKD方法相比,DPA-KD準確率仍然提高了 2.66百分點。與最新的CAT-KD方法相比,DPA-KD準確率仍然提高了 0.95百分點。在師生架構不同的情況下,如在ResNet-32×4與WRN-16-2這個師生組合上,DPA-KD與KD方法相比,準確率提高了4.99百分點。即使與性能較好的 SimKD方法相比,DPA-KD仍然具有 3.39百分點的準確率提升。與最新的ATSC方法相比,準確率提高了2.55百分點。此外,在網絡對WRN-40-2與WRN-40-1、ResNet-32×4與ResNet-8×4、ResNet-110×2與ResNet-116、WRN-40-2與ResNet-8×4、ResNet-32×4與WRN-40-2、ResNet-32×4與ShuffleNet V2×1.5中,使用DPA-KD進行蒸餾后,學生模型的準確率超過了教師模型。
從上述的實驗中還可以看出,DPA-KD在ResNet-32×4與ShuffleNet V2的師生組合下的蒸餾效果不佳,僅達到78.35%的準確率,比CAT-KD低0.06百分點,比ATSC低0.49百分點。然而,DPA-KD在絕大多數情況下優(yōu)于基準方法。
3.2.2 在Tiny-ImageNet數據集實驗結果比較
為了進一步驗證該方法的有效性,本文使用大型復雜數據集Tiny-ImageNet進行了實驗,并基于CTKF[28]的工作基礎,引入了4組具有代表性的師生對網絡對來評估方法的性能。九種不同蒸餾方法在Tiny-ImageNet數據集上的實驗結果如表3所示,分別用粗體和下畫線表示最優(yōu)和次優(yōu)的結果??梢钥闯?,部分蒸餾方法在Tiny-ImageNet數據集上的表現較差。相比之下,SimKD和DPA-KD在Tiny-ImageNet數據集上仍然表現良好。在VGG-19與VGG-8這個師生組合中, DPA-KD與KD方法相比,準確率提高了6.72百分點,即使與性能較好的 SimKD方法相比,DPA-KD方法準確率仍然提高了 2.63百分點。與最新的CTKF方法相比,準確率提高了4.7百分點。在ResNet-34與ResNet-10這個師生組合上,DPA-KD與KD方法相比,準確率提高了7.18百分點。即使與性能較好的 SimKD方法相比,DPA-KD方法仍然具有 2.26百分點的精度提升。與最新的CTKF方法相比,準確率提高了5.71百分點。
然而,與SimKD單一的特征轉換不同,DPA-KD采用了雙投影層。這些層從多個視角細致地將學生網絡的特征映射到教師網絡的特征空間,并結合了注意力機制以增強關鍵信息的整合。正是這種結合多角度映射與注意力融合的策略,是DPA-KD獲得性能提升的原因之一。
3.3 消融研究
在本節(jié)中,為了驗證DPA-KD方法各個部分對整體有效性的影響,選擇了三個師生網絡組合在CIFAR-100數據集上進行訓練,并在其驗證集上進行評估。在表4中,采用了五種不同的組合進行驗證:a)不使用任何新增模塊,僅使用原來的單個投影層;b)僅使用雙路徑投影層;c)在雙路徑投影層的基礎上加入集成注意力機制的適配器模塊;d)在雙路徑投影層的基礎上加入輕量并行化注意力機制;e)使用本文提出的全部模塊組合。
觀察實驗結果可知:a)采用雙路徑投影層策略的效果明顯高于僅采用單個投影層,即組b)精度高于組a);b)從表中組b)c)可知,在雙路徑投影層上使用適配器模塊是可行的,能更好地匹配教師特征;c)對比組b)d)發(fā)現,注意力機制具有很大的提升效果;d)深入對比組c)~e),發(fā)現組c)d)的效果略微低于組e),對比其中不同的部分發(fā)現,組e)是實驗中加入對重點部分即輕量并行化注意力機制融合的效果,使得算法達到最優(yōu)。
4 結束語
為了解決現有知識蒸餾技術在特征對齊和特征融合方面的不足,本文提出了基于雙路徑投影層和注意力機制的知識蒸餾。該方法通過雙路徑投影層在空間和通道維度上精確對齊學生模型與教師模型的特征,使用集成注意力機制的適配器模塊進行全局特征匹配,并引入輕量化的并行注意力機制實現深層次的特征融合。實驗結果在CIFAR-100和Tiny-ImageNet數據集上驗證了DPA-KD方法的有效性。與學生模型的基線性能相比,采用DPA-KD后,學生模型WRN-40-1和WRN-16-2在CIFAR-100數據集上的top-1準確率分別提升了5.85百分點和5.38百分點;而在Tiny-ImageNet數據集上,VGG-8和ResNet-10的top-1準確率分別提高了7.66百分點和8.09百分點。盡管增加投影層帶來了額外的計算開銷,但其性能提升證明了這一代價的合理性。未來研究可集中于優(yōu)化投影層的設計,探索更加簡化和高效的結構,或通過引入自適應機制,動態(tài)調整投影層的計算資源,以進一步降低計算成本。
參考文獻:
[1]Li Daxiang, Nan Yixuan, Liu Ying. Remote sensing image scene classification model based on dual knowledge distillation [J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5.
[2]Zhang Linfeng, Ma Kaisheng. Structured knowledge distillation for accurate and efficient object detection [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(12): 15706-15724.
[3]Park S, Kim J, Heo Y S. Semantic segmentation using pixel-wise adaptive label smoothing via self-knowledge distillation for limited labeling data [J]. Sensors, 2022, 22(7): 2623.
[4]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network [J]. Computer Science, 2015, 14(7): 38-39.
[5]Yang Chuanguang, Yu Xinqiang, An Zhulin, et al. Categories of response-based, feature-based, and relation-based knowledge distillation [M]// Advancements in Knowledge Distillation: Towards New Horizons of Intelligent Systems. Cham: Springer International Publishing, 2023: 1-32.
[6]Zhao Baohua, Cui Quan, Song Renjie, et al. Decoupled knowledge distillation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11953-11962.
[7]Mirzadeh S I, Farajtabar M, Li A, et al. Improved knowledge distillation via teacher assistant [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 5191-5198.
[8]Romero A, Ballas N, Kahou S E, et al. FitNets: hints for thin deep nets [EB/OL]. (2015-03-27). https://arxiv.org/abs/1412.6550.
[9]Kim J, Park S U, Kwak N. Paraphrasing complex network: network compression via factor transfer [EB/OL]. (2020-07-22). https://arxiv.org/abs/1802.04977.
[10]王禮樂, 劉淵. 基于空間注意力圖的知識蒸餾算法 [J]. 計算機應用研究, 2024, 41(6): 1693-1698. (Wang Liyue, Liu Yuan. Know-ledge distillation algorithm based on spatial attention map [J]. Application Research of Computers, 2024, 41(6): 1693-1698.)
[11]Ahn S, Hu S X, Damianou A, et al. Variational information distillation for knowledge transfer [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 9163-9171.
[12]Chen Defang, Mei Jianping, Zhang Hailin, et al. Knowledge distillation with the reused teacher classifier [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11933-11942.
[13]Chen Yudong, Wang Sen, Liu Jiajun, et al. Improved feature distillation via projector ensemble [J]. Advances in Neural Information Processing Systems, 2022, 35: 12084-12095.
[14]Tian Yonglong, Krishnan D, Isola P. Contrastive representation distillation [EB/OL]. (2022-01-24). https://arxiv.org/abs/1910.10699.
[15]Chen Pengguang, Liu Shu, Zhao Hengshuang, et al. Distilling knowledge via knowledge review [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 5008-5017.
[16]Rao Jun, Meng Xv, Ding Liang, et al. Parameter-efficient and student-friendly knowledge distillation [J]. IEEE Trans on Multimedia, 2024, 26: 4230-4241.
[17]Srinivasan T, Jia Furong, Rostami M, et al. I2i: initializing adapters with improvised knowledge [C]// Proc of Conference on Lifelong Learning Agents. [S.l.]:PMLR, 2023: 923-935.
[18]Wang Hongyuan, Cheng Shuli, Li Yongming, et al. Lightweight remote-sensing image super-resolution via attention-based multilevel feature fusion network [J]. IEEE Trans on Geoscience and Remote Sensing, 2023, 61: 1-15.
[19]Li Linfeng, Su Weixing, Liu Fang, et al. Knowledge fusion distillation: improving distillation with multi-scale attention mechanisms [J]. Neural Processing Letters, 2023, 55(5): 6165-6180.
[20]Yang Lei, Zhang Ruyuan, Li Lida, et al. SimAM: a simple, parameter-free attention module for convolutional neural networks [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2021: 11863-11874.
[21]Wang Qilong, Wu Banggu, Zhu Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// Proc of IEEE/CVF conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 11534-11542.
[22]Zagoruyko S, Komodakis N. Paying more attention to attention: improving the performance of convolutional neural networks via attention transfer [EB/OL]. (2017-02-12). https://arxiv.org/abs/1612.03928.
[23]Tung F, Mori G. Similarity-preserving knowledge distillation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 1365-1374.
[24]Yang Jing, Martinez B, Bulat A, et al. Knowledge distillation via softmax regression representation learning [C] // Proc of International Conference on Learning Representations. 2021.
[25]Chen Defang, Mei Jianping, Zhang Yuan, et al. Cross-layer distillation with semantic calibration [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 7028-7036.
[26]Guo Ziyao, Yan Haonan, Li Hui, et al. Class attention transfer based knowledge distillation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 11868-11877.
[27]Jang J, Kim Y I, Lim J, et al. Adaptive teaching with a shared classifier for knowledge distillation [EB/OL]. (2024-06-14). https://arxiv.org/abs/2406.08528.
[28]Zhao Kaiqi, Chen Yitao, Zhao Ming. A contrastive knowledge transfer framework for model compression and transfer learning [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2023: 1-5.
[29]Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images [EB/OL]. (2009).https://api.semanticscholar.org/CorpusID:18268744.
[30]Deng Jia, Dong Wei, Socher R, et al. ImageNet: a large-scale hierarchical image database [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2009: 248-255.
[31]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.
[32]Zagoruyko S, Komodakis N. Wide residual networks [EB/OL]. (2017-06-14). https://arxiv.org/abs/1605.07146.
[33]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[34]Sandler M, Howard A, Zhu Menglong, et al. MobileNetv2: inverted residuals and linear bottlenecks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 4510-4520.
[35]Zhang Xiangyu, Zhou Xinyu, Lin Mengxiao, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 6848-6856.
[36]Ma Ningning, Zhang Xiangyu, Zheng Hai-Tao, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design [C]// Proc of European Conference on Computer Vision. Berlin: Springer, 2018: 116-131.