亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于 SVM稀疏表示的類特別字典學(xué)習(xí)算法

2024-01-01 00:00:00宋銀濤楊寶慶劉計趙宇閆敬

燕山大學(xué)學(xué)報 2024年5期

摘要：近年來，深度學(xué)習(xí)對大規(guī)模訓(xùn)練樣本的依賴性成為一個突出問題。在面對小樣本數(shù)據(jù)集時，字典學(xué)習(xí)算法被提出作為一種解決方案。為了進一步提升字典學(xué)習(xí)在圖像分類領(lǐng)域的競爭優(yōu)勢，本文提出了一種基于支持向量機的類特別字典學(xué)習(xí)算法。該算法創(chuàng)新性地引入了類特別系數(shù)相異性約束項。該約束項將原本獨立的重建項、稀疏項和判別項融合為一個統(tǒng)一的學(xué)習(xí)框架，以顯著提升字典的判別能力。實驗證明，該模型的分類性能優(yōu)于其他先進的字典學(xué)習(xí)模型。此外，本文提出將深度學(xué)習(xí)預(yù)訓(xùn)練與字典學(xué)習(xí)算法相結(jié)合的方式，通過實驗證明該方式可以顯著提升字典學(xué)習(xí)算法在大規(guī)模訓(xùn)練樣本中的分類性能。

關(guān)鍵詞：字典學(xué)習(xí);稀疏表示;支持向量機;系數(shù)相異性約束項

中圖分類號： TP391. 41 文獻標識碼：A DOI：10. 3969/ j. issn. 1007-791X. 2024. 05. 006

0 引言

字典學(xué)習(xí)是一種廣泛應(yīng)用于計算機視覺、信號處理、模式識別等領(lǐng)域的機器學(xué)習(xí)算法。其核心思想是將輸入數(shù)據(jù)表示為基本元素（或稱為“字典”）的線性組合，并選擇適當?shù)淖值湟詫崿F(xiàn)準確和緊湊的表示。

通常，字典學(xué)習(xí)算法可以分為兩類。一類是通過構(gòu)建每個類別的特定字典，同時促進字典中每個原子的重構(gòu)殘差的區(qū)別來進行學(xué)習(xí)。例如，

Aharon等[1]提出K-SVD（K-means Singular Valu eDecomposition）算法，該算法每次迭代僅更新一個字典原子和對應(yīng)的稀疏編碼向量。然而，其缺點在于這類算法無法有效應(yīng)用于多類別的圖像分類任務(wù)。

另一類常見的字典學(xué)習(xí)算法是通過尋找適用于所有類別的最佳字典來提高編碼向量的判別能力。如張強等[2]提出 DKSVD （ DiscriminationK-means Singular Value Decomposition）算法，蔣卓林等[3]提出LC-KSVD （ Label Consistent K-mean s

Singular Value Decomposition）算法，該算法將標簽信息與每個字典項相關(guān)聯(lián)，增強了稀疏編碼的可分辨性，但其對數(shù)據(jù)中的噪聲和異常值較為敏感，這可能會影響到字典學(xué)習(xí)的效果。楊蒙等[4]在

FDDL（Fisher Discrimination Dictionary Learning）中提出Fisher項，以減小類內(nèi)樣本的編碼離散度并增大類間樣本的編碼離散度，從而提高編碼向量的判別能力，但其較高的計算復(fù)雜度會導(dǎo)致訓(xùn)練

時間過長。文獻[ 5 ]通過 PCA （ PrincipalComponent Analysis）方法訓(xùn)練字典得到稀疏字典集，使用奇異值分解求解低秩問題以提高圖像的去噪效果。文獻[6]將基于稀疏表示的字典學(xué)習(xí)算法運用于行人檢測中，通過改進的HOG+LBP特征來減少誤檢窗口數(shù)目。楊寶慶等[7]在

SMLFDL （ SVMs Multi-class Loss Feedback basedDictionary Learning）中通過訓(xùn)練支持向量機（Support Vector Machines，SVM）和學(xué)習(xí)判別字典，

以實現(xiàn)更好的特征匹配。

盡管許多學(xué)者提出將SVM與字典學(xué)習(xí)相結(jié)合，例如前文提到的SMLFDL模型、蔡思佳等[8]提出的 SVGDL （ Support Vector Guided DictionaryLearning）模型等。但僅僅依靠SVM來引導(dǎo)字典學(xué)習(xí)模型，對分類性能的提升有限。針對這一問題本文提出 SVMCDL （ Support Vector MachinesClass-specific Dictionary Learning）模型，該模型創(chuàng)新性地引入系數(shù)相異性約束項‖zjTZi‖F(xiàn)2。該約束項充分利用了稀疏表示的優(yōu)勢，將SVM與稀疏項融合并互相作用，進一步增強字典的判別能力，從而最終提高了模型的分類性能。

1 SVMCDL模型的構(gòu)造

x∈Rm表示數(shù)據(jù)向量，y∈{1，2，…，c}，其中c表示數(shù)據(jù)集的類別數(shù)量，并將該有序集合C稱為類別向量。把數(shù)據(jù)集表示為 X =[d，d，…，1 2 dK]∈Rm×K（Kgt;m）為字典，d表示i 原子，Z= [Z1，Z2，…，Zc]= [z1，z2，…，zn]表示X除式中：λ，λ為超參數(shù);R（D，X，Z）為重建項;p1 2 表示?范數(shù)的參數(shù)，用于控制正則化項的強度和p 稀疏性質(zhì)。通常情況下，p的取值為1或2，當p= 1時，有利于促進字典的稀疏性，進而提高字典模型的識別準確率。

文獻[8]中SVGDL模型引用自適應(yīng)權(quán)重分配的參數(shù)化算法，利用SVM來引導(dǎo)字典學(xué)習(xí)，即其中SV表示滿足1-yc（wcTzi+bc）的支持向量，盡管SVGDL模型引入了平方鉸鏈損失項，但僅依靠SVM來引導(dǎo)字典學(xué)習(xí)模型，對分類性能的提升有限。在SVMCDL模型中引入了系數(shù)相異性約束項‖ZTZ‖2該約束項將SVM和字典學(xué)習(xí)集成在同一學(xué)習(xí)框架中，實現(xiàn)相互反饋和相互作用，從而進一步提升字典的判別能力。

系數(shù)相異性約束項的原理如下：對于不同的數(shù)據(jù)樣本，其系數(shù)向量對應(yīng)于所屬類別的特征值會明顯偏大。這會導(dǎo)致同一類別的系數(shù)向量具有相似性，而不同類別的系數(shù)向量差異性較大。因此，當兩個系數(shù)向量Xi和Xj來自同一類別時，‖zTz‖2的值將會變得很大，而當X和X來自i j 不j i F同類別時，‖zTz‖2的值將會變得很小。因此，F(xiàn) 只j i需保證不同類別約束項的值盡可能小，就有利于將屬于同一類別的子字典關(guān)聯(lián)起來，從而進一步增強字典D的判別性。

綜上所述，本算法的判別系數(shù)函數(shù)L（Z）可以設(shè)計為

自此，整個SVMCDL模型可以表示為lt;D，Zgt; =argmin‖X - DZ‖2

通過式學(xué)習(xí)所獲得的字典D，其子字典Di可以使屬于同一類別的樣本獲得較小的重構(gòu)誤差，而屬于不同類別的樣本則具有顯著較大的重構(gòu)誤差。同樣地，對于稀疏項而言，同類樣本的系數(shù)向量相似度較高，而不同類別的系數(shù)向量則完全不同。對于判別系數(shù)函數(shù)而言，根據(jù)訓(xùn)練所得到的同類樣本的函數(shù)值明顯較小，而對于不同類的樣本而言，其函數(shù)值會明顯偏大。由此得出，通過將重建項、約束項和判別項集成到統(tǒng)一的學(xué)習(xí)框架中，可以將模型的分類性能最大化。

2 SVMCDL模型的更新

由于式（4）中的SVMCDL模型無法直接通過聯(lián)合凸優(yōu)化來收斂到全局最小值，因此將該算法轉(zhuǎn)化為每個變量的凸優(yōu)化問題。為此，本文將原始問題分解為更新lt;wc，bcgt;、D、Z的三個優(yōu)化子問題，這三個子問題通過循環(huán)交替更新的方式進行迭代，直至達到最終條件。具體步驟見算法1。

算法1 基于SVMCDL的更新步驟

Input：Dinit，zinit，winit，binit，λ1，λ2，γ

Output：D，wc，bc

1. do until the terminal condition

2. 1 更新lt;w，bc cgt;

當Z，D都固定時，尋找lt;wc，bcgt;最優(yōu)解演變成了一對多的SVM求解問題。由于二次鉸鏈損失函數(shù) [max（0，1- yc（wTz +b）] 2可以使損失c i c函數(shù)變得更加平滑，并且處處可微，因此引入楊建超等[9]提出的多類線性SVM求解器，該求解器采用one-against-all的優(yōu)化算法對每個類別進行逐一訓(xùn)練，以獲得lt;wc，bcgt;最優(yōu)解。

2. 2 更新系數(shù)矩陣Z

當lt;w，bgt;和D固定時，對系數(shù)矩陣Z的更c c 新問題可以按列分為對每個系數(shù)向量zi的更新。去除掉無關(guān)項后，式（4）可以簡寫 2 為

i表示從1到n的數(shù)據(jù)次序，C（i）表示第 i個數(shù)據(jù)所屬的類別，λ1、λ2、γ為超參數(shù)，zi表示單個系數(shù)向量，z表示由多個系數(shù)向量所構(gòu)成的系數(shù)矩陣j 。為了避免zj在?2范數(shù)中過大從而造成zi出現(xiàn)平凡解，本算法對Z進行歸一化處理j ，

由于式（7）中函數(shù)Q（z）均滿足凸函數(shù)條i 件以及利普希茨連續(xù)條件，因此直接使用Beck提出

的快速迭代軟閾值算法（Fast Iterative Shrinkage-Thresholding Algorithm，F(xiàn)ISTA）[10]，F(xiàn)ISTA算法通過使用二次插值的步長規(guī)則，加快了收斂速度，并且在迭代過程中使用軟閾值soft（β，τ/σ）對估計結(jié)果進行稀疏化處理。使用FISTA算法更新zi的具體步驟見算法2所示。

算法2 基于FISTA更新z的步i 驟

Input：σ，τgt;0，z （1）= 0，h=1i

Output：Z

1. for i = 1 ton do

2. do until the terminal condition

3. h=h+1;

4. β（h-1） = zi - （1/2σ）▽Q（zi ） ;

5. z （h） = soft（β（h-1），τ /σ） ;i

6. end do

（h）

7. returnzi=zi ;

8. end for

算法2中▽Q（z （h-1））為Q（z （h-1））對z （h-1）i i i

的導(dǎo)數(shù)，soft（β，τ/σ）表示逐分量軟閾值，

2. 3 更新字典D

當lt;w，bgt;和Z固定時，去除掉式（4）中的c c 無關(guān)項后，關(guān)于字典D的更新可以被簡寫為此處可以使用拉格朗日對偶算法[11]來解決這一問題。

2. 4 SVMCDL模型的分類方案

執(zhí)行完算法1后，可以獲得最終的字典D、系數(shù)矩陣Z以及l(fā)t;w，bgt;。由于重建誤差與稀疏c c 項均具有判別性，在給定測試樣本x后，其測試樣本系數(shù)向量的求解模型如下：

根據(jù)前文所述，當樣本來自不同類別時，相異性約束項的值將會變得較小。這意味著在SVMCDL模型中的SVM項和稀疏相異性約束項具有判別性。本文在此基礎(chǔ)上提出分類方案如下：

其中，k = w/ nj。

3 實驗結(jié)果和分析

為了驗證本文算法的優(yōu)越性，分別在人臉識別、場景識別、物體識別、花卉識別圖像分類中進行實驗。將SVMCDL模型與FDDL[4]、SVGDL[8]、

SDRDL[12]、ADDL[13]等字典學(xué)習(xí)模型進行比較，同時也與 Swi n Transformer[14]、 MLP-mixer[15]、DenseNet[16]、ConvNet[17]、MobileVit[18]等深度學(xué)習(xí)模型進行比較。對于每個數(shù)據(jù)集，本文均使用表格展示了各個模型對圖像分類識別的準確率。

3. 1 參數(shù)分析與設(shè)計

為了展示SVMCDL模型的優(yōu)化過程，采用Extended Yale B數(shù)據(jù)集作為示例。根據(jù)經(jīng)驗，將參數(shù)λ、λ、γ分別設(shè)置為2×10-5、0. 002、2×10-4，1 2并使用PCA算法來初始化每個類別的字典，將每張圖像的維度降低到300維。為了充分展示了模型的收斂過程，迭代次數(shù)設(shè)置為50，實驗結(jié)果見圖1所示。該結(jié)果表明，式（4）中的目標函數(shù)可以達到最終收斂。在20次迭代后，目標函數(shù)變化較小且趨于穩(wěn)定。圖2、圖3分別展示了SVM項以及系數(shù)相異性約束項的收斂過程。為了平衡分類性能和算法復(fù)雜度，本文將最大迭代次數(shù)設(shè)置為20，通過實驗結(jié)果可以確認在該迭代次數(shù)下的實驗結(jié)果都表現(xiàn)良好。

為了最大化模型的分類性能，本文還研究了原子數(shù)及各個超參數(shù)對分類性能的影響。為了研究不同原子數(shù)對分類性能的影響，本文將SVMCDL與 SRC （ Sparse Representation-basedClassification）、FDDL、SDRDL等模型在不同原子數(shù)上進行了對比實驗。實驗結(jié)果如圖4所示，從圖中可以看出SVMCDL識別準確率高于FDDL及SRC模型，當原子數(shù)大于16時SVMCDL識別準確率會略低于SDRDL模型。然而，值得注意的是當原子數(shù)設(shè)為10時，SVMCDL模型在這些競爭方法中獲得了最高的識別準確率。這表明，只要原子數(shù)設(shè)計合理，SVMCDL模型能夠獲得最佳的分類性能。

為了研究λ1、λ2、γ三個參數(shù)值對分類性能的影響，本文采用固定其中兩個參數(shù)值，改變另一個參數(shù)值的實驗方法。如圖5（a）為固定λ =22 ×10-4、γ =2×10-4，從10-8到10-1來改變λ1的值。

當λ1較小時，會削弱λ1‖Z‖1稀疏項的作用，當λ1較大時，會增強λ1‖Z‖1稀疏項的作用，并削弱其他項的作用。從圖5（a）中可以看出λ1過大或過小時都會降低分類性能，當λ =2× 10-5時準1確率最高。圖5 （b）為固定λ1 =2× 10-5、γ =2× 10-4，改變λ2的值，當λ2=2× 10-4時準確率最高。圖5（c）為固定λ =2× 10-5、λ =2× 10-4，改變γ的值，當γ =2× 10-4時準確率最高。綜上，將參數(shù)λ、λ、γ分別設(shè)置為2× 10-5、 2× 10-4、1 22× 10-4時SVMCDL可在Extended Yale B中獲得最佳的分類性能。

綜上，根據(jù)經(jīng)驗以及多次重復(fù)實驗得到SVMCDL模型在其他各個數(shù)據(jù)集中的參數(shù)設(shè)計見表1所示。

3. 2 比較方法的設(shè)計

為了驗證本文模型的優(yōu)越性，將SVMCDL與其他字典學(xué)習(xí)模型以及深度模型進行了實驗對比。由于各模型在小樣本和大樣本數(shù)據(jù)集所表現(xiàn)出來的性能差異較大，在數(shù)據(jù)集的選取上也兼顧了兩者。由于深度學(xué)習(xí)對于處理大規(guī)模樣本具有優(yōu)勢，當字典學(xué)習(xí)模型的準確率遠低于深度學(xué)習(xí)模型時，本文提出了一種新的比較方法：首先使用深度學(xué)習(xí)模型對數(shù)據(jù)集進行預(yù)處理，并凍結(jié)深度模型的全連接層，提取預(yù)處理后的數(shù)據(jù)特征，然后將這些特征制作成一個新的數(shù)據(jù)集，供字典學(xué)習(xí)模型進行訓(xùn)練和分類。在下述實驗結(jié)果中，采用“字典學(xué)習(xí)模型+預(yù)處理模型”來表示這種處理方式。例如，“SVMCDL+Swin Transformer”表示首先使用Swin Transformer深度模型對數(shù)據(jù)進行預(yù)處理，然后使用SVMCDL字典學(xué)習(xí)模型對預(yù)處理后的數(shù)據(jù)進行訓(xùn)練和分類。

除此之外，為了進一步驗證系數(shù)相異性約束項的效果，將參數(shù)γ設(shè)置為0。在以下實驗結(jié)果中使用SVMCDL?來表示無系數(shù)相異性約束項時SVMCDL模型的圖像分類結(jié)果。

3. 3 人臉識別中的實驗結(jié)果

3. 3. 1 Extended Yale B數(shù)據(jù)集

Extended Yale B是一個用于人臉識別的數(shù)據(jù)集，它是原始Yale B數(shù)據(jù)集的擴展版本，規(guī)模更大、更具挑戰(zhàn)性。 Extended Yale B數(shù)據(jù)集包含了更多的個體和圖像，總共由23個個體和2 414張灰度圖像組成，每個個體有64個不同的姿勢和表情。在實驗中，對每個個體隨機選擇20張圖像作為訓(xùn)練集，其余圖像作為測試集。為了便于計算，將圖像的維度從1 024維降低為300維。實驗結(jié)果詳見表2。

從表2中可以明顯看出，與FDDL、ADDL、DKSVD、SVGDL等字典學(xué)習(xí)模型相比，SVMCDL展現(xiàn)出最高的準確率，達到了97. 2%。特別需要注意的是 SVGDL模型準確率為 96. 1%，比SVMCDL低1. 1%，在均使用SVM算法情況下，SVMCDL模型的稀疏性以及系數(shù)相異性約束項發(fā)揮了重要作用。 SVMCDL?的準確率為94. 6%，比SVMCDL低了2. 6%，再次說明本文引入的系數(shù)相異性約束項可以將SVM與稀疏項融合并互相作用，從而進一步提高圖像的分類性能，并且SVMCDL與深度模型相比，仍然可以獲得最高的圖像分類準確率。其中MobileVit、 MLP-mixer、Convnet準確率分別為92. 7%、85. 4%、93. 0%，均低于SVMCDL模型97. 2%的準確率，甚至SwinTransformer模型只獲得76. 5%的準確率。這是因為深度學(xué)習(xí)算法具有大量需要更新的參數(shù)，而Extended Yale B屬于小樣本數(shù)據(jù)集，當這些深度學(xué)習(xí)算法缺乏足夠的訓(xùn)練樣本時，很容易出現(xiàn)過擬合。這表明在小樣本數(shù)據(jù)集的分類任務(wù)中SVMCDL模型的分類性能比這些深度模型具有更顯著的優(yōu)勢。

3. 3. 2 AR數(shù)據(jù)集

AR數(shù)據(jù)集選擇50名男性和50名女性作為樣本。對于每個個體收集26張面部圖像。圖像大小為60×43。將圖像維度降為300維。實驗結(jié)果詳見表3。

從表3可以看出，在AR數(shù)據(jù)集上SVMCDL依然獲得了最高的準確率94. 9%。在小樣本數(shù)據(jù)集測試中也遠高于深度學(xué)習(xí)的準確率。

SVMCDL?比SVMCDL準確率低了1. 5%，再次證明本文系數(shù)相異性約束項可以提升圖像的分類性能。

3. 4 場景識別中的實驗結(jié)果

在場景識別的實驗中采用Scene-15作為數(shù)據(jù)集。該數(shù)據(jù)集是一個由4 485張圖像組成的小型風景數(shù)據(jù)集，涵蓋了15個類別，包括5個室內(nèi)場景（如臥室、廚房、客廳等）和10個室外場景（如郊區(qū)、海岸、森林高速公路等）。每個類別包含200到400張圖像，并且將圖像維度設(shè)置為3 000維。

從表4可以看出，SVMCDL在Scene-15數(shù)據(jù)集中依然獲得了最高的準確率98. 1%。在深度學(xué)習(xí)方面， MobileVit模型的準確率僅為84. 8%，MLP-mixer模型準確率為82. 6%。這再次證明，在小樣本數(shù)據(jù)集的學(xué)習(xí)中，SVMCDL模型的分類性能要遠優(yōu)于深度學(xué)習(xí)。

3. 5 物體識別中的實驗結(jié)果

在物體識別的實驗中采用了Caltech-101數(shù)據(jù)集。該數(shù)據(jù)集包含來自102個類別的9 114張圖像，類別包括木桶、椅子、杯子、螃蟹、吊燈、電風扇、照相機等。由于Caltech-101數(shù)據(jù)集種類繁多，每個類別的圖像在對象大小、位置和姿態(tài)等方面都具有較大的差異性，因此對于分類任務(wù)來說具有較大的挑戰(zhàn)性。從每個類別中隨機抽取30張圖像作為訓(xùn)練集，并且將維度從原來的21 504維降至3 000維。

從表5可以看出，在Caltech-101數(shù)據(jù)集中，SVMCDL模型的準確率明顯低于深度學(xué)習(xí)模型，特別是比DenseNet121模型低了13. 9%。值得注意的是DenseNet121是經(jīng)過預(yù)訓(xùn)練的深度模型，對于沒有經(jīng)過預(yù)訓(xùn)練的DenseNet-No-Pretrain模型，僅獲得51. 2%的準確率。 SVMCDL模型的準確率仍略高于其他字典學(xué)習(xí)模型以及SVMCDL??？紤]到深度學(xué)習(xí)在大規(guī)模樣本數(shù)據(jù)集上的優(yōu)勢，本文改變實驗思路，采用3. 2中提及的“字典學(xué)習(xí)模型+預(yù)處理模型”方法。實驗結(jié)果表明，通過這種方法，F(xiàn)DDL、SVGDL、SVMCDL的準確率顯著提升，甚至“SVMCDL+DenseNet121”的準確率超過了DenseNet121深度模型，達到了最高的94. 9%。這表明通過這種方法可以顯著提升SVMCDL模型的分類性能，甚至可以優(yōu)于深度學(xué)習(xí)模型。

3. 6 花卉識別中的實驗結(jié)果

在花卉識別的實驗中采用了Oxford 102Flowers數(shù)據(jù)集，該數(shù)據(jù)集包含向日葵、玫瑰花、百合花等102種花卉，共8 189張圖像。該數(shù)據(jù)集中每張圖像的拍攝角度、背景和尺寸各不相同，這對于圖像分類算法的魯棒性提出了挑戰(zhàn)。在實驗中將圖像維度降為3 000維。

從表6可以看出，在Oxford 102 Flowers數(shù)據(jù)集中的實驗結(jié)果與Caltech-101數(shù)據(jù)集的實驗結(jié)果基本吻合。這再次證明本文實驗思路的可行性。

在該實驗中DenseNet-No-Pretrain表示沒有經(jīng)過預(yù)訓(xùn)練的DenseNet模型，其準確率最低，只有47. 8%。相比而言經(jīng)過預(yù)訓(xùn)練的Densenet121模型獲得94. 7%準確率，這再一次證明深度學(xué)習(xí)依賴具有大量訓(xùn)練樣本的預(yù)訓(xùn)練過程。在Oxford102 Flowers數(shù)據(jù)集中字典學(xué)習(xí)的準確率依舊低于深度模型，但在字典學(xué)習(xí)模型的比較中SVMCDL表現(xiàn)出了最高的準確率。在提取深度學(xué)習(xí)特征后，將特征放入字典學(xué)習(xí)模型中訓(xùn)練并分類，發(fā)現(xiàn)在SVMCDL模型中的性能提升尤為明顯。

3. 7 時間性能的比較

FDDL與SVMCDL模型均為基于稀疏表示的字典學(xué)習(xí)模型。但不同于FDDL模型采用的Fisher準則，SVMCDL采用了在時間復(fù)雜度上更為高效的SVM及系數(shù)相異性約束項，其復(fù)雜度均為O（cmn）。為了驗證這一思想，本實驗在同一臺計算機中分別測試了兩個模型每次迭代的訓(xùn)練時間。該計算機硬件環(huán)境為：Intel Core i5-7300 CPU@ 2. 50GHz，16G內(nèi)存，軟件環(huán)境為：Windows 10，64位操作系統(tǒng)，MATLAB R2021b。實驗結(jié)果見表7所示。

從表7可以看出SVMCDL每輪的迭代時間要明顯低于FDDL模型，這一結(jié)果也驗證了相較于同為稀疏表示的FDDL模型，SVMCDL在時間性能中具有更明顯的優(yōu)勢。

4 結(jié)論

本文中SVMCDL模型通過引入類特別系數(shù)相異性約束項，將獨立的重建項、稀疏項和判別項融合為一個統(tǒng)一的學(xué)習(xí)框架，以提升字典的判別能力。通過人臉識別、場景識別、物體識別、花卉識別的圖像分類實驗，可以證明SVMCDL在分類性能上優(yōu)于許多其他先進的字典學(xué)習(xí)模型，并且在類似于Scene-15這樣的小樣本數(shù)據(jù)集的實驗中，SVMCDL的分類性能要明顯高于很多深度學(xué)習(xí)算法。在類似于Caltech-101這樣的大樣本數(shù)據(jù)集的實驗中，SVMCDL的分類性能雖然低于一些深度學(xué)習(xí)算法，但使用SVMCDL與深度學(xué)習(xí)提取特征相結(jié)合的方法時，SVMCDL模型也可以在大型樣本的數(shù)據(jù)集中展現(xiàn)出優(yōu)異的分類性能，甚至還會高于一些深度學(xué)習(xí)算法。

參考文獻

1 AHARON M ELAD M BRUCKSTEIN A. K-SVD an algorithmfor designing overcomplete dictionaries for sparse representation J . IEEE Transactions on Signal Processing 2006 54 11 4311-4322.

2 ZHANG Q LI B. Discriminative K-SVD for dictionary learning inface recognition C / / IEEE Conference on Computer Vision andPattern Recognition San Francisco USA 2010 2691-2698.

3 JIANG Z LIN Z DAVIS L. Label consistent K-SVD learning adiscriminative dictionary for recognition J . IEEE Transactions onPattern Analysis and Machine Intelligence 2013 35 11 2651-2664.

4 YANG M ZHANG L FENG X et al. Sparse representationbased Fisher discrimination dictionary learning for imageclassification J . International Journal of Computer Vision 2014 109 3 209-232.

5 王宏宇陳冬梅王慧.基于低秩非局部稀疏表示的圖像去噪模型 J .燕山大學(xué)學(xué)報 2017 41 3 272-277.WANG H Y CHEN D M WANG H. Image denoising model basedon low rank and nonlocal sparse representation J . Journal ofYanshan University 2017 41 3 272-277.

6 胡春海張凱翔范長德.基于稀疏表示分類行人檢測的二級檢測算法 J .燕山大學(xué)學(xué)報 2016 40 1 66-73.HU C H ZHANG K X FAN C D. Secondary detection algorithm ofpedestrian detection based on sparse representation classificationJ . Journal of Yanshan University 2016 40 1 66-73.

7 YANG B Q GUAN X P ZHU J W et al. SVMs multi-class lossfeedback based discriminative dictionary learning for imageclassification J . Pattern Recognition 2021 112 107690.

8 CAI S ZUO W ZHANG L et al. Support vector guideddictionary learning C / / European Conference on ComputerVision Zurich Switzerland 2014 624-639.

9 YANG J YU K GONG Y et al. Linear spatial pyramid matchingusing sparse coding for image classification C / / IEEE Conferenceon Computer Vision and Pattern Recognition Miami USA 2009 1794-1801.

10 BECK A TEBOULLE M. A fast iterative shrinkage-thresholdin galgorithm for linear inverse problems J . SIAM Journal o nImaging Sciences 2009 2 1 183-202.

11 LEE H BATTLE A RAINA R et al. Efficient sparse codin galgorithms J . Advances in Neural Information Processin gSystems 2006 19 801-808.

12 YANG B Q GU C C WU K J et al. Simultaneou sdimensionality reduction and dictionary learning for sparserepresentation based classification J . Multimedia Tools an dApplications 2017 76 8969-8990.

13 ZHANG Z JIANG W QIN J et al. Jointly learning structure danalysis discriminative dictionary and analysis multiclass classifier J . IEEE Transactions on Neural Networks and Learnin gSystems 2017 29 8 3798-3814.

14 LIU Z LIN Y CAO Y et al. Swin transformer hierarchica lvision transformer using shifted windows C / / 2021 IEEE/ CVFInternational Conference on Computer Vision Montreal Canada2021 10012-10022.

15 TOLSTIKHIN I HOULSBY N KOLESNIKOV A et al. MLP-Mixer an all-MLP architecture for vision J . Advances in NeuralInformation Processing Systems 2021 34 24261-24272.

16 HUANG G LIU Z KILIAN Q et al. Densely connectedconvolutional networks C / / IEEE Conference on ComputerVision and Pattern Recognition Honolulu USA 2017 4700-4708.

17 LIU Z MAO H WU C Y et al. A convnet for the 2020s C / /IEEE Conference on Computer Vision and Pattern Recognition New Orleans USA 2022 11976-11986.

18 SHAKER A MAAZ M RASHEED H et al. Swiftformer"efficient additive attention for transformer-based real-time mobilevision applications C / / IEEE Conference on Computer Vision Paris France 2023 17425-17436.

Class-specific dictionary learning algorithm based onSVM sparse representation

SONG Yintao1 YANG Baoqing1 LIU Ji1 ZHAO Yu1 YAN Jing2

1. School of Information Engineering Yangzhou University Yangzhou Jiangsu 225009 China 2. School of Electrical Engineering Yanshan University Qinhuangdao Hebei 066004 China

Abstract In recent years the dependence on large-scale training samples in deep learning has become a prominent issue.Dictionary learning algorithms have been proposed as a solution for small sample datasets. To further enhance the competitiveadvantage of dictionary learning in image classification a class-specific dictionary learning algorithm based on support vectormachine is proposed in this paper. The coefficient disparity constraint is introduced innovatively. The constraint term fuses theoriginally independent reconstruction sparse and discriminative terms into a unified learning framework significantly improvingthe discriminative ability of the dictionary. It has been demonstrated through experiments that the classification performance of thismodel outperforms other state-of-the-art dictionary learning models. Additionally a method to combine deep learning pre-trainingwith dictionary learning algorithms is proposed which has been experimentally demonstrated to significantly improve theclassification performance of dictionary learning algorithms in large-scale training samples.

Keywords dictionary learning sparse representation support vector machine coefficient disparity constraint