曹建芳,閆敏敏,田曉東,賈一鳴,靳夢燕
適應性增強膠囊網(wǎng)絡的古壁畫朝代識別算法
曹建芳1,2,閆敏敏1,田曉東1,賈一鳴1,靳夢燕1
(1. 太原科技大學計算機科學與技術學院,山西 太原 030024;2.忻州師范學院計算機系,山西 忻州 034000)
針對壁畫圖像自身存在多義性、不同朝代的壁畫繪畫風格存在差異性和傳統(tǒng)的人工直接參考壁畫文本或歷史文獻識別壁畫朝代存在費時、費力等問題,提出了適應性增強膠囊網(wǎng)絡(AEC)的古壁畫朝代識別算法,對莫高窟壁畫自動進行朝代識別。在原生膠囊網(wǎng)絡基礎上,首先引入預先卷積結(jié)構(gòu)對壁畫圖像進行高層特征提??;其次增加均層激活增強模型的擬合性能;最后對膠囊網(wǎng)絡進行適應性增強,在提高梯度平滑度的基礎上利用自適應學習率進行優(yōu)化提高模型的分類精度。實驗結(jié)果表明在所構(gòu)造的DH1926壁畫數(shù)據(jù)集上,AEC模型準確率為84.44%、平均精確度(MAP)為82.36%、平均召回率(MAR)為83.75%、綜合評價指標為83.96%。與改進的卷積神經(jīng)網(wǎng)絡(CNN)和原生膠囊網(wǎng)絡等其他網(wǎng)絡結(jié)構(gòu)相比,各項評價指標均有3%以上的提升,有較強的擬合性能,能夠多層次提取壁畫的豐富特征,表達圖像更細節(jié)的語義信息,在莫高窟壁畫朝代識別中具有更高的準確度和更好的魯棒性,有一定的應用價值與研究意義。
預先卷積;均層激活;適應性增強;膠囊網(wǎng)絡;壁畫朝代分類
壁畫由人工使用顏料直接繪制于墻壁,因其文化價值成為了人類最珍貴的文化遺產(chǎn)。莫高窟中有大量朝代特征鮮明的壁畫石窟,在時間軸上發(fā)展和延續(xù)了多個朝代,各個朝代的壁畫在人物形象、色彩和繪畫特點等方面均具有時代特色。如何對這些豐富的壁畫進行深入地研究,最關鍵的步驟就是識別壁畫圖像所屬朝代。
從傳統(tǒng)的中國國畫分類[1-3]到后來的具有其獨有特點的壁畫圖像,數(shù)字化技術已被大量應用于傳統(tǒng)藝術作品的研究?,F(xiàn)有對壁畫根進行自動分類的方法大多是基于傳統(tǒng)的計算機視覺的方法。為了更好地對壁畫圖像進行檢索和分類,王琦和魯東明[4]為了解決內(nèi)部類不同和噪音的問題,對古代壁畫構(gòu)圖進行分類和特點探究,提出了一種基于壁畫的內(nèi)容相關性模型用于檢索壁畫圖像的語義信息和整合古代壁畫的構(gòu)圖和語義;唐大偉等[5]采用多實例分組的分類方法,通過對樣本空間的劃分和各子空間的訓練,對壁畫的風格進行有效分類;唐大偉等[6]通過對壁畫本身的特點和輪廓特征進行研究,整合壁畫輪廓整體間的結(jié)構(gòu)關系,提出一種相似性度量方法,該方法與其他未整合壁畫整體結(jié)構(gòu)的約束方法相比,有更高的分類精度。上述方法均屬于傳統(tǒng)的壁畫分類方法,雖取得了一定的分類效果,但是由于壁畫圖像自身所存在的圖像主觀性和多元性的特點,該類方法只能提取壁畫的低級特征,對于壁畫的紋理和顏色等高級特征提取不充分。
近年來,深度學習在壁畫朝代分類領域有了一些探索[7-8]。文獻[7]選定了同一飛天主題下的660幅壁畫圖像,與本文的多種主題相比較,存在一定的分類局限性。文獻[7]與[8]的方法均使用卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)對壁畫圖像進行分類,在針對壁畫圖像中某些特定實體(人物、建筑等)的各種特征時,CNN并不能很好地提取色調(diào)、紋理等其他類別特征且需要大量的訓練數(shù)據(jù)。
相對于CNN存在的不足,膠囊網(wǎng)絡(CapsNet)可以很好地根據(jù)在壁畫圖像中提取到的特征信息進行特征檢測與理解。膠囊網(wǎng)絡是深度學習之父SABOUR等[9]提出的,其特點是能夠加強對圖像的理解,增強了對圖像的色彩、紋路以及其他高維特征的表征力,能夠?qū)D像內(nèi)容中的元素特征與元素之間的空間聯(lián)系起來,進行圖像內(nèi)容的檢測與識別,已在高光譜圖像[10]、細粒度圖像[11]、Fashion-MNIST和CIFAR-10數(shù)據(jù)集[12]與醫(yī)學圖像的識別與分類[13]中取得了一定的成果。上述研究表明,膠囊網(wǎng)絡可以針對壁畫圖像文本存在的多元性、主觀單一性、多義性、紋理復雜等特點對壁畫圖像進行分類。膠囊網(wǎng)絡中的膠囊包含豐富的特征信息,膠囊之間的動態(tài)路由可以動態(tài)地對圖像中的語義信息進行學習,并能在整個網(wǎng)絡的訓練過程中將語義信息進行保留,并有效捕捉圖像中的紋理特征、色彩梯度變化與克服光照不均勻的問題。對壁畫圖像的色彩、紋理以及藝術形象等特征在特征膠囊層進行擬合,最終確定壁畫圖像的朝代并進行分類。所以適用于壁畫圖像的特征提取。
由于原生膠囊網(wǎng)絡的第一部分為單層卷積層,結(jié)構(gòu)簡單,不能對于色彩與紋理復雜的壁畫圖像進行充分的特征提取,導致分類效果不理想,因此本文提出一種適應性增強膠囊網(wǎng)絡模型(adaptive enhancement capsule network,AEC)?;谀z囊網(wǎng)絡的基本框架,在單一的卷積層基礎之上增加2個相連的卷積層對圖像進行基本特征提取;對增加的卷積層進行均層激活防止模型出現(xiàn)過擬合現(xiàn)象,并對模型進行適應性增強以提高最終的分類精度,從而在壁畫數(shù)據(jù)集較少的基礎上能夠深度提取到壁畫圖像的色彩、紋理和繪畫風格等細節(jié)特征,提高網(wǎng)絡對壁畫圖像的朝代識別準確率與模型的魯棒性。
膠囊網(wǎng)絡克服CNN在提取圖像特征時只考慮圖像像素的特點,充分考慮到圖像內(nèi)元素的空間關系。卷積層、主膠囊層和數(shù)字膠囊層構(gòu)成其主要網(wǎng)絡結(jié)構(gòu),是網(wǎng)絡的主要特征提取部分,實現(xiàn)從圖像低維特征到高維特征的匹配與映射。膠囊由神經(jīng)元組成,而圖像中的紋理、顏色等特征屬性被包含在神經(jīng)元中,每個膠囊都能通過神經(jīng)元中的某個實體的部分屬性預測整個實體的全局特征。將提取到的圖像高維特征進行參數(shù)實例化,再由膠囊作為輸出輸入到下一個膠囊中。整個膠囊運算過程中,低層膠囊將提取到的部分圖像特征傳輸給高層膠囊后進行整體識別。動態(tài)路由算法是膠囊網(wǎng)絡的膠囊之間進行特征信息映射的關鍵。
在膠囊中,內(nèi)部主要將輸入的特征向量與矩陣進行乘法運算,再通過加權(quán)求和,實現(xiàn)特征向量的加權(quán)之和與向量之間非線性變換進行信息傳播與交流。膠囊網(wǎng)絡的算法如圖1所示。
圖1 膠囊網(wǎng)絡算法結(jié)構(gòu)圖
圖1中,為參數(shù)更新中的反向傳播運算,為對標量進行加權(quán)求和運算。膠囊接收輸入的特征向量,這些特征向量中包含來自低層膠囊中所提取到的圖像的基本特征并進行了編碼,可以識別到圖像某一部分的特征。其中低層膠囊與高層膠囊之間的特征映射關系被編碼在權(quán)重矩陣中,將特征向量與對應的權(quán)重矩陣進行相乘。
為了將之前低層膠囊中的特征向量進行更好地融合,預測向量在輸入高層膠囊前,對標量進行加權(quán)求和。膠囊內(nèi)向量之間的非線性變換主要是將輸出矢量通過歸一化操作對每個輸出矢量進行長度歸一化,將每個適量的長度規(guī)定在0和1之間,在不影響向量方向的同時對其大小進行壓縮。歸一化的數(shù)學式為
在得到最終的輸出向量之后,通過膠囊間動態(tài)路由算法對權(quán)重進行更新。具體操作過程為:輸出向量與預測向量進行相乘后與原始權(quán)重進行相加,即
其中,將輸出向量與預測向量進行相乘是為了判斷輸入與輸出之間的相似性。
膠囊網(wǎng)絡與CNN相比,其特有的膠囊特性與動態(tài)路由算法使得整個網(wǎng)絡模型都使用標量進行輸入和輸出,在參數(shù)更新時進行反向傳播,能更好地理解圖像,對圖像的特征表達能力更強,且通過少量的數(shù)據(jù)就能學習到圖像的高維特征,從而反映圖像的狀態(tài)特征。
膠囊網(wǎng)絡對于醫(yī)學圖像以及手寫數(shù)據(jù)集的分別和識別效果比較理想。但是由于壁畫圖像顏色更豐富,色彩梯度變化較為顯著,紋理特征更加復雜,加上很多石窟的壁畫圖像在繪畫內(nèi)容和繪畫文本上有極大的相似之處,直接使用原生膠囊網(wǎng)絡,不能深度地提取壁畫圖像的豐富特征,會造成分類精度不高。因此,為了提高對敦煌不同石窟的壁畫圖像所屬朝代的識別精度,對古代各個時期的壁畫圖像進行更好地檢索、識別和分類,提出AEC模型。
AEC的古代壁畫圖像朝代識別分類算法的整體模型結(jié)構(gòu)如圖2所示。
AEC首先經(jīng)過3層卷積提取到輸入圖像的二維圖像特征,然后傳給特征膠囊層形成高維特征膠囊,之后再通過類別膠囊層的動態(tài)路由算法映射到最終的分類結(jié)果。
由圖2可以看出,AEC主要有卷積層、特征膠囊層和類別膠囊層3部分組成。各網(wǎng)絡層的參數(shù)設置見表1。
表1為適應性膠囊網(wǎng)絡的各網(wǎng)絡層參數(shù)設置詳情。適應性膠囊網(wǎng)絡的卷積層部分卷積核大小為3×3,步長為2。網(wǎng)絡經(jīng)過卷積生成64,128的特征圖,再使用同樣的移動提取操作輸出層數(shù)為256的特征圖,作為第2部分的特征膠囊層的輸入。
特征膠囊層中,卷積層的大小為32×32,步長為16。特征膠囊層運算后的壁畫圖像底層特征信息輸出為256層的特征圖,按照每個膠囊特征圖為32層平均分為長度8的膠囊塊。
類別膠囊層中包含10個類別膠囊,最終向全連接層輸出16維的特征向量,實現(xiàn)從特征膠囊層到類別膠囊層的映射關系。膠囊內(nèi)部將輸入的特征向量與權(quán)重矩陣相乘,對特征膠囊層和類別膠囊層所提取到的低層圖像特征和高層圖像特征之間的空間關系進行轉(zhuǎn)化與編碼。適應性膠囊網(wǎng)絡中權(quán)重矩陣大小為32×6,浮點數(shù)為8×16。類別膠囊中向量的長度為置信度的高度。
圖2 適應性增強膠囊網(wǎng)絡的整體結(jié)構(gòu)
表1 適應性增強膠囊網(wǎng)絡網(wǎng)絡層參數(shù)
所提取到的圖像特征間的關系被打包封裝,并在膠囊內(nèi)部進行傳輸,然后通過動態(tài)路由算法將其擬合,實現(xiàn)與分類標簽之間的對應關系。故獲取到壁畫中豐富的特征信息和語義信息,防止出現(xiàn)語義鴻溝是膠囊網(wǎng)絡在古代壁畫朝代分類中使用的關鍵問題。
AEC可通過增加多個預先卷積層進行更深層次的特征提取,充分獲取到壁畫中豐富的特征信息和語義信息,然后對卷積層進行均層激活,避免在反向傳播中出現(xiàn)梯度消失的問題,提高模型的擬合性能,并對原先膠囊網(wǎng)絡的特征膠囊層參數(shù)進行改變,增強網(wǎng)絡適應性,最后利用自適應優(yōu)化算法對整個預卷積層的參數(shù)進行優(yōu)化以提高模型的平滑度。
2.2.1 引入預先卷積層增強網(wǎng)絡表達能力
原生膠囊網(wǎng)絡的卷積部分僅僅使用一個卷積操作對圖像的特征進行提取,對于具有復雜特征的224×224×3的古代壁畫照片,一個卷積操作無法提取到可以反映目標特征的高層抽象特征,造成壁畫朝代分類的效果不佳,因此需要更多的卷積層才能獲取到壁畫圖像的色彩、繪畫風格等豐富的細節(jié)特征,才能對壁畫圖像的語義特征進行更好地表達。因此,使用3個連續(xù)的卷積層替代原生膠囊網(wǎng)絡的單層卷積層,實現(xiàn)壁畫圖像高層抽象特征提取。
AEC的均層激活結(jié)構(gòu)部分由3個串聯(lián)的卷積層組成,具體結(jié)構(gòu)如圖3所示。
選擇大小為224×244×3的壁畫圖像作為AEC的輸入。圖2顯示,壁畫圖像輸入到3個串聯(lián)的卷積層,并進行連續(xù)卷積操作。3個卷積層步長均為2、大小為3×3。先用64個卷積核進行壁畫圖像的底層基本特征提取,然后通過卷積層的運算對其進行卷積,作為后面特征膠囊層的特征分析。首先產(chǎn)生64層特征圖,其大小為112×112,在卷積層之間引入Leaky Relu非線性函數(shù)激活卷積操作后的壁畫圖像特征圖像,然后將特征傳輸?shù)较乱粚印=?jīng)過同樣的卷積運算,將上一層生成的特征圖轉(zhuǎn)換為128層的特征圖,大小為5 656。最后一層卷積層在經(jīng)過2次激活后繼續(xù)對特征圖進行卷積操作,使用256個大小為3×3的卷積核對中間卷積層生成的128層的特征圖進行移動卷積,最后生成256層的特征圖并進行激活。
圖3 均層激活結(jié)構(gòu)
適應性增強的膠囊網(wǎng)絡使用步長為2和3×3的3層連續(xù)步驟來執(zhí)行預卷積和均勻?qū)蛹せ畈僮?。通過連續(xù)卷積將224×244×3的壁畫圖像轉(zhuǎn)化為二維圖像特征,有利于膠囊層的特征分析和處理,從而更好地對提取的特征進行抽象分析,增強特征膠囊層特征膠囊對二維圖像特征的表達。
2.2.2 采用卷積層均層激活提高擬合性能
為了避免預卷積部分的反向傳播中梯度消失問題對壁畫朝代分類結(jié)果的影響,需要使用合適的激活函數(shù)對向下傳播的特征進行整理。為了使模型具有更好地擬合性能和收斂速度,需替換原始網(wǎng)絡中的激活函數(shù),并對增加的預先卷積網(wǎng)絡中的每個卷積層進行激活。
適應性膠囊網(wǎng)絡為了保留卷積層能多提取到有用的圖像特征,添加了非線性激活函數(shù)對圖像特征進行激活,去掉一些冗余的圖像特征。Leaky Relu函數(shù)克服負值神經(jīng)元沉默現(xiàn)象,在一定程度上加快模型收斂,防止梯度彌散。與Relu函數(shù)的差異不大,只當輸入小于0的值時,Relu函數(shù)會發(fā)生趨于0的現(xiàn)象,而Leaky Relu激活函數(shù)會保留一些信息,且梯度不為0。Leaky Relu函數(shù)的數(shù)學表達式為
其中,Leaky Relu為激活函數(shù)的前向傳播過程;leak為小數(shù),取值0.1;為輸入。
2.2.3 調(diào)整特征膠囊層參數(shù)改進網(wǎng)絡適應性
將原始的膠囊網(wǎng)絡直接應用于壁畫圖像處理,會影響最終的識別效果??紤]到輸入圖像尺寸與類別標簽個數(shù)在改進之后的膠囊網(wǎng)絡中需要進行一定的調(diào)整,為了使得網(wǎng)絡的卷積核能夠適用于壁畫圖像的特征提取,通過調(diào)整特征膠囊層和類別膠囊層中的各個參數(shù)對改進之后的網(wǎng)絡進行了適應性增強操作。
在特征膠囊層進行特征提取前,原始的膠囊網(wǎng)絡利用一個卷積層將輸入的圖像通過卷積操作后生成大小為20×20的特征圖,并作為特征膠囊層的輸入,經(jīng)過256個卷積核大小為9×9,步長為2的卷積核進行卷積操作之后,生成大小為6×6的特征圖,并將其轉(zhuǎn)化為1 152個膠囊。在原始膠囊網(wǎng)絡基礎上AEC,對輸入特征圖、卷積核大小等進行相應地調(diào)整?;?層連續(xù)的卷積層,適應性膠囊網(wǎng)絡將28×28的特征圖作為特征膠囊層的輸入,可輸出50 176個單元。其中采用封裝操作對特征圖按照8×1的膠囊大小進行分組封裝,最終封裝為6 272個膠囊。參數(shù)進行適應性改進后,特征膠囊層能夠表達壁畫圖像的豐富細節(jié)信息,參數(shù)適應性調(diào)整詳情見表2。
表2 特征膠囊層參數(shù)適應性改進
在類別膠囊層中,膠囊之間與膠囊內(nèi)部主要采用動態(tài)路由算法。該算法是通過路由用低層膠囊向高層膠囊進行特征向量傳輸。特征膠囊層參數(shù)的改進使得特征圖的大小和數(shù)量發(fā)生改變,原有的類別膠囊層參數(shù)并不能直接將重建后的特征與真實特征進行相似度匹配,通過對類別膠囊層的參數(shù)進行適應性調(diào)整,網(wǎng)絡具有更強的性能和特征表達能力。類別膠囊層中的參數(shù)改變情況見表3。
表3 類別膠囊層參數(shù)適應性改變
由表3可以看出,與膠囊網(wǎng)絡相比,AEC分別對特征膠囊數(shù)量矩陣、權(quán)重矩陣和類別膠囊數(shù)量矩陣3個參數(shù)項目進行了改進。實驗將壁畫數(shù)據(jù)集分為6個類別,故將類別膠囊的數(shù)量進行了適應性調(diào)整,最終的實驗結(jié)果證明上述調(diào)整在壁畫圖像的朝代識別中效果較佳。
2.2.4 利用自適應學習率算法提高梯度平滑度
為了適應不同的目標函數(shù),整個網(wǎng)絡采用自適應學習率的Adam算法。最終AEC在訓練過程中梯度更加平滑,對所有參數(shù)進行優(yōu)化。自適應學習率Adam算法基于適應性低階矩,加快計算效率模型的收斂速度,對于噪聲比較大的壁畫圖像來說,其可以降低噪聲對特征提取的影響。
在整個網(wǎng)絡訓練過程中都使用自適應學習率和動量算法,學習率始終保持在固定的范圍之內(nèi),參數(shù)變化比較平穩(wěn),避免出現(xiàn)梯度下降現(xiàn)象。與其他優(yōu)化器相比較,該算法繼承了AdaGrad算法在稀疏梯度上的優(yōu)勢和Rmspor算法在非穩(wěn)態(tài)下的優(yōu)勢。模型和參數(shù)進行權(quán)重更新使得模型有更好的性能,而充分利用矩陣的一階和二階矩均值是更新的重要方法。
實驗選用IntelCorei5-8250U1、60 GHz的處理器、NVIDIA Geforce MX150顯卡以及16 GB內(nèi)存。所用計算機的操作系統(tǒng)為Windows 10。實驗將Python3.7作為網(wǎng)絡編程語言,選擇深度學習中的TensorFlow框架進行程序編寫。使用Pycharm 3.5 x64編譯器對語言進行編譯。
3.2.1 壁 畫
敦煌壁畫在構(gòu)圖上不受時間、地點及自然環(huán)境等的限制,無論在色彩、裝飾或紋理方面,與自然圖像都存在本質(zhì)上的差別。主要表現(xiàn)為:
(1) 壁畫圖像的紋理復雜。由于壁畫圖像繪制于墻壁,與普通的相機拍攝的自然圖像相比較,壁畫圖像的紋理更加復雜;
(2) 壁畫圖像的色調(diào)存在一定的色彩梯度變化。壁畫圖像的顏料使用礦物質(zhì)顏料,且色彩的面積較大,與自然圖像相比,其色彩存在一定的主觀意向性;
(3) 壁畫自身的文本內(nèi)容多元。敦煌壁畫圖像的繪畫內(nèi)容包括供養(yǎng)人、佛、菩薩、建筑等其他多元的藝術形象;
(4) 壁畫圖像自身存在的主觀性和多義性。
其中不同朝代的壁畫圖像在色彩[14]、繪畫風格、語義特征[15]等方面均有較大差異性。
3.2.2 數(shù)據(jù)集內(nèi)容
實驗使用的敦煌壁畫圖像數(shù)據(jù)集(DH1926)均截圖于《中國敦煌壁畫全集》電子資源畫冊。根據(jù)畫冊中的各個壁畫所標注的時代標簽將所截取的所有壁畫分為北魏、北周、隋代、唐朝、五代和西魏6個不同的時期,最終一共收集1 926張壁畫圖像數(shù)據(jù),每個類別的圖像數(shù)量分布見表4,各個時期的示例圖像如圖4所示。
表4 DH1926數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)
由于壁畫圖像資源有限,為了防止圖像資源較少導致沒有訓練到位或出現(xiàn)過擬合現(xiàn)象影響分類效果,本文實驗通過歸一化將圖像修改為224×244像素大小,然后采用數(shù)據(jù)增強方式對原壁畫圖像進行處理,將壁畫圖像由1 926張拓展至9 630張。圖5為數(shù)據(jù)增強處理后的部分圖片。數(shù)據(jù)增強方式包括:提亮1.5倍、旋轉(zhuǎn)90°加噪、旋轉(zhuǎn)45°和90°加噪,其中每類選用200張壁畫圖像作為測試集,其他圖像作為訓練集。拓展后的各類別圖像數(shù)量、訓練集數(shù)量與測試集分布見表5。
圖4 各個朝代示例圖像
由表5可以看出,數(shù)據(jù)增強后的壁畫圖像共有9 630張。經(jīng)過專家對數(shù)據(jù)集進行評審和將實驗結(jié)果與原時代標簽結(jié)果進行比對,驗證了DH1926數(shù)據(jù)集在本文算法中的有效性。
為了驗證本文所提出的AEC有更好的識別和分類性能,分別在2個方面進行了對比實驗。首先,在網(wǎng)絡結(jié)構(gòu)上,本文均使用DH1926敦煌壁畫數(shù)據(jù)集,分別就不同的激活函數(shù)和優(yōu)化函數(shù)進行實驗;然后,分別在AEC,CapsNet,VGG16網(wǎng)絡和LeNet-5網(wǎng)絡上進行實驗。將平均損失、準確率、平均精確率、召回率、平均召回率和綜合評價指標F1作為評價指標,評估最終的實驗結(jié)果與訓練過程中模型的性能。
損失值指預測朝代類別標簽與設定的朝代類別標簽之間的距離,并計算平均損失值。
準確率是指正確識別的朝代標簽數(shù)量占所有時代標簽總數(shù)量的比重,代表模型的正確識別的標簽的概率,即
其中,為帶朝代標簽的壁畫數(shù)量總數(shù);x為第個壁畫圖像樣本;為第個壁畫圖像樣本的預設朝代標簽。
精確率(average precision, AP),指實際正樣本在所召回的正樣本中占的比值。召回率(average recall, AR),指被召回到類別的樣本的數(shù)量與總樣本數(shù)量的比值。F1值用于評價整個網(wǎng)絡的綜合性能,只有精確率與召回率均高時,F(xiàn)1值也相應增高,即
圖5 數(shù)據(jù)增強部分圖像
Fig. 5 Data enhancement part of the image
表5 數(shù)據(jù)集的內(nèi)容(張)
3.3.1 不同激活函數(shù)的對比實驗
激活函數(shù)可以影響整個實驗過程中訓練數(shù)據(jù)和模型的收斂速度,合適的激活函數(shù)可使網(wǎng)絡表現(xiàn)出更好的性能。保持其他參數(shù)不變,選用Relu,Leaky Relu和Elu等3種激活函數(shù)分別進行實驗,測試激活函數(shù)對損失值、準確率和其他綜合評價指標的影響。實驗結(jié)果對比情況如圖6所示。
Loss在圖6(a)中是訓練中的損失值。在其他參數(shù)不變的情況下,Leaky Relu函數(shù)的Loss值在整個訓練過程中較低。Elu函數(shù)Loss值最高,是線性單元函數(shù),因為在計算時需要計算指數(shù),導致其計算時間較長,且計算速度比其他2個函數(shù)慢。Relu函數(shù)是有信息丟失的情況,導致Loss高于Leaky Relu函數(shù)。這表明Leaky Relu函數(shù)能夠克服其他2種函數(shù)的缺陷,減少信息的損失。從圖6(b)中可知,Leaky Relu函數(shù)在各項指標中的值都較高,相較于其他函數(shù),更適于在AEC中進行網(wǎng)絡模型的參數(shù)優(yōu)化。
表6中的數(shù)據(jù)說明Leaky Relu函數(shù)應用于AEC時能夠獲得較高的準確率,Relu函數(shù)與Elu函數(shù)的準確率相差不大。
圖6 不同激活函數(shù)結(jié)果對比((a)不同激活函數(shù)的Loss結(jié)果;(b)不同激活函數(shù)評價指標對比)
表6 不同激活函數(shù)準確率對比(%)
3.3.2 不同優(yōu)化器的對比實驗
優(yōu)化器可幫助模型進行參數(shù)更新,減少優(yōu)化模型中的損失及在訓練過程中的代價。本文實驗選用常用的5種優(yōu)化器,在激活函數(shù)為Leaky Relu的基礎上,分別進行對比實驗。不同優(yōu)化算法對比結(jié)果如圖7所示。
從圖7(a)中可以看出,在訓練次數(shù)相同時,5個優(yōu)化函數(shù)的Loss值相對穩(wěn)定,未見明顯的波動。Adam函數(shù)的損失小于其他4個優(yōu)化函數(shù)的損失。由于Adam函數(shù)是一種自適應學習率優(yōu)化算法,用于目標函數(shù)的小批量梯度隨機優(yōu)化,其能保證訓練中的學習率,確定在一個合適的范圍,并且不會使學習在參數(shù)迭代中變短。其能更快地找到全局最優(yōu)值,避免了學習速率衰減和模型振蕩的現(xiàn)象,是因?qū)W習速率根據(jù)參數(shù)的變化方向自動調(diào)整的。
在圖7(b)和(c)中,Adam函數(shù)的精度最高,且穩(wěn)定在50步左右。綜合評價指標值高于其他優(yōu)化算法,在AEC模型的優(yōu)化中性能更好。
圖7 不同優(yōu)化算法結(jié)果對比((a)不同優(yōu)化函數(shù)的Loss變化;(b)不同優(yōu)化函數(shù)的準確率Accuracy變化;(c)不同優(yōu)化算法評價指標對比)
3.3.3 對整體結(jié)構(gòu)的驗證
為了證明適應性膠囊網(wǎng)絡在壁畫數(shù)據(jù)集上的有效性,實驗將本文所構(gòu)造的壁畫數(shù)據(jù)集應用于VGG16模型[16],LeNet-5模型[17],CapsNet[10]與AEC等4種不同的網(wǎng)絡結(jié)構(gòu),并訓練至最優(yōu)結(jié)果,對最終的識別準確率和其他綜合評價指標進行對比分析(表7)。
表7 不同網(wǎng)絡實驗結(jié)果對比(%)
從表7中可以看出,AEC的準確率較VGG16,CapsNet和LeNet-5各提高了67.94%,11.61%和13.9%,主要是因為VGG16網(wǎng)絡過擬合,CapsNet網(wǎng)絡只有一層卷積層,對于復雜特征的壁畫圖像無法提取到更豐富的圖像信息,而在召回率、F1值也均優(yōu)于其他網(wǎng)絡結(jié)構(gòu)。本文的模型通過對原始的膠囊網(wǎng)絡增加卷積層和激活函數(shù)操作,本文的網(wǎng)絡模型能夠?qū)Ρ诋媹D像提取到更高維的圖像特征,在進行朝代識別時可以正確預測壁畫圖像的時代標簽。
為了驗證本文的AEC模型在古壁畫朝代識別中的性能和有效性,將本文算法與改進的CNN模型和算法分別進行對比,其對比結(jié)果見表8。由表8可以看出,本文模型的最終識別準確率較高。
表8 不同算法的結(jié)果對比(%)
3.3.4 單類別結(jié)果分析
為了對本文算法進行進一步數(shù)據(jù)分析,實驗將輸出整個訓練過程中每一類別的識別結(jié)果。實驗過程中單類別各項指標對比情況如圖8所示。
圖8中,bw,bz,sd,tc,wd和xw分別代表北魏、北周、隋代、唐朝、五代、西魏6個朝代。從圖中可以看出,在整個訓練過程中,各個朝代類別的AP,AR和F1值在50次測試后準確率都處于較穩(wěn)定的變化,未出現(xiàn)大幅度的波動現(xiàn)象,說明本文算法在整個實驗過程中穩(wěn)定性較強。
本文提出了一種用于莫高窟古代壁畫朝代識別分類的AEC模型。模型使用膠囊網(wǎng)絡的圖像特征提取優(yōu)勢,針對古代壁畫特征提取復雜的特點,增加多層卷積層進行預卷積處理,在對卷積層進行均層激活的基礎上對原生膠囊網(wǎng)絡的特征膠囊層參數(shù)進行適應性改進,使用自適應優(yōu)化算法進行參數(shù)優(yōu)化提高模型平滑度。對AEC的激活函數(shù)和優(yōu)化方法進行實驗驗證,并就整體結(jié)構(gòu)與其他改進算法進行對比,說明AEC在本文所構(gòu)造的古代壁畫圖像數(shù)據(jù)集上的朝代識別效果比較好,具有一定的現(xiàn)實意義和實用價值。經(jīng)過單類別結(jié)果分析后發(fā)現(xiàn)不同類別的測試結(jié)果波動效果不同,個別類別訓練的收斂性并不好,對最終結(jié)果產(chǎn)生不良影響。下一步工作將進一步提高最終的分類精度且研究導致某些類別測試結(jié)果不穩(wěn)定、訓練效果不佳的原因及解決辦法,以期提高總體模型的效果。
[1] GU LENG W J S. Painting semantic classification method based on image visual feature analysis[C]//2019 International Conference on Intelligent Transportation, Big Data & Smart City (ICITBS). New York: IEEE Press, 2019: 578-581.
[2] 周衍挺. 基于改進的卷積神經(jīng)網(wǎng)絡模型的中國繪畫圖像分類方法[J]. 佳木斯大學學報: 自然科學版, 2021, 39(1): 112-115.
ZHOU Y T. Reserch on Chinese painting image classification method based on improved convolutional neural network model[J]. Journal of Jiamusi University: Natural Science Edition, 2021, 39(1): 112-115 (in Chinese).
[3] LIONG S T, HUANG Y C, LI S M, et al. Automatic traditional Chinese painting classification: a benchmarking analysis[J]. Computational Intelligence, 2020, 36(3): 1183-1199.
[4] 王琦, 魯東明. 基于構(gòu)圖分析的古代壁畫相關度評價方法[J]. 浙江大學學報: 工學版, 2012, 46(3): 392-401.
WANG Q, LU D M. Composition analysis-based relevance ranking for ancient mural[J]. Journal of Zhejiang University: Engineering Science, 2012, 46(3): 392-401 (in Chinese).
[5] 唐大偉, 魯東明, 許端清, 等. 壁畫圖像分類中的分組多實例學習方法[J]. 中國圖象圖形學報, 2014, 19(5): 708-715.
TANG D W, LU D M, XU D Q, et al. Clustered multiple instance learning for mural image classification[J]. Journal of Image and Graphics, 2014, 19(5): 708-715 (in Chinese).
[6] 唐大偉, 魯東明, 楊冰, 等. 輪廓整體結(jié)構(gòu)約束的壁畫圖像相似性度量[J]. 中國圖象圖形學報, 2013, 18(8): 968-975.
TANG D W, LU D M, YANG B, et al. Similarity metrics between mural images with constraints of the overall structure of contours[J]. Journal of Image and Graphics, 2013, 18(8): 968-975 (in Chinese).
[7] ZOU Q, CAO Y, LI Q Q, et al. Chronological classification of ancient paintings using appearance and shape features[J]. Pattern Recognition Letters, 2014, 49: 146-154.
[8] LI Q Q, ZOU Q, MA D, et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes[J]. Science China Information Sciences, 2018, 61(9): 1-14.
[9] SABOUR S, FROSST N, HINTON G E. Dynamic routing between capsules[C]//The 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 3859-3869.
[10] LI H C, WANG W Y, PAN L, et al. Robust capsule network based on maximum correntropy criterion for hyperspectral image classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 738-751.
[11] 陶志勇, 李杰, 唐曉亮. 融合小波變換與膠囊網(wǎng)絡的紋理圖像分類算法[J]. 激光與光電子學進展, 2020, 57(24): 58-68.
TAO Z Y, LI J, TANG X L. Texture images classification algorithm combining wavelet transform and capsule network[J]. Laser & Optoelectronics Progress, 2020, 57(24): 58-68 (in Chinese).
[12] 李建橋, 賈曉芬, 趙佰亭. 多特征融合的膠囊網(wǎng)絡用于圖像分類[J]. 哈爾濱商業(yè)大學學報: 自然科學版, 2020, 36(6): 695-700.
LI J Q, JIA X F, ZHAO B T. Multi-feature fusion capsule network for image classification[J]. Journal of Harbin University of Commerce: Natural Sciences Edition, 2020, 36(6): 695-700 (in Chinese).
[13] ZHANG Z, YE S W, LIAO P, et al. Enhanced Capsule Network for Medical image classification[C]//The 42nd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC). New York: IEEE Press, 2020: 1544-1547.
[14] 徐文思. 淺析不同朝代敦煌壁畫的色彩表現(xiàn)特點[J]. 明日風尚, 2016(22): 197.
XU W S. A brief analysis of color expression characteristics of Dunhuang frescoes in different dynasties[J]. Fashion Tomorrow, 2016(22): 197 (in Chinese).
[15] 王曉光, 徐雷, 李綱. 敦煌壁畫數(shù)字圖像語義描述方法研究[J]. 中國圖書館學報, 2014, 40(1): 50-59.
WANG X G, XU L, LI G. Semantic description framework research on Dunhuang fresco digital images[J]. Journal of Library Science in China, 2014, 40(1): 50-59 (in Chinese).
[16] SIMONYAN K, ZISSERMAN A. Very deep convolutional net-works for large-scale image recognition[EB/OL]. (2015-04-10) [2021-04-16]. https://arxiv.org/pdf/1409.1556.pdf.
[17] 張榮梅, 張琦, 陳彬. 基于改進LeNet-5的車牌識別算法[J]. 科學技術與工程, 2020, 20(12): 4775-4779.
ZHANG R M, ZHANG Q, CHEN B. An improved license plate recognition algorithm based on LeNet-5 convolutional neural network[J]. Science Technology and Engineering, 2020, 20(12): 4775-4779 (in Chinese).
[18] 鐘志權(quán), 袁進, 唐曉穎. 基于卷積神經(jīng)網(wǎng)絡的左右眼識別[J]. 計算機研究與發(fā)展, 2018, 55(8): 1667-1673.
ZHONG Z Q, YUAN J, TANG X Y. Left-vs-right eye discrimination based on convolutional neural network[J]. Journal of Computer Research and Development, 2018, 55(8): 1667-1673 (in Chinese).
[19] 錢文華, 徐丹, 徐瑾, 等. 基于信息熵的風格繪畫分類研究[J]. 圖學學報, 2019, 40(6): 991-999.
QIAN W H, XU D, XU J, et al. Artistic paintings classification based on information entropy[J]. Journal of Graphics, 2019, 40(6): 991-999 (in Chinese).
[20] 高峰, 聶婕, 黃磊, 等. 基于表現(xiàn)手法的國畫分類方法研究[J]. 計算機學報, 2017, 40(12): 2871-2882.
GAO F, NIE J, HUANG L, et al. Traditional Chinese painting classification based on painting techniques[J]. Chinese Journal of Computers, 2017, 40(12): 2871-2882 (in Chinese).
A dynasty classification algorithm of ancient murals based on adaptively enhanced capsule network
CAO Jian-fang1,2, YAN Min-min1, TIAN Xiao-dong1, JIA Yi-ming1, JIN Meng-yan1
(1. School of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan Shanxi 030024, China; 2. Department of Computer Science and Technology, Xinzhou Teachers University, Xinzhou Shanxi 034000, China)
In view of the ambiguity of mural images, the differences of mural painting styles in different dynasties, and the high time-consumption and difficulty of the direct traditional manual reference to mural texts or historical documents to identify mural dynasties, an adaptive enhancement capsule network (AEC) algorithm for ancient mural dynasties identification was proposed to automatically identify the dynasties of Mogao Grottoes murals. Based on the original capsule network, the pre-convolution structure was introduced to extract the high-level features of mural images. Secondly, the fitting performance was increased for homogeneous layer activation enhancement model. Finally, the adaptability of the capsule network was enhanced. On the basis of the improved gradient smoothness, the adaptive learning rate was employed to optimize the model, thus improving the classification accuracy of the model. The experimental results show that on the constructed DH1926 mural data set, the accuracy rate of the adaptively enhanced capsule network model is 84.44%, the average accuracy (MAP) is 82.36%, the average recall rate (MAR) is 83.75%, and the comprehensive evaluation index is 83.96%. Compared with other network structures, such as improved convolutional neural network (CNN) and native capsule network, each evaluation index has been improved by more than 3%, and displayed strong fitting performance. It can extract rich features of murals at multiple levels and express more detailed semantic information of images. It is advantageous in higher accuracy and better robustness in the dynasty recognition of Mogao Grottoes murals, and is of certain application value and research significance.
pre-convolution; homogeneous layer activation; adaptive enhancement; capsule network; mural dynasty classification
TP 391
10.11996/JG.j.2095-302X.2021050744
A
2095-302X(2021)05-0744-11
2020-12-11;
2021-04-16
11 December,2020;
16 April,2021
曹建芳(1976-),女,山西忻州人,教授,博士。主要研究方向為數(shù)字圖像理解、大數(shù)據(jù)。E-mail:kcxdj122@126.com
CAO Jian-fang (1976-), female, professor, Ph.D. Her main research interests cover digital image understanding, big data. E-mail:kcxdj122@126. com