曹建芳,閆敏敏,賈一鳴,田曉東
(1.太原科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024;2.忻州師范學(xué)院計(jì)算機(jī)系,山西忻州 034000)
壁畫是人類歷史上最早的繪畫形式之一,被稱為墻上的藝術(shù),我國古代壁畫有悠久的歷史,根據(jù)《中國敦煌壁畫全集》等壁畫資源所提供的朝代標(biāo)簽,將壁畫圖像按其所屬朝代分為六類:石器時(shí)代、秦漢時(shí)期、魏晉時(shí)期、隋唐時(shí)期、宋金時(shí)期和明清時(shí)期。
多年的考古工作實(shí)踐證明,壁畫的數(shù)字化保護(hù)與修復(fù)、光譜重建技術(shù)[1]能將壁畫信息永久保存,而且能夠無限量復(fù)制,通過高品質(zhì)的圖片,建立原始、完整的壁畫數(shù)據(jù)檔案實(shí)現(xiàn)壁畫的虛擬展示,是讓后人欣賞古老壁畫的可行方式,而清楚壁畫所屬的朝代更能幫助人們充分了解壁畫文化。文獻(xiàn)[2]中提出一套智能化技術(shù)方法,實(shí)現(xiàn)了對(duì)壁畫的數(shù)字化修復(fù)。之后,文獻(xiàn)[3]中針對(duì)古代繪畫存在的撕裂、脫落等問題,利用最近鄰法這一有效的機(jī)器學(xué)習(xí)算法對(duì)古代繪畫進(jìn)行了數(shù)字化修復(fù)研究。在上述對(duì)壁畫進(jìn)行數(shù)字化的方法基礎(chǔ)上,文獻(xiàn)[4]中利用稀疏建模的方法對(duì)敦煌壁畫的紋理和結(jié)構(gòu)進(jìn)行探索,并對(duì)古代壁畫的朝代識(shí)別分類。
利用特征提取、分類器分類等傳統(tǒng)方法對(duì)壁畫進(jìn)行分類的研究有很多。文獻(xiàn)[5]中針對(duì)壁畫圖像具有較大的類內(nèi)差異和壁畫圖像的噪聲問題,提出了一種對(duì)Latent SVM(Support Vector Machine)進(jìn)行優(yōu)化的分組多實(shí)例學(xué)習(xí)方法。文獻(xiàn)[6]中通過對(duì)古代壁畫構(gòu)圖學(xué)和特征進(jìn)行研究,提出了一種對(duì)古代壁畫內(nèi)容等進(jìn)行語義檢索、融合古代壁畫構(gòu)圖和語義的相關(guān)度模型。文獻(xiàn)[7]將提取的壁畫圖像輪廓特征作為圖像相似性的度量表達(dá)兩幅圖像的整體相似程度。利用傳統(tǒng)的壁畫分類方法雖然可以對(duì)壁畫進(jìn)行一定的特征提取,但是由于壁畫繪制本身具有多樣性和傳統(tǒng)方法沒有學(xué)習(xí)到壁畫更豐富的特征,使得壁畫的特征提取和分類結(jié)果具有泛化能力不足等問題。隨著深度學(xué)習(xí)不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和分類等領(lǐng)域已被證明非常有效,卷積神經(jīng)網(wǎng)絡(luò)除了為仿生模式識(shí)別[8]、深海漁網(wǎng)圖像分類[9]和細(xì)胞圖像[10]等圖像分類領(lǐng)域助力之外,還廣泛應(yīng)用到各個(gè)領(lǐng)域。近幾年,卷積神經(jīng)網(wǎng)絡(luò)逐漸被應(yīng)用于古代壁畫圖像的修復(fù)、超分辨變率重建和分類等工作。本文利用Inception-v3 模型完成古代壁畫圖像的朝代分類工作。Inception-v3 模型是Google 團(tuán)隊(duì)在對(duì)AlexNet 的改進(jìn)之上提出的一種網(wǎng)絡(luò)結(jié)構(gòu),具有參數(shù)少、訓(xùn)練時(shí)間短等特點(diǎn)。傳統(tǒng)的古壁畫朝代識(shí)別是通過對(duì)壁畫的紋理、顏壁畫文本等特征進(jìn)行分析研究,然后查閱大量文獻(xiàn)判斷壁畫的朝代。傳統(tǒng)的測(cè)定壁畫朝代常用的判別方法[11]有:根據(jù)壁畫自身的文本;根據(jù)記載壁畫所描述事件的歷史文獻(xiàn);根據(jù)壁畫所展現(xiàn)出來的繪畫風(fēng)格。
為了解決之前壁畫朝代分類方法存在的特征提取不充分和傳統(tǒng)的人工識(shí)別壁畫朝代所存在的無法對(duì)壁畫朝代達(dá)成一致等缺點(diǎn),應(yīng)該對(duì)壁畫的朝代進(jìn)行更加科學(xué)、可信的識(shí)別,因此,一種能夠科學(xué)有效地識(shí)別壁畫朝代的方法顯得格外重要。本文通過收集大量各個(gè)朝代的壁畫圖像,利用預(yù)訓(xùn)練的Inception-v3 網(wǎng)絡(luò)模型,融合遷移學(xué)習(xí),提出了一種能夠有效識(shí)別壁畫所屬朝代的融合遷移學(xué)習(xí)的Inception-v3 模型,完成古代壁畫圖像朝代分類任務(wù)。
Inception 模型是Szegedy 等[12]在ImageNet 大型視覺識(shí)別挑戰(zhàn)2014 中提出的一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),目的是為了減少計(jì)算效率與低參數(shù)在移動(dòng)視覺和其他應(yīng)用場(chǎng)景等多種用途中產(chǎn)生的影響。Inception-v3 模型的非對(duì)稱多卷積核結(jié)構(gòu),對(duì)較大的卷積進(jìn)行了拆分操作,采用不同大小的卷積核,使得存在不同大小的感受野,在提高模型參數(shù)計(jì)算效率的同時(shí),也減少了模型過擬合。拆分卷積后的網(wǎng)絡(luò)結(jié)構(gòu)與輔助濾波器相結(jié)合,對(duì)圖像特征縮小的同時(shí)又在特征多樣性方面有更好的處理效果,能夠易于圖像的高維特征的提取。為了減少網(wǎng)絡(luò)的設(shè)計(jì)空間,采用模塊化結(jié)構(gòu),最后實(shí)現(xiàn)拼接,達(dá)到不同尺度的特征融合。在防止過擬合問題方面,Inception-v3 模型在輔助分類器和全連接層加入了Batch Normalization 層作為正則化器。Inception-v3模型的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
Batch Normalization 是一種非常有效的正則化方法。使用Batch Normalization 的模型可以使用批處理梯度下降進(jìn)行訓(xùn)練,加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和模型收斂。
Batch Normalization 的公式為:
式中:x為批量B的激活值的最小值;m為激活值的數(shù)量;γ、β為可學(xué)習(xí)參數(shù),γ調(diào)整數(shù)值分布的方差大小,β調(diào)節(jié)數(shù)值均值的位置;μ代表一個(gè)維度的均值;σ2為計(jì)算的Feature map 每個(gè)維度的標(biāo)準(zhǔn)差;ε為常數(shù)。
另外Inception-v3 模型將較大的卷積核分為串聯(lián)的小卷積核,將卷積和池化并聯(lián),還加入了標(biāo)簽平滑正則化(Label Smoothing Regularization,LSR)。傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)輸入輸出可能分布不一致,給特征提取帶來了很大的障礙,在引入Batch Normalization 方法后,可有效地解決這個(gè)問題,通過規(guī)范每一層的輸入,優(yōu)化學(xué)習(xí)效果。
壁畫色彩豐富,不同朝代的壁畫在色彩上的表現(xiàn)存在很大不同。本文將使用顏色直方圖來提取壁畫圖像的顏色特征,通過顏色比例的計(jì)算來描述壁畫圖像中的顏色特征。顏色直方圖的定義如下:
式中:i為像素所屬的灰度級(jí);L為灰度級(jí)總數(shù);ni代表灰度級(jí)的像素?cái)?shù)為;N為像素總數(shù)。
由于壁畫圖像繪制于墻壁,與自然圖像相比較,壁畫圖像的紋理更加復(fù)雜。使用局部二值模式(Local Binary Pattern,LBP)計(jì)算壁畫的紋理特征,LBP 算法能夠在灰度變換操作下依然保持不變的特性,可以提供壁畫圖像90%的特征。LBP算法定義如下:
式中:p為中心元素的個(gè)數(shù);(xc,yc)表示鄰域中的中心元素,其像素值為ic,在鄰域中的其他元素的像素值為ip;s(x)代表符號(hào)算子。s(x)定義如下:
由于壁畫圖像存在質(zhì)量低、數(shù)量少和收集困難等問題,為了在小型壁畫數(shù)據(jù)集上能夠深度提取壁畫圖像特征,本文模型將在ImageNet 大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,將遷移學(xué)習(xí)到的知識(shí)應(yīng)用在小型壁畫數(shù)據(jù)集上,從而對(duì)壁畫圖像進(jìn)行朝代識(shí)別并分類。
本文提出的古代壁畫圖像朝代分類模型由特征提取部分和分類部分組成。特征提取部分采用卷積神經(jīng)網(wǎng)絡(luò)、顏色直方圖與LBP 紋理特征直方圖;分類部分為Softmax 層。分類模型如圖1所示。
圖1 融合遷移學(xué)習(xí)的古代壁畫朝代分類模型Fig.1 Dynasty classification model of ancient murals integrated with transfer learning
由圖1 可以看出,所提出的融合遷移學(xué)習(xí)的古代壁畫朝代分類模型主要分為三部分對(duì)壁畫進(jìn)行朝代分類。首先,利用預(yù)訓(xùn)練的Inception-v3 模型對(duì)壁畫進(jìn)行高維特征提取,其中為了更好地對(duì)前端卷積層提取到的特征進(jìn)行表達(dá),在原全連接層中加入了兩個(gè)Dropout 層,再增加全連接層數(shù)量,使用三個(gè)連續(xù)的全連接層提取壁畫圖像的深層特征;然后,利用顏色直方圖提取壁畫的顏色特征,并利用LBP 紋理直方圖提取壁畫圖像的紋理特征,將這兩種特征整合為壁畫圖像的藝術(shù)特征;最后,將預(yù)訓(xùn)練模型提取的高維特征與藝術(shù)特征相融合,生成為特征向量在Softmax層中作為所需要的輸出節(jié)點(diǎn)。
2.2.1 融合遷移學(xué)習(xí)增強(qiáng)模型穩(wěn)定性
由于現(xiàn)有壁畫圖像具有數(shù)量少、質(zhì)量差、破損嚴(yán)重的特點(diǎn),因此壁畫圖像的收集和篩選工作較困難。對(duì)壁畫圖像進(jìn)行朝代分類需要收集不同朝代的壁畫圖像,使得大量數(shù)據(jù)的收集整理工作更加困難。
為了提高模型的學(xué)習(xí)效率和能更好地提取壁畫圖像的深度特征,克服壁畫特征復(fù)雜導(dǎo)致的模型不穩(wěn)定和在特征提取過程中出現(xiàn)斷崖問題,本文方法基于Inception-v3 模型并融合遷移學(xué)習(xí)。遷移學(xué)習(xí)是一種利用所學(xué)習(xí)的共同知識(shí)解決其他領(lǐng)域問題的機(jī)器學(xué)習(xí)方法,其目的是完成將在某一領(lǐng)域?qū)W習(xí)到的有價(jià)值的信息遷移到另一領(lǐng)域。使用遷移學(xué)習(xí)可以提高模型的穩(wěn)定性和可泛化性,不至于因?yàn)閳D像像素的改變而影響到最終的分類結(jié)果。
本文融合遷移學(xué)習(xí)的方法是將Inception-v3 模型在大型數(shù)據(jù)集ImageNet上進(jìn)行預(yù)訓(xùn)練,提取到圖像的淺層特征,再把遷移學(xué)習(xí)到的知識(shí)作為模型瓶頸層的輸出應(yīng)用于壁畫數(shù)據(jù)集,凍結(jié)Inception-v3 模型全連接層和Softmax 層之前的卷積層,訓(xùn)練一個(gè)新的全連接層和Softmax 層用于深度提取到壁畫的圖像特征,在較短的時(shí)間內(nèi)完成模型的訓(xùn)練和壁畫圖像的分類任務(wù)。
2.2.2 提出小樣本隨機(jī)梯度下降算法優(yōu)化模型誤差
為了不改變?cè)谟?xùn)練過程中模型的收斂速度,針對(duì)壁畫數(shù)量少的特點(diǎn),對(duì)每批次采用小樣本進(jìn)行輸入,使得模型通過不同的數(shù)據(jù)集學(xué)習(xí)共性部分,從而進(jìn)行特征提取或比較樣本之間的相似度來進(jìn)行更好的分類。
由于學(xué)習(xí)率太小時(shí),梯度大的參數(shù)收斂速度慢;學(xué)習(xí)率太大時(shí),已經(jīng)優(yōu)化的參數(shù)可能不穩(wěn)定。為了解決在訓(xùn)練過程中某些參數(shù)在極小值附近卻梯度很大的問題,針對(duì)壁畫圖像數(shù)量較少的情況,使用自適應(yīng)學(xué)習(xí)率的小樣本隨機(jī)梯度下降算法Mini-Gradient Descent 作為本文模型的優(yōu)化器,將交叉熵函數(shù)作為最小化代價(jià)函數(shù)并在訓(xùn)練過程中通過適當(dāng)修改學(xué)習(xí)速率來達(dá)到更好的收斂性,從而避免在模型訓(xùn)練過程中出現(xiàn)學(xué)習(xí)率飽和現(xiàn)象。
2.2.3 引入交叉熵?fù)p失函數(shù)穩(wěn)定模型梯度
為了解決梯度消失問題和評(píng)估真實(shí)值與預(yù)測(cè)值之間的差距,使用交叉熵函數(shù)(Cross entropy)與Softmax 函數(shù)相結(jié)合作為損失函數(shù),解決梯度消失現(xiàn)象,導(dǎo)致隱藏層的權(quán)值更新緩慢或者更新停滯的問題。
交叉熵的值越小,表明實(shí)際的輸出和期望的結(jié)果越相近,效果越好。在相同條件下,與二次代價(jià)函數(shù)相比,交叉熵?fù)p失函數(shù)的學(xué)習(xí)速率更快;與Sigmoid 函數(shù)相比,可以避免學(xué)習(xí)速度下降。交叉熵用來表示實(shí)際輸出與期望輸出的距離。在反向傳播過程中,真實(shí)值和預(yù)測(cè)值誤差越大,參數(shù)調(diào)整幅度就越大,模型收斂越快。在實(shí)驗(yàn)最后輸出訓(xùn)練過程中的交叉熵值,可以用來判斷模型是否過擬合。
2.2.4 增加全連接層數(shù)量增強(qiáng)圖像特征表達(dá)
原網(wǎng)絡(luò)模型直接應(yīng)用于提取壁畫圖像處理時(shí),容易出現(xiàn)特征提取不充分等問題,本文實(shí)驗(yàn)在預(yù)訓(xùn)練Inception-v3 模型上,對(duì)所有層進(jìn)行參數(shù)微調(diào)后,為了防止出現(xiàn)梯度消失、梯度爆炸、過擬合等問題,在全連接層中加入兩個(gè)Dropout 層。在原網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,為了更好對(duì)前端網(wǎng)絡(luò)提取到的圖像高維多層特征進(jìn)行學(xué)習(xí)和表達(dá),在網(wǎng)絡(luò)的瓶頸層之后構(gòu)建3 個(gè)連續(xù)的全連接層。為了避免出現(xiàn)梯度色散問題,選用Softmax層對(duì)特征進(jìn)行分類。
融合遷移學(xué)習(xí)的Inception-v3 模型對(duì)古代壁畫進(jìn)行朝代分類的框架如圖2所示,主要分為六個(gè)階段。
圖2 融合遷移學(xué)習(xí)的Inception-v3模型對(duì)古代壁畫進(jìn)行朝代分類的框架圖Fig.2 Framework diagram of dynasty classification of ancient murals using Inception-v3 model integrated with transfer learning
階段1 圖形預(yù)處理階段。
輸入 古代壁畫圖像數(shù)據(jù)集;
輸出 訓(xùn)練集、測(cè)試集和驗(yàn)證集。
步驟1 對(duì)數(shù)據(jù)集中的每張壁畫圖像修改大小,都改為299×299像素;
步驟2 使用數(shù)據(jù)增強(qiáng)算法通過圖像反轉(zhuǎn)、顏色抖動(dòng)、增加亮度等預(yù)處理方法對(duì)圖像數(shù)據(jù)集進(jìn)行擴(kuò)充;
步驟3 得到擴(kuò)充后的數(shù)據(jù)集;
步驟4 將擴(kuò)充后的數(shù)據(jù)集圖像通過隨機(jī)函數(shù)將80%的壁畫圖像作為訓(xùn)練集,10%壁畫圖像作為測(cè)試集,10%壁畫圖像作為驗(yàn)證集。
階段2 模型預(yù)訓(xùn)練階段。
輸入 訓(xùn)練集;
輸出 遷移模型。
步驟1 在大型數(shù)據(jù)集ImageNet 上訓(xùn)練對(duì)Inception-v3 模型進(jìn)行預(yù)訓(xùn)練;
步驟2 對(duì)模型進(jìn)行參數(shù)微調(diào),記錄在不同迭代次數(shù)時(shí)學(xué)習(xí)率、batch值的準(zhǔn)確率的變化情況;
步驟3 輸入訓(xùn)練集壁畫圖像進(jìn)行訓(xùn)練,得到已經(jīng)訓(xùn)練好的Inception-v3模型。
步驟4 得到遷移模型。
階段3 藝術(shù)特征提取階段。
輸入 訓(xùn)練集;
輸出 壁畫圖像藝術(shù)特征。
步驟1 使用顏色直方圖算法提取壁畫圖像的顏色特征;
步驟2 使用LBP 紋理直方圖算法提取壁畫圖像的紋理特征;
步驟3 得到壁畫的藝術(shù)特征。
階段4 特征融合階段。
輸入 壁畫高層特征與藝術(shù)特征;
輸出 壁畫圖像融合特征。
步驟1 獲取預(yù)訓(xùn)練模型中所提取的壁畫深層特征;
步驟2 獲取顏色特征與紋理特征;
步驟3 將深層特征、顏色特征與紋理特征進(jìn)行融合,得到藝術(shù)特征。
階段5 模型測(cè)試階段。
輸入 測(cè)試集;
輸出 測(cè)試準(zhǔn)確率。
步驟1 將測(cè)試集導(dǎo)入預(yù)訓(xùn)練完成的遷移模型中;
步驟2 統(tǒng)計(jì)分類結(jié)果,得出最終準(zhǔn)確率。
階段6 模型驗(yàn)證階段。
輸入 驗(yàn)證集;
輸出 驗(yàn)證壁畫圖像分類的準(zhǔn)確率。
步驟1 將驗(yàn)證集導(dǎo)入預(yù)訓(xùn)練完成的遷移模型中;
步驟2 統(tǒng)計(jì)驗(yàn)證結(jié)果。
本文實(shí)驗(yàn)搭建CPU 為Inter Core i5-8250U、內(nèi)存為16 GB、顯卡為NVIDIA GeForece MX150 的硬件環(huán)境;所搭建的軟件環(huán)境為Windows 10 操作系統(tǒng),python3.7,采用Tensorflow 作為本實(shí)驗(yàn)框架,編譯軟件為PyCharm 2019.3.5 x64。
本文實(shí)驗(yàn)收集的壁畫圖像均來自《地下畫廊——嘉峪關(guān)魏晉磚壁畫》《中國敦煌壁畫全集》《開化寺宋代壁畫》等書籍電子版,內(nèi)容包括佛菩薩像、佛傳故事、本生故事以及各種經(jīng)變。各內(nèi)容中表現(xiàn)了采桑、車馬、出巡、炊事、生產(chǎn)勞動(dòng)、侍者、宴飲、狩獵、養(yǎng)殖放牧、宰殺、住宅、奏樂等各種生產(chǎn)生活常態(tài),展現(xiàn)了各個(gè)朝代不同時(shí)期的壁畫藝術(shù)。通過對(duì)壁畫的裁剪研究,將所收集壁畫藝術(shù)圖像分為石器時(shí)代、秦漢時(shí)期、隋唐時(shí)期、宋金時(shí)期、魏晉時(shí)期和明清時(shí)期六個(gè)朝代(各朝代的部分圖像如圖3所示)。
圖3 各朝代的部分圖像示例Fig.3 Examples of some images of each dynasty
為了擴(kuò)充數(shù)據(jù)集,采用了數(shù)據(jù)增強(qiáng)方式對(duì)壁畫圖像進(jìn)行預(yù)處理(數(shù)據(jù)增強(qiáng)預(yù)處理示例圖像如圖4 所示),主要包括:對(duì)圖像進(jìn)行提亮;對(duì)壁畫圖像進(jìn)行左右翻轉(zhuǎn);對(duì)圖像隨機(jī)進(jìn)行顏色抖動(dòng),包括對(duì)比度增強(qiáng)顏色增強(qiáng)等;對(duì)壁畫圖像進(jìn)行旋轉(zhuǎn),旋轉(zhuǎn)角度為20°。本文實(shí)驗(yàn)(包括數(shù)據(jù)增強(qiáng)部分)共收集了9700 張,并將所構(gòu)造壁畫數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中80%的圖像為訓(xùn)練集,10%的圖像為訓(xùn)練集,10%的圖像為測(cè)試集。不同朝代的壁畫圖像數(shù)量如表2所示。
表2 不同朝代的壁畫圖像數(shù)量Tab.2 Numbers of mural images of different dynasties
圖4 部分圖像數(shù)據(jù)增強(qiáng)示例Fig.4 Some image examples after data enhancement
3.3.1 模型訓(xùn)練與模型驗(yàn)證
在本文實(shí)驗(yàn)中,經(jīng)過對(duì)模型多次訓(xùn)練和測(cè)試,將訓(xùn)練步數(shù)設(shè)置為10000 步,將實(shí)驗(yàn)學(xué)習(xí)率設(shè)為0.1。從表3 可以看出,在學(xué)習(xí)率為0.1時(shí),本文模型具有更好的性能。圖5為訓(xùn)練過程準(zhǔn)確率和交叉熵的變化情況。由圖5(a)可以看出,在模型訓(xùn)練過程中,訓(xùn)練準(zhǔn)確率不斷上升,在8000步以后,準(zhǔn)確率趨于平穩(wěn)狀態(tài),達(dá)到88%左右;由圖5(b)可以看出,在訓(xùn)練過程中,交叉熵不斷下降,在3000 步左右交叉熵趨于平穩(wěn)狀態(tài);由圖5(c)~(d)可以看出,在驗(yàn)證過程中,驗(yàn)證準(zhǔn)確率不斷上升,在6000 步左右趨于平穩(wěn),驗(yàn)證交叉熵不斷下降并最終趨于平穩(wěn)。綜上所述,本文模型在訓(xùn)練過程中具有較好的性能,不容易出現(xiàn)過擬合現(xiàn)象。
圖5 訓(xùn)練過程和驗(yàn)證過程中的準(zhǔn)確率和交叉熵變化情況Fig.5 Changes in accuracy and cross entropy during training and verification processes
學(xué)習(xí)率是在訓(xùn)練過程中對(duì)權(quán)重進(jìn)行調(diào)整的一個(gè)比例因子,太大的學(xué)習(xí)率會(huì)導(dǎo)致模型波動(dòng)不能收斂,而太小的學(xué)習(xí)率則會(huì)讓模型收斂過慢,浪費(fèi)訓(xùn)練時(shí)間和計(jì)算資源[13]。在本文實(shí)驗(yàn)中,在迭代步數(shù)相同(均為10000步)的情況下,將學(xué)習(xí)率分別設(shè)置為0.001、0.01 和0.1 進(jìn)行多組實(shí)驗(yàn),最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)分析。不同學(xué)習(xí)率下準(zhǔn)確率的對(duì)比情況如表3所示。
由表3 可以看出,在學(xué)習(xí)率為0.1 時(shí),本文模型表現(xiàn)出了良好的性能,最終準(zhǔn)確率達(dá)到88.70%,與學(xué)習(xí)率為0.001 和0.01 的兩組實(shí)驗(yàn)相比,本文模型的準(zhǔn)確率分別提高了10.08個(gè)百分點(diǎn)和4.26個(gè)百分點(diǎn)。
表3 不同學(xué)習(xí)率時(shí)的準(zhǔn)確率對(duì)比Tab.3 Comparison of accuracy at different learning rates
3.3.2 不同壁畫特征對(duì)比
在壁畫朝代識(shí)別的實(shí)驗(yàn)中,壁畫圖像的顏色特征、紋理特征和繪畫風(fēng)格對(duì)實(shí)驗(yàn)結(jié)果會(huì)產(chǎn)生較大的影響,而繪畫風(fēng)格是基于顏色特征的體現(xiàn),色彩與紋理差異較大的朝代之間識(shí)別準(zhǔn)確率較高?;谏鲜銮闆r,從兩個(gè)方面進(jìn)行對(duì)比實(shí)驗(yàn):
1)為了驗(yàn)證壁畫圖像的顏色特征對(duì)識(shí)別效果的影響,選取一部分朝代圖像對(duì)其進(jìn)行顏色調(diào)整(如圖6 所示)后再進(jìn)行朝代識(shí)別;
2)為了驗(yàn)證壁畫圖像的紋理特征對(duì)識(shí)別效果的影響,考慮到圖像的分辨率變化直接影響到紋理特征的計(jì)算,故實(shí)驗(yàn)對(duì)一部分壁畫圖像的分辨率進(jìn)行調(diào)整后再進(jìn)行朝代識(shí)別。
圖6 為一部分壁畫圖像的顏色調(diào)整示例。圖6 中,(a)圖像為實(shí)驗(yàn)所用299 × 299 大小的原壁畫圖像,(b)圖像為在圖(a)基礎(chǔ)上增加灰度值,(c)圖像為在圖(a)基礎(chǔ)上增加飽和度值,(d)圖像為在圖(a)基礎(chǔ)上進(jìn)行反色變換。
圖6 壁畫圖像顏色調(diào)整Fig.6 Color adjustment of mural image
表4 中的準(zhǔn)確率代表圖像被正確識(shí)別為預(yù)設(shè)時(shí)代標(biāo)簽的概率。從表4 中可以看出,在對(duì)壁畫圖像進(jìn)行了灰度值增加與反色變換后,最終的識(shí)別準(zhǔn)確率都有所下降,在增加灰度值、增加飽和度和反色變換后準(zhǔn)確率分別下降了57.59、3.78和26.87 個(gè)百分點(diǎn)。上述數(shù)據(jù)表明,在壁畫失去一部分顏色特征后,顏色直方圖并沒有提取到壁畫圖像豐富的色彩特征,導(dǎo)致在識(shí)別朝代時(shí),并不能很好地對(duì)特征進(jìn)行學(xué)習(xí)和分類。
表4 不同顏色特征的壁畫圖像的朝代識(shí)別準(zhǔn)確率對(duì)比 單位:%Tab.4 Comparison of dynasty identification accuracy of mural images with different color features unit:%
由于圖像的紋理特征受到圖像分辨率的影響,本文實(shí)驗(yàn)將原圖像的分辨率擴(kuò)大至3倍、5倍后,分別應(yīng)用于本文模型,判斷其被識(shí)別為原朝代的百分比。
表5 中的準(zhǔn)確率代表圖像被正確識(shí)別為預(yù)設(shè)時(shí)代標(biāo)簽的概率。從表5 中可以看出,當(dāng)圖像分辨率變大時(shí),圖像的紋理特征更加模糊,最終的識(shí)別準(zhǔn)確率也有所降低。
表5 不同分辨率的壁畫圖像的朝代識(shí)別準(zhǔn)確率對(duì)比Tab.5 Comparison of dynasty identification accuracy of mural images with different resolutions
由表4~5 可以看出,與圖像的顏色特征相比,紋理特征的改變對(duì)于最終準(zhǔn)確率的影響并不大。由此可以得出,顏色特征在本文的壁畫朝代識(shí)別實(shí)驗(yàn)中起決定作用。
3.3.3 不同模型性能對(duì)比
為了更好地體現(xiàn)Inception-v3 模型與遷移學(xué)習(xí)融合的方法在古壁畫朝代識(shí)別分類方面的優(yōu)越性,本文實(shí)驗(yàn)將Inception-v3 模型與經(jīng)典深度學(xué)習(xí)網(wǎng)絡(luò)模型、改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行準(zhǔn)確率對(duì)比。其中經(jīng)典深度學(xué)習(xí)網(wǎng)絡(luò)模型包括:AlexNet 模 型[14]、VGGNet(Visual Geometry Group Net)模型[15],改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型包括:LeNet-5 模型[16]、Alex-10模型[17]、R-VGGNet(Reduce-VGGNet)模型[18]、AlexNet-S6模型[19]。
1)運(yùn)行時(shí)間對(duì)比。
將其他深度學(xué)習(xí)網(wǎng)絡(luò)模型:AlexNet 模型、VGG 模型、LeNet-5 模型、Alex-10 模型、R-VGGNet 模型、AlexNet-S6 模型與本文的網(wǎng)絡(luò)模型進(jìn)行準(zhǔn)確率和運(yùn)行時(shí)間的對(duì)比,并對(duì)各實(shí)驗(yàn)結(jié)果進(jìn)行分析。不同模型的運(yùn)行時(shí)間以及準(zhǔn)確率的對(duì)比如表6所示,加粗字體為最高準(zhǔn)確率和最少運(yùn)行時(shí)間。
表6 不同模型的運(yùn)行時(shí)間及準(zhǔn)確率對(duì)比Tab.6 Comparison of running time and accuracy of different models
由表6 可以看出,在運(yùn)行10000 步后,本文模型最終達(dá)到的準(zhǔn)確率相較于經(jīng)典的AlexNet模型、ResNet模型、VGGNet模型和改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5 模型、Alex-10 模型、R-VGGNet 模型、AlexNet-S6 模型分別提高了10.36、19.14、12.22、5.72、13.65、10.04和9.66個(gè)百分點(diǎn)。在運(yùn)行時(shí)間上,本文模型運(yùn)行10000 步所需的時(shí)間為1.5 h,而與AlexNet 模型、ResNet 模型和VGGNet 模型相比,是它們運(yùn)行時(shí)間的3/5、5/14、3/10;與改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)相比,本文在運(yùn)行時(shí)間上也占有很大的優(yōu)勢(shì)。究其原因,主要是由于AlexNet 模型、ResNet 模型和VGGNet 模型擁有更深的網(wǎng)絡(luò)結(jié)構(gòu),占用大的內(nèi)存空間,計(jì)算量過大,在對(duì)壁畫數(shù)據(jù)集進(jìn)行特征提取時(shí)耗時(shí)長,而本文模型中擁有Inception結(jié)構(gòu),其優(yōu)勢(shì)在于將卷積進(jìn)行分解,在感受野相同的同時(shí),提高了計(jì)算效率,減少了網(wǎng)絡(luò)參數(shù),模型收斂更快,隨著提取特征的增加,訓(xùn)練速度逐漸加快,平衡了網(wǎng)絡(luò)的深度和寬度,在訓(xùn)練過程中不容易產(chǎn)生過擬合現(xiàn)象。
另外,改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)其參數(shù)量與本文網(wǎng)絡(luò)相比大得多,需要大數(shù)量樣本進(jìn)行訓(xùn)練,而對(duì)于本文的小樣本壁畫圖像數(shù)量,將這些模型應(yīng)用在壁畫數(shù)據(jù)集上可能存在由于樣本數(shù)量少導(dǎo)致特征提取不充分等問題,本文模型則是融合了遷移學(xué)習(xí),是對(duì)Inception-v3 進(jìn)行預(yù)訓(xùn)練之后在本文壁畫數(shù)據(jù)集上進(jìn)行訓(xùn)練,不需要訓(xùn)練特征提取部分,而且參數(shù)量較少是本文模型的一個(gè)改進(jìn)之處,在訓(xùn)練過程中進(jìn)行參數(shù)微調(diào)增強(qiáng)了網(wǎng)絡(luò)的適應(yīng)性,能深度提取到壁畫的色彩、紋理和繪畫風(fēng)格等特征,所以有較高的識(shí)別準(zhǔn)確率。
2)準(zhǔn)確率對(duì)比。
在本文所構(gòu)造壁畫數(shù)據(jù)集上,運(yùn)行時(shí)間設(shè)置為1 h,將LeNet-5 模型、Alex-10 模型、R-VGGNet 模型、AlexNet-S6 模型分別與本文的網(wǎng)絡(luò)模型進(jìn)行對(duì)比,并對(duì)各實(shí)驗(yàn)的準(zhǔn)確率、召回率和F1值進(jìn)行對(duì)比分析。在運(yùn)行時(shí)間相同時(shí),不同實(shí)驗(yàn)的準(zhǔn)確率、召回率和F1值的對(duì)比情況如圖7所示。
圖7 不同模型的各評(píng)價(jià)指標(biāo)對(duì)比Fig.7 Comparison of evaluation indices of different models
由圖7 可以看出,在運(yùn)行1 h 后,本文模型的準(zhǔn)確率為88.70%,召回率為88.62%,F(xiàn)1值為88.58%,與改進(jìn)的深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)LeNet-5 模型、Alex-10 模型、R-VGGNet 模型、AlexNet-S6模型對(duì)比,準(zhǔn)確率分別提高了7.42、12.65、22.8和9.36個(gè)百分點(diǎn),召回率分別提高了7.76、12.86、23.36和9.36個(gè)百分點(diǎn),F(xiàn)1 值分別提高了7.92、12.92、23.12 和9.52 個(gè)百分點(diǎn)。主要是本文模型根據(jù)壁畫所特有的特征進(jìn)行微調(diào),選擇適合本文數(shù)據(jù)集的網(wǎng)絡(luò)參數(shù),其他網(wǎng)絡(luò)模型由于參數(shù)量大和運(yùn)行時(shí)間長等問題,與本文模型的提取效果相比,并沒有很好地提取到壁畫豐富的特征。從上述評(píng)價(jià)指標(biāo)的對(duì)比情況可以看出,本文模型在各項(xiàng)指標(biāo)對(duì)比中都有一定的優(yōu)勢(shì),能夠更好地提取古代壁畫的特征,泛化能力強(qiáng),分類結(jié)果比較穩(wěn)定。
3)各朝代類別準(zhǔn)確率對(duì)比
實(shí)驗(yàn)最后將本文模型與改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5 模型、Alex-10模型、R-VGGNet模型、AlexNet-S6模型對(duì)各朝代類別識(shí)別準(zhǔn)確率進(jìn)行對(duì)比并分析。不同模型各類別的準(zhǔn)確率對(duì)比情況如表7所示。
表7 不同模型對(duì)各朝代類別的識(shí)別準(zhǔn)確率對(duì)比 單位:%Tab.7 Identification accuracy comparison of different models to each dynasty category unit:%
由表7 可以看出,與其他改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)相比,本文模型在大部分類別識(shí)別上的準(zhǔn)確率都比較高,各類別準(zhǔn)確率平均提升了至少7個(gè)百分點(diǎn)。從表7中的實(shí)驗(yàn)數(shù)據(jù)可以看出,對(duì)于石器時(shí)代的分類準(zhǔn)確率普遍都很高,主要由于石器時(shí)代的壁畫大多是在巖石或墻壁,壁畫內(nèi)容多為動(dòng)物形象,與其他朝代的壁畫特征對(duì)比,壁畫特征鮮明,因此實(shí)驗(yàn)中的所有模型都可以較好地識(shí)別石器時(shí)代的壁畫圖像;而在秦漢時(shí)期、隋唐時(shí)期和宋金時(shí)期,開始陸續(xù)出現(xiàn)對(duì)人物、宮殿寺觀壁畫、經(jīng)變壁畫和墓室壁畫等,但是由于色彩、服飾、建筑物和繪畫風(fēng)格相似等內(nèi)容的影響,在進(jìn)行朝代識(shí)別時(shí)特征提取比較困難,出現(xiàn)了一些錯(cuò)分示例,如圖8~圖10所示。
圖8 壁畫內(nèi)容相似錯(cuò)分示例Fig.8 Examples of misclassified murals with similar contents
圖9 宋金時(shí)期壁畫Fig.9 Murals of Song-Jin dynasties
圖10 魏晉時(shí)期壁畫Fig.10 Murals of the Wei-Jin dynasties
因壁畫文本內(nèi)容相似錯(cuò)分示例如圖8 所示。圖8 中的兩幅圖像由于壁畫內(nèi)容均為車馬圖像和菩薩形象,在進(jìn)行特征提取時(shí)均提取到相似的特征,不容易進(jìn)行朝代的區(qū)分。最終將隋唐時(shí)期的車馬圖像錯(cuò)分為宋金時(shí)期,宋金時(shí)期的菩薩圖像錯(cuò)分為隋唐時(shí)期。
因壁畫色彩和繪畫風(fēng)格相似錯(cuò)分示例如圖9 和圖10 所示。圖9中均為宋金時(shí)期壁畫,圖10中均為魏晉時(shí)期壁畫,這兩組壁畫圖像均來自敦煌石窟壁畫,色彩和繪畫風(fēng)格上相似,在進(jìn)行朝代識(shí)別時(shí)容易出錯(cuò)。
上述錯(cuò)分示例均為本文預(yù)訓(xùn)練模型最終的分類精確度在一定程度上因壁畫文本與壁畫色彩等相似導(dǎo)致在秦漢時(shí)期、隋唐時(shí)期和宋金時(shí)期的識(shí)別與分類中準(zhǔn)確率降低。盡管本文模型已經(jīng)取得了較高的準(zhǔn)確率,在石器時(shí)代、魏晉時(shí)期和明清時(shí)期的分類中效果較好,但錯(cuò)誤分類示例也說明本文模型在使用顏色直方圖與紋理直方圖對(duì)顏色、紋理特征和上下文信息提取時(shí)還存在一定的不足之處,未來需要對(duì)這三個(gè)方面的特征提取進(jìn)行進(jìn)一步的深化研究。
針對(duì)古代壁畫朝代識(shí)別分類準(zhǔn)確率較低和古代壁畫特征提取困難、壁畫文本和繪畫風(fēng)格相似等問題,對(duì)古代壁畫圖像朝代進(jìn)行識(shí)別分類,提出了一種融合遷移學(xué)習(xí)的Inception-v3模型應(yīng)用于古代壁畫朝代分類任務(wù)。本文模型利用遷移學(xué)習(xí)解決了壁畫數(shù)據(jù)集收集困難導(dǎo)致的訓(xùn)練數(shù)據(jù)有限等問題,通過數(shù)據(jù)增強(qiáng)算法對(duì)數(shù)據(jù)集進(jìn)行拓展,最終在測(cè)試集上的分類準(zhǔn)確率為88.70%,縮短了運(yùn)行時(shí)間,能夠提取壁畫圖像的顏色特征與紋理特征,并能將高層特征與藝術(shù)特征相融合。與改進(jìn)的卷積神網(wǎng)絡(luò)相比較,本文模型有穩(wěn)定的識(shí)別與分類性能、更高的準(zhǔn)確率,能夠在較短的時(shí)間內(nèi)達(dá)到10000 步,模型收斂更快,能夠更好地提取壁畫的高層特征,并能與壁畫的底層特征進(jìn)行有效的融合。
在實(shí)驗(yàn)中,由于硬件環(huán)境和部分古代壁畫圖像繪畫風(fēng)格存在差異小等問題,本文模型無法針對(duì)壁畫的色彩梯度和斷崖等進(jìn)行很好的色彩特征提取,在未來的研究中,將繼續(xù)擴(kuò)充數(shù)據(jù)集,根據(jù)壁畫自身的特點(diǎn)進(jìn)行進(jìn)一步的研究并提高分類精度,使得古壁畫朝代分類更加快速有效。