殷婕 曾子明 孫守強
關(guān)鍵詞: 移動視覺搜索; 圖像; 敦煌壁畫; 深度學習; 哈希; 語義融合
DOI:10.3969 / j.issn.1008-0821.2023.05.004
〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 05-0035-11
文化遺產(chǎn)是人類文明的載體, 文化遺產(chǎn)保護是全球高度重視的議題。敦煌石窟開鑿于前秦建元二年, 融合中外多民族千余年的歷史文化, 形成了具有中國特色的佛教藝術(shù)體系, 敦煌壁畫是全面認識中國藝術(shù)史必不可少的部分, 同時對于推動現(xiàn)代藝術(shù)創(chuàng)新具有重要意義[1] 。信息技術(shù)快速發(fā)展, 文化遺產(chǎn)數(shù)字化進程加快, 敦煌壁畫修復技術(shù)和數(shù)字化采集技術(shù)日趨成熟, 圖書館、檔案館和博物館(Li?braries, Archives and Museums, LAMs)中存儲了大量敦煌壁畫圖像資源。因其抽象的視覺表現(xiàn)形式和晦澀的圖像語義內(nèi)容, 用戶難以用準確語言描述搜索對象, 敦煌壁畫存在搜索難度大、資源利用率低等問題, 阻礙科研人員對敦煌壁畫研究工作的開展, 打擊用戶通過搜索敦煌壁畫了解敦煌文化的積極性。
移動視覺搜索(Mobile Visual Search, MVS)借助移動設(shè)備上傳實體的視覺資源, 并在網(wǎng)絡(luò)上搜索相關(guān)信息[2] 。將該項技術(shù)應用到敦煌壁畫搜索領(lǐng)域能有效提高資源獲取效率, 在壁畫實體修復與保護、數(shù)字化采集與存儲等環(huán)節(jié)的基礎(chǔ)上, 從資源利用與信息傳播角度助力敦煌文化遺產(chǎn)保護與文化傳承。移動視覺搜索強調(diào)移動泛在、實時便捷的用戶體驗, 在網(wǎng)絡(luò)覆蓋環(huán)境下對模型計算速度、信息傳輸穩(wěn)定性等技術(shù)要求更高, 其準確性、完整性、靈活性等是影響用戶體驗的核心要素[3] 。
傳統(tǒng)基于文本的圖像檢索只考慮文本關(guān)鍵詞,缺少圖像特征融合, 導致搜索準確性不高?;趦?nèi)容的圖像檢索存在語義鴻溝, 圖像高層語義和用戶檢索意圖未被考慮。目前深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutional Neural Network, DCNN)性能突出[4-6] ,能提取到敦煌壁畫更復雜和更深層的圖像特征, 語義標簽文本特征的融合能減少圖像語義鴻溝, 彌補傳統(tǒng)圖像檢索的不足。使用DCNN 提取圖像特征時, 高維的特征向量對設(shè)備的存儲能力和計算性能要求較高, 導致搜索耗時長、端到端成功率無法保證, 會嚴重影響用戶搜索體驗。在此基礎(chǔ)上引入哈希方法對高維圖像特征向量進行壓縮, 能提高計算速度和傳輸穩(wěn)定性。因此, 本文基于DCNN 和哈希方法并融合圖像語義特征構(gòu)建敦煌壁畫的移動視覺搜索模型, 為用戶提供結(jié)果準確、檢索快速、知識豐富的即時即地資源獲取服務(wù), 幫助用戶深入理解敦煌壁畫內(nèi)涵。
1相關(guān)研究
1.1敦煌壁畫
敦煌壁畫融合東西方特色, 蘊藏豐富的經(jīng)濟、政治、宗教和文化內(nèi)涵, 是研究古代歷史最有價值的文化遺產(chǎn)之一。學者以敦煌壁畫為對象, 研究古代絲綢之路上的文化交融、歷史變遷、禮儀功能、人與自然、宗教信仰等; 從線條語言、色彩語言、人物形象、圖像敘事、情感表達等角度探討敦煌壁畫對現(xiàn)代服裝設(shè)計、建筑設(shè)計、構(gòu)圖與美術(shù)創(chuàng)作、影視動畫創(chuàng)作等領(lǐng)域的影響與啟發(fā)。
敦煌壁畫是數(shù)字人文領(lǐng)域的重點研究對象。
“數(shù)字人文” 起源于“人文計算”[7] , 涉及多學科有機融合, 強調(diào)對計算機科學和人文社會科學交叉領(lǐng)域的研究創(chuàng)新以及數(shù)字技術(shù)在文化傳播中的應用, 引發(fā)了傳統(tǒng)人文研究范式的變革, 推動了人文社會科學研究的進步[8] 。王曉光等[9] 搭建敦煌壁畫語義框架并構(gòu)建領(lǐng)域詞匯, 解決圖像檢索中的語義鴻溝問題。Zeng Z 等[10] 使用視覺詞袋方法提取壁畫圖像特征并用支持向量機進行圖像分類, 探討敦煌壁畫的主題分布特點和朝代演變規(guī)律。WangH 等[11] 研究了基于生成對抗網(wǎng)絡(luò)的敦煌壁畫修復技術(shù), 通過學習退化和恢復的壁畫紋理之間的關(guān)聯(lián), 實現(xiàn)壁畫的自動修復。李清泉等[12] 提出了基于線描圖稀疏編碼的壁畫修復算法。陳永等[13] 改進曲率擴散算法, 結(jié)合自適應策略研究壁畫的修復方法。Fu X 等[14] 設(shè)計了基于虛擬現(xiàn)實的RestoreVR系統(tǒng), 讓用戶在洞窟的數(shù)字游覽中體驗敦煌壁畫復原?!皵?shù)字敦煌” 項目利用科學技術(shù)完成對敦煌文化遺產(chǎn)的數(shù)字化采集、處理和保存[15],通過構(gòu)建多模態(tài)互聯(lián)的敦煌數(shù)字化資源庫在世界范圍共享[16] 。但是, 如何高效、便捷搜索敦煌壁畫提高文化遺產(chǎn)資源利用率的研究還不夠充分。
1.2移動視覺搜索
移動視覺搜索由David M C 等[17] 于2009年首次提出, 關(guān)鍵技術(shù)涉及關(guān)鍵點檢測、特征提取、特征表示、特征索引等[18] ; 被廣泛應用于植物、雜志、購物、旅游、地標、博物館、圖書館等多個領(lǐng)域[19] 。圖博檔中存儲的大量非結(jié)構(gòu)化數(shù)據(jù)資源于數(shù)字人文研究而言具有極高價值[20] 。然而資源利用效率低下是當今圖博檔建設(shè)面臨的主要問題之一, 研究移動視覺搜索在該領(lǐng)域的應用, 優(yōu)化資源獲取服務(wù)是解決此問題的有效途徑[21] 。
在數(shù)字人文領(lǐng)域視覺資源組織中, 移動視覺搜索作為核心技術(shù), 提高了圖書館資源組織效率和知識服務(wù)水平[22] 。在體系結(jié)構(gòu)與服務(wù)模式研究方面,張玥等[23] 提出了圖書館文旅融合發(fā)展的MVS 解決方案。韓璽等[24] 融合用戶、資源、服務(wù)、時空、技術(shù)、線索要素, 設(shè)計了基于情景感知的MVS 服務(wù)。李晨暉等[25] 以文化遺產(chǎn)數(shù)字化為基礎(chǔ), 對數(shù)字圖書館MVS 機制建設(shè)提出了新的見解。曾子明等[26] 構(gòu)建模型為讀者提供情景化服務(wù), 提升了文化遺產(chǎn)領(lǐng)域知識服務(wù)的智慧化水平; 在模型中引入用戶畫像概念, 解決用戶搜索過程中的個性化需求滿足問題[27] 。李默[28] 討論了將深度學習應用到智慧圖書館MVS 的可行性, 提出了基于深度學習的服務(wù)模式。董晶等[29] 基于該技術(shù)構(gòu)建了智慧公共文化服務(wù)模型。在技術(shù)研究方面, 秦思琪等[30] 從提取圖像語義特征和提高搜索速度出發(fā), 將哈希編碼嵌入卷積神經(jīng)網(wǎng)絡(luò)進行端到端的圖像特征提取和壓縮, 實現(xiàn)了數(shù)字人文領(lǐng)域資源的圖像檢索, 但該方法缺乏資源針對性且搜索性能有待提升。曾子明等[31] 搭建了基于視覺詞袋(Bag-of-Words, BoW)的MVS 模型, 但該模型使用機器學習方法提取圖像特征, 敦煌壁畫的深層特征和高層語義未被考慮,且搜索性能仍有提升空間。已有研究聚焦在體系結(jié)構(gòu)與服務(wù)模式的探討, 而技術(shù)研究主要圍繞普適性的搜索方法或模型框架展開, 欠缺對領(lǐng)域資源特征的考慮, 且搜索性能亟需提升。
1.3DCNN 和哈希方法
隨著計算能力的提高, 深度學習在圖像特征提取上顯示出了優(yōu)越的性能。AlexNet[32] 、VGG16[33] 、VGG19[34] 、ResNet[35] 、DenseNet[36] 、Inception[37] 、InceptionResNet[38] 、Xception[39] 、NasNet[40] 、Effi?cientNet[41] 等多個DCNN 算法被相繼提出。在應用層面, Li W 等[42] 設(shè)計了基于DCNN 的車位檢測方法, 對于從不同角度觀察到的不同形狀的停車位,根據(jù)入口線的類型、位置、長度和方向等特征推斷出完整的停車位。Nandagopal S 等[43] 基于關(guān)鍵點提取和DCNN 設(shè)計了人體姿勢估計模型, 可用于多場景的人體動作識別。Islam M S 等[44] 提出了一種基于DenseNet 的新冠肺炎圖像識別方法, 從胸部X 光圖像中檢測新冠肺炎、普通肺炎和正常病例。哈希方法是一種輸出特定長度二進制編碼的加密算法, 現(xiàn)在多被用于區(qū)塊鏈[45] 、云計算[46] 等場景。除用于加密傳輸外, 也有可直接用于相似圖像計算的感知哈希、均值哈希和差異哈希, 以及用于相似文本計算的SimHash[47] 等。
在移動視覺搜索的圖像特征提取過程中, 部分學者將深度學習和哈希方法結(jié)合, 同時實現(xiàn)特征的精確提取和快速計算。主要有先使用算法完成圖像特征提取再進行哈希壓縮[48-49],以及在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中嵌入隱藏層構(gòu)造端到端的圖像特征二進制編碼輸出模型[50-51]兩種模式。前者的特征提取和壓縮過程相對獨立, 方便對各模塊進行單獨優(yōu)化, 在不同數(shù)據(jù)集上尋求更好的效果; 后者將圖像處理過程封裝, 能充分利用深度學習機制的優(yōu)勢, 但泛化能力相對較弱。綜上, 本文提出基于深度學習和哈希方法的語義融合MVS 模型, 同時構(gòu)建包含人工語義標注的敦煌壁畫圖像數(shù)據(jù)集, 以驗證該模型搜索敦煌壁畫的優(yōu)越性。
2基于DCNN 和哈希方法的移動視覺搜索模型構(gòu)建
基于DCNN 和哈希方法, 融合圖像語義特征,構(gòu)建敦煌壁畫移動視覺搜索模型, 如圖1 所示, 實現(xiàn)敦煌壁畫的高效便捷搜索。本文創(chuàng)新點如下: ①技術(shù)層面。考慮資源特征和用戶需求, 構(gòu)建了全新的移動視覺搜索模型; 結(jié)合深度學習和哈希方法,在特征提取準確性和模型計算效率上改進傳統(tǒng)基于機器學習方法的移動視覺搜索; 此外, 通過融合語義特征并對搜索結(jié)果進行重排序, 解決圖像搜索的語義鴻溝問題, 返回更貼近用戶檢索意圖的可視化結(jié)果; ②應用層面。將移動視覺搜索的理念應用到敦煌壁畫的資源獲取, 打破傳統(tǒng)信息檢索的時空限制, 提高敦煌壁畫資源的利用率, 亦可將該模型用于數(shù)字人文領(lǐng)域的其他視覺資源檢索, 促進數(shù)字人文研究與文化交流。
基于標準化架構(gòu)[18] , 模型搭建具體步驟為:①資源庫構(gòu)建: 向系統(tǒng)上傳敦煌壁畫原始圖像, 根據(jù)壁畫內(nèi)容和主題進行人工語義標注, 構(gòu)建敦煌壁畫圖像庫和語義庫; ②圖像特征提?。?用戶于移動端上傳待檢索圖像并傳輸至云服務(wù)器, 模型在服務(wù)器端使用DCNN 完成圖像特征提取; ③圖像特征壓縮: 使用哈希算法將特征向量壓縮為哈希編碼,計算漢明距離與資源庫中的圖像進行相似圖像匹配, 鎖定top-1 相似圖像; ④語義特征融合: 使用SimHash 處理語義標簽, 融合圖文特征, 計算top-1圖文特征與資源庫中其余圖文特征的漢明距離進行二次匹配和重排序, 得到最相似的前16 個圖文組合, 最后將搜索結(jié)果可視化并返回用戶端。
2.1圖像特征提取
當前移動視覺搜索模型普遍采用機器學習方法提取圖像特征, 如SIFT(Scale-Invariant Feature Trans?form)、SURF(Speeded -Up Robust Features)、HSV(Hue, Saturation, Value)、HOG(Histogram of Orien?ted Gradients)等。此類方法提取到的特征維度不高,能較好滿足移動視覺搜索對設(shè)備性能的要求, 但基于機器學習的圖像特征提取僅能檢測圖像局部特征點或淺層的全局特征。在計算機視覺領(lǐng)域, 圖像的顏色、紋理、幾何形狀等屬于全局特征, 容易受到拍攝環(huán)境和拍攝角度的影響, 可以通過HSV、HOG等方法實現(xiàn)提取, 若僅提取敦煌壁畫的全局特征,用戶實地參觀時, 通過拍攝上傳的方式進行搜索的效果會大打折扣; 局部特征是在圖像內(nèi)部選擇能夠代表圖像主要內(nèi)容的特征點, 這些特征點可以在方向、大小上進行調(diào)整, 提高了特征匹配的靈活性和魯棒性, SIFT、SURF 等是使用較多的局部特征提取方法, 但對于富含語義內(nèi)容的敦煌壁畫而言, 語義鴻溝問題難以解決。
2012年, DCNN 被首次用于ImageNet 的圖像分類, 同時AlexNet 算法模型被提出[32] 。此后的模型多是基于AlexNet 從增加神經(jīng)網(wǎng)絡(luò)的深度、寬度、優(yōu)化特征傳輸效率等維度去優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 實現(xiàn)模型精度和計算效率的提高。VGG16[33]和VGG19[34] 主要通過增加網(wǎng)絡(luò)的深度來提高模型性能, 將AlexNet 中較大卷積核替換成堆疊的3×3卷積核, 增加網(wǎng)絡(luò)層數(shù)的同時減少參數(shù)量, VGG19比VGG16 更深, 特征提取效果更好。ResNet 從特征利用角度切入, 首次引入殘差連接來優(yōu)化全連接導致的信息丟失現(xiàn)象[35] 。DenseNet 延續(xù)了ResNet的思想, 每個卷積層與其他所有卷積層通過前饋方式連接, 傳統(tǒng)L 層的卷積網(wǎng)絡(luò)有L 個連接, 在DenseNet 中有L(L+1) / 2 個連接, 從而加強特征傳遞并減輕因為網(wǎng)絡(luò)太深帶來的梯度消失問題[36] 。在增加寬度方面, Inception 將不同數(shù)量的卷積和池化組合成一個更寬的模塊, 整個網(wǎng)絡(luò)由多個不同的模塊以稀疏連接的方式堆疊加深[37] 。InceptionRes?net 在Inception 基礎(chǔ)上引入殘差結(jié)構(gòu), ResNet 提供了有效地將上一層的特征匯總到下一層的快捷鏈接, 從而最大限度地利用這些特征并獲得更高的精度[38] 。Xception 將原Inception 的模塊更換成深度可分離卷積, 以此來減少模型參數(shù), 提升模型計算效率, 同時使用殘差連接來加快模型收斂, 提高準確率[39] 。NasNet 基本思想與Inception 類似, 但在細節(jié)結(jié)構(gòu)上更復雜, 在ImageNet 上圖像分類的準確率優(yōu)于所有的Inception 模型, 且支持調(diào)整模型大小來實現(xiàn)準確率和計算量的平衡[40] 。此外, Ef?ficientNet 同時增加神經(jīng)網(wǎng)絡(luò)的深度、寬度和分辨率, 使用縮放系數(shù)實現(xiàn)這3 個維度在不同數(shù)據(jù)集上的平衡以達到最優(yōu)效果[41] 。
模型在圖像特征提取模塊采用深度卷積神經(jīng)網(wǎng)絡(luò)提取敦煌壁畫更深層和復雜的圖像特征, 并綜合考慮底層特征和高層語義。由于敦煌壁畫在線條、構(gòu)圖、顏色等繪制元素上呈現(xiàn)出豐富的視覺特征以及具有價值極高的抽象語義特征, 實驗部分探索不同優(yōu)化方式的DCNN 在敦煌壁畫圖像上的表現(xiàn)差異, 在更深的網(wǎng)絡(luò)上選擇VGG19, 更寬的網(wǎng)絡(luò)上選擇Inception、InceptionResnet、Xception 和NAS?Net, 在優(yōu)化特征傳遞效率方面選擇具有代表性的DenseNet, 在多維度優(yōu)化上選擇最新的Efficient?Net; 并選出在敦煌壁畫MVS 模型中性能最優(yōu)的算法。如圖2 所示, 使用DCNN 提取敦煌壁畫圖像特征時, 輸入原始圖像后, 首先在壁畫圖像上移動卷積核并執(zhí)行計算, 得到一組平行的特征圖, 即卷積層; 隨后進行池化操作, 對特征圖進行降采樣, 保留重要的壁畫特征信息, 減小圖像空間大小, 能減少過擬合率, 加快計算速度; 最后在經(jīng)過多個卷積層和池化層之后, 通過全連接層進行輸出, 得到敦煌壁畫圖像的特征表示。
2.2圖像特征壓縮
3實驗方法與結(jié)果分析
3.1數(shù)據(jù)收集與處理
1)本文從《中國敦煌壁畫全集》[54]上收集敦煌壁畫圖像, 為保證樣本平衡性, 從北魏到西夏元10個時期中各抽?。保玻?張壁畫, 構(gòu)建總數(shù)為1200張的圖像數(shù)據(jù)集。
2)根據(jù)敦煌壁畫內(nèi)容和主題, 人工添加語義標簽構(gòu)建文本數(shù)據(jù)集, 邀請5位熟悉敦煌壁畫的研究人員從壁畫的描述中提取標簽進行語義標注, 其中4位研究人員被分成兩組并行完成圖像初始標注, 1位博士負責核查兩組標注的最終結(jié)果。語義標簽主要集中在“菩薩” “飛天” “觀音” “說法”“藻井”“文殊”“觀無量壽經(jīng)變”“彌勒經(jīng)變”“維摩詰經(jīng)變” “天王” “力士” 等。不同朝代的敦煌壁畫圖像前20個高頻主題的語義標簽如表1所示。
3.2實驗環(huán)境與實驗設(shè)計
實驗環(huán)境為Window10, 64 位操作系統(tǒng), 32G 運行內(nèi)存, RTX3060-6G 獨顯, AMD Ryzen 7 5800Hwith Radeon Graphics 3 20 GHz 處理器, Pycharm+Anaconda, Python3 9, 加載Scikit-Learn, OpenCV-3 4 2 16 庫等。設(shè)計兩個實驗: 實驗一, 篩選圖像特征提取算法與圖像特征壓縮算法的最優(yōu)組合; 實驗二, 在實驗一的基礎(chǔ)上進行模型對比, 并驗證模型搜索效果。選擇平均搜索時間、特征存儲空間作為無序搜索結(jié)果評價指標; 選擇P@ k(k = 4、8、16)、R@ k(k= 4、8、16)、mAP 作為有序搜索結(jié)果評價指標。P@ k 用于衡量前k 個搜索結(jié)果的準確率, R@ k 用于衡量前k 個搜索結(jié)果的召回率,mAP 可綜合反映模型的平均搜索性能[30] 。
3.3基于DCNN 和哈希方法的相似圖像搜索
3.3.1最優(yōu)算法組合選取
實驗一使用DenseNet、EfficientNet、Inception、InceptionResnet、NASNet、VGG19、Xception 提取敦煌壁畫圖像特征; 使用MD5、SHA2 壓縮圖像特征, MD5 將高維圖像特征向量壓縮至128 位的哈希編碼(MD5-128), SHA2 將向量壓縮至216 位(SHA2-256)和512 位(SHA2-512); 并使用Sim?Hash 算法提取語義標簽的文本特征進行圖文特征融合與重排序。如圖3 所示, MD5 算法與各DCNN算法組合的平均搜索性能顯著優(yōu)于使用SHA2 壓縮圖像特征的各算法組合, 其中MD5 與EfficientNet組合時模型平均搜索性能最好(mAP =0.6993)。如圖4 所示, 隨著壓縮后圖像特征維度的升高, 模型搜索的準確率和召回率均有下降, 最終導致模型平均搜索性能的下降。一方面, 特征編碼的維度越高, 稀疏性越強; 另一方面, 在壓縮過程中SHA2比MD5 信息丟失更多, 影響特征區(qū)分和相似度計算。MD5 具有易計算、抗修改碰撞等特點[55] , 在敦煌壁畫圖像數(shù)據(jù)集上表現(xiàn)更好。
模型選用EfficientNet 提取敦煌壁畫圖像特征,再用MD5 將圖像特征壓縮為128 位的哈希編碼,此時模型在存儲空間占用(0.3MB, 如圖4 所示)和平均搜索時間(0.56s, 如圖5 所示)上均呈現(xiàn)出顯著優(yōu)勢。EfficientNet在進行模型縮放時, 同時提升了神經(jīng)網(wǎng)絡(luò)的深度、寬度和分辨率, 并通過平衡這3 種縮放以實現(xiàn)更好的效果, 使得模型在保證性能的同時能提取到敦煌壁畫圖像更深層且復雜的特征, 相比其他DCNN 算法在敦煌壁畫圖像特征提取上具有更高的精度和效率。
3.3.2模型效果驗證
實驗二進行模型對比實驗: ①與未使用Sim?Hash 提取語義特征的Efficient+MD5模型對比, 突出語義融合效果; ②與僅使用EfficientNet 提取圖像特征、不進行哈希壓縮、未融合語義特征的相似圖像搜索模型對比, 體現(xiàn)特征壓縮效果; ③與敦煌壁畫移動視覺搜索領(lǐng)域最新的BoW_SIFT(num_word=1000)[31] 模型對比, 驗證模型性能提升。如圖6 所示, 將EfficientNet 用于圖像特征提取后,用MD5算法壓縮圖像特征, 并融合SimHash 提取的語義標簽的文本特征時, 模型搜索性能(mAP =0.6993)顯著高于①未使用Simhash 進行語義融合的模型(mAP = 0.2813); ②僅使用EfficientNet 提取圖像特征的模型(mAP =0.3576); ③當前最新的BoW_SIFT 模型(mAP = 0.2866)。從模型搭建來看, 使用EfficientNet 深度學習方法提取敦煌壁畫圖像特征時, 相比于基于BoW_SIFT 機器學習方法的模型的準確率和召回率有明顯提升, mAP 值提高0.0710; 但同時在存儲空間占用和平均搜索時間上有顯著升高, 該問題在引入MD5 算法進行特征壓縮后得到解決, 且存儲空間占用遠低于原BoW_SIFT 模型, 如圖7 所示。融合語義特征后,模型搜索時間略微增加, 但對用戶搜索體驗影響不大; 而此時模型搜索性能較其他組合優(yōu)勢十分顯著, mAP 值比僅考慮圖像特征時提升0.4180, 說明敦煌壁畫圖像搜索的語義鴻溝問題得到有效改善。從整體來看, 該模型mAP 值為0.6993、存儲空間占用0.3MB、平均搜索時間0.56s, 在搜索性能和空間占用上顯著優(yōu)于BoW_SIFT模型, 本模型在同類模型中的優(yōu)越性得到驗證, 能有效實現(xiàn)敦煌壁畫的移動視覺搜索。
因此, 模型首先使用EfficientNet 提取敦煌壁畫圖像特征, 然后使用MD5將圖像特征壓縮為128維的圖像特征向量; 同時用SimHash 提取語義標簽的文本特征, 表示為128 維的文本特征向量。在輸入圖像進行搜索時, 根據(jù)圖像特征的漢明距離進行相似圖像匹配, 如圖8(a)所示; 提?。簦铮穑?返回結(jié)果, 拼接圖像和文本特征, 再次計算漢明距離,返回最相似的前16 項搜索結(jié)果并輸出, 如圖8(b)所示。
在通過相似圖像匹配得到的搜索結(jié)果中, 僅能精準匹配最相似圖像, 返回的其余圖像與目標圖像關(guān)聯(lián)不大。如圖8(a)所示, 輸入待搜索圖像, 返回一組在圖像底層特征上相似的壁畫圖像, 除了有體現(xiàn)“供養(yǎng)人” 的top-1 相似圖像外, 還有體現(xiàn)“飛天” (result 9)、“菩薩” (result 10)、“藻井”(result 14)等元素的壁畫圖像。在融合語義特征后, 向模型輸入目標圖像能同時返回視覺特征相似圖像和語義特征相似圖像, 并加以語義標簽輔助用戶對壁畫的理解。如圖8(b)所示, 輸入未知語義的待搜索圖像, 模型返回與目標圖像視覺上最相似的圖像和語義標簽“供養(yǎng)人”, 同時返回資源庫中表示“供養(yǎng)人” 的其他相似圖像, 這些圖像具有不同的視覺表現(xiàn)形式, 繪制于不同的朝代, 分布在不同的洞窟。使用該模型進行搜索, 用戶不僅能了解到目標圖像的相關(guān)知識, 還能獲取具有相似語義的圖像資源, 能輔助有關(guān)敦煌壁畫相同語義本體的朝代演變研究和關(guān)于不同洞窟內(nèi)具有相同語義的敦煌壁畫的差異研究, 對于加深用戶對敦煌壁畫的理解以及提高用戶進一步探索敦煌壁畫的興趣具有重要價值。
4結(jié)語
隨著文化遺產(chǎn)數(shù)字化進程的加快和數(shù)字人文研究的不斷深入, 圖博檔中存儲的海量文化遺產(chǎn)數(shù)字資源亟需高效便捷的獲取方式?;诖?, 本文構(gòu)建基于EfficientNet 圖像特征提取、MD5 圖像特征壓縮和SimHash 語義特征融合的敦煌壁畫移動視覺搜索模型, 提供移動泛在的敦煌文化遺產(chǎn)數(shù)字資源智慧搜索服務(wù), 滿足科研人員和普通用戶的資源獲取需求。用戶僅需借助手機、平板、筆記本等移動智能設(shè)備即可實現(xiàn)搜索: 使用移動智能設(shè)備的攝像頭拍攝敦煌壁畫實景圖片或使用網(wǎng)絡(luò)上獲取的敦煌壁畫圖片, 于5G網(wǎng)絡(luò)環(huán)境下將圖像傳輸至云服務(wù)器, 在后臺進行圖像特征提取和壓縮, 完成特征匹配和相似度計算, 返回相似圖像和語義描述, 再將搜索結(jié)果傳輸至用戶端, 實現(xiàn)敦煌壁畫的移動視覺搜索。
后續(xù)研究可以從以下角度進行優(yōu)化: ①結(jié)合用戶實驗研究對本文提出的模型搜索效果進行進一步檢驗和分析, 從用戶角度優(yōu)化該模型; ②研究推薦算法與移動視覺搜索的結(jié)合, 采集用戶歷史行為數(shù)據(jù), 搭建用戶畫像, 感知移動環(huán)境情景要素, 為用戶提供個性化的搜索與推薦一體化服務(wù); ③關(guān)聯(lián)敦煌壁畫圖像與圖博檔中存儲的文獻、古籍、音頻、視頻、3D 模型等多模態(tài)資源, 實現(xiàn)敦煌文化遺產(chǎn)數(shù)字資源的跨模態(tài)搜索, 為用戶提供豐富多元的信息, 深化用戶對敦煌文化的感知和理解。