韓雨萌,寧 濤 ,段曉東,高 原
(大連民族大學 a.計算機科學與工程學院 b.大數(shù)據(jù)應用技術國家民委重點實驗室,遼寧 大連 116650)
中國是一個擁有五十六個民族的統(tǒng)一多民族國家,在長期歷史發(fā)展過程中,多民族文化共同組成了中華文化。在眾多民族文化的燦爛結晶中,民族圖案是不可或缺的寶貴非物質(zhì)文化財富,它承載了一個民族發(fā)展的歷史,是一個民族思想、歷史、藝術和美學的綜合體現(xiàn)。因此,認識和保護民族圖案具有重要意義。許多學者進行了相關研究:如劉戰(zhàn)東等,引進克隆算子對民族圖案基元進行操作,并提出一種民族圖案生成算法[1]。劉菲朵提出了一種改進的圖案分割算法SGB,實現(xiàn)了交互式民族圖案分割系統(tǒng)[2]。張志宇提出了一種基于深度學習的民族圖案識別算法,能夠提取較為高級的語義特征,且運算時間和運算精度都得到了提升[3]。
民族圖案種類繁多、樣式復雜,且其中往往蘊含著大量的深層語義,機器獲取這些深層語義也往往是十分困難的,再加上相關數(shù)據(jù)集難以收集,相關研究較少,使得進行這項研究具有重要意義。苗族蠟染圖案如圖1,侗族織錦圖案如圖2。
圖1 苗族蠟染·鳥頭蝴蝶 圖2 侗族織錦·八角花
圖像檢索研究自上世紀七十年代開始,已經(jīng)經(jīng)歷了數(shù)十年的發(fā)展過程,其發(fā)展階段從文本檢索、內(nèi)容檢索、反饋檢索一直到最近的特征檢索。傳統(tǒng)的圖像檢索即基于文本的檢索存在很多問題,最主要的就是人工標注的成本太大,以及不能充分表達圖像。隨著基于內(nèi)容的圖像檢索CBIR的提出與發(fā)展,文本檢索的缺陷不斷被避免,檢索的效率和精度也不斷得到提高。深度神經(jīng)網(wǎng)絡模型的提出和不斷迭代更新,計算機視覺領域里,各種視覺技術都得到了滋潤與發(fā)展。圖像檢索作為計算機視覺領域里的一個重要課題,也因此得以飛速發(fā)展。
VIT(Vision Transformer)是一種將transformer運用在計算機視覺領域的模型,最初被應用在圖像分類領域,這雖然不是transformer第一個被應用在計算機視覺領域所提出的模型,但因為其模型簡單且效果好,可擴展性極佳,成為了transformer在計算機視覺領域的里程碑式模型。自從神經(jīng)網(wǎng)絡模型問世以來,計算機視覺領域的重點任務得到了飛速發(fā)展。
在傳統(tǒng)的圖像檢索面臨不夠輕量級、抓取特征效率低、算法不夠簡單以及面對大型數(shù)據(jù)集檢索效果不好等問題時,開始有人將神經(jīng)網(wǎng)絡運用在圖像檢索任務中,如鄒凱提出了一種基于改進AlexNet的布料色卡圖像檢索方法,能夠滿足用戶通過所構建模型快速和準確地檢索所需布料色卡信息的要求[4]。王佳婧、金壯等提出了一種基于面部特征增強和CNN網(wǎng)絡結構的民族人臉圖像檢索方法,并實現(xiàn)了多種圖像檢索模式結果的可視化[5]。而隨著CNN網(wǎng)絡結構的提出,各種其他不同的網(wǎng)絡結構也在幾年之內(nèi)被接連提出,也接連地被應用到圖像檢索的領域,提出了一種基于CBAM-ResNet50的民國紙幣圖像檢索方法,所提取的民國紙幣圖像特征具有更強的辨識度[6]。
VIT網(wǎng)絡模型的提出,將圖像檢索研究又推向了新的高潮,Nouby等人提出的以VIT為主干網(wǎng)絡的圖像檢索方法[7],將圖像檢索的精度進一步提升。
在圖像檢索技術蓬勃發(fā)展的大背景下,民族圖案檢索也作為圖像檢索領域的一個細分專業(yè)領域,逐漸被國內(nèi)的學者關注,例如,閆龍泉提出了一種基于深度哈希的唐卡圖像檢索研究方法,利用ResNet50和SKNet結合了藏族特色藝術瑰寶唐卡的圖案特征,將唐卡圖像特征進行提取與聚合,經(jīng)過多尺度對數(shù)變換和網(wǎng)絡自主相關參數(shù)學習,使得唐卡圖像效果得到了增強[8]。溫雅利用EGBIS圖像分割法和SURF算法設計了一種民族圖案檢索系統(tǒng),能夠實現(xiàn)對民族圖案內(nèi)容的檢索功能[9]。鄒悅利用ResNet50網(wǎng)絡、字典學習與語義分析對苗族蠟染圖案進行了研究,提出了一種基于內(nèi)容的民族紋樣圖案識別檢索方法[10]。但是綜合來看,國外的諸多學者雖然也有研究民族圖案,但其只集中在本國的民族圖案,中國的民族圖案具有鮮明的特點,所以其方法多不具有借鑒性。反觀國內(nèi),由于民族圖案數(shù)據(jù)集獲取困難、特色性較強、圖案內(nèi)容復雜多樣,只針對于民族圖案的圖像檢索方法研究還比缺乏,現(xiàn)有的圖案檢索,多只專注于單民族單一種類圖案進行檢索,內(nèi)容不夠充實。
為了解決以上所述存在的問題,本文基于Vision Transformer網(wǎng)絡結構,以哈希圖像檢索為檢索框架,提出了針對于民族布藝圖案的VTDSH哈希民族布藝圖案檢索方法。
由于題材特殊,以及涉及到非物質(zhì)文化遺產(chǎn)保護和版權問題,網(wǎng)絡上民族布藝圖案數(shù)量較少,而實驗所需要的關于這些民族布藝圖案的語義和背景解釋則更少,沒有公開的大型民族布藝圖案數(shù)據(jù)集。為了進行相關實驗研究,我們自行進行了數(shù)據(jù)集的構建。
通過各種渠道獲取民族布藝圖案內(nèi)容,并學習民族背景文化以求專業(yè)地解釋各個圖像的含義、進行標注。我們獲得原始圖像約一千五百張,由于民族布藝圖案本身多被加工在布料和各種裝飾物上,且一張圖片內(nèi),往往雜糅了很多不同種類的數(shù)據(jù),不符合直接作為數(shù)據(jù)集的要求,所以我們將這一千五百張圖片進行了數(shù)據(jù)清洗、歸一化處理以及圖案內(nèi)容分析,將圖像進行了切割、填充等處理,將所有圖案全部轉換為256×256大小,并全部轉換為RGB圖像,最終得到了包含六類2 785張圖片數(shù)據(jù)集如圖3。這2 785張圖片中,包含來自苗族、侗族、瑤族三個民族的蠟染、織錦圖案,其中蠟染圖像分為魚類蠟染圖像、鳥類蠟染圖像和蝴蝶蠟染圖像,織錦圖案分為菱形織錦圖像、人形織錦圖像和八角花織錦圖像,其中魚類蠟染796張,鳥類蠟染607張,蝴蝶蠟染547張,菱形織錦477張,人形織錦60張,八角花織錦298張。
圖3 民族圖案數(shù)據(jù)集(部分)
簡單來說,Vision Transformer模型由Embedding層、Transformer Encoder和MLP Head三個模塊。
Embedding層輸入的是一個二維矩陣,即token序列[num_token,token_dim], token0-9都是向量,以VIT_B-16為例,每個token的向量長度為768,在輸入Transformer Encoder之前構成。需要加上[class]token和Position Embedding,專門用于分類,與之前從圖片中生成的tokens拼接在一起。
而Transformer Encoder則是將如圖4所示的block堆疊多次,這之中包括Layer Norm、Multi-Head Attention、Dropout和MLP。
圖4 Transformer 模組
深度監(jiān)督哈希,即Deep Supervised Hashing,是一種通過學習緊湊的二進制代碼,以求在大規(guī)模數(shù)據(jù)集上高效進行圖像檢索的哈希方法,它以CNN架構為基礎,將成對的圖像(相似、不相似)作為訓練輸入,并鼓勵每個圖像的輸出接近離散值(如±1),通過編碼圖像對的監(jiān)督信息,并同時將輸出進行正則化處理以近似所需要的離散值,新出現(xiàn)的查詢圖像將被輸出量化為二進制碼,可通過網(wǎng)絡傳播。
VIT網(wǎng)絡具有優(yōu)良的性能,其體量小,運行速度快,而DSH中所運用的網(wǎng)絡為簡單的卷積神經(jīng)網(wǎng)絡,所以將DSH中的卷積神經(jīng)網(wǎng)絡替換成VIT網(wǎng)絡,去掉VIT網(wǎng)絡的頭部,并對DSH算法進行參數(shù)調(diào)整。
整個模型的流程圖如圖5。
圖5 VTDSH模型流程圖
用VIT網(wǎng)絡對圖像的特征進行提取,利用DSH算法生成每一張圖像的哈希碼,哈希碼長度各有不同,分為16、32、64,每一張圖片的哈希碼都是不同的,用此來分辨不同的圖片,計算每一張圖片哈希碼之間的距離,距離越大說明圖片越不相似,距離約小則越相似。
本方法中采用的損失函數(shù)為改進的對比損失函數(shù),根據(jù)DSH圖像檢索方法的要求,要求相似圖像的編碼盡可能接近,而不同圖像的編碼盡可能遠。所以,設一對圖像I1,I2∈Ω,對應的網(wǎng)絡輸出為b1,b2∈{+1,-1}k,如果圖像相似,則定義y=0,y=1。將圖像的損失函數(shù)定義如下:
(1)
s.t.bj∈{+1,-1}k,j∈{1,2},α=0.1。
式中,Dh表示兩個向量之間的漢明距離,m>0為邊界閾值函數(shù),當它們的漢明距離低于邊界閾值m時,前項懲罰映射到不同二進制碼的相似圖像,后項懲罰映射到相似二進制碼的不同圖像。使用對比損失函數(shù)是為了符合本方法樣本成對的特點,并且這種損失函數(shù)在降維中時,經(jīng)過特征提取后,在特征空間中,兩個樣本仍然相似,原本不相似的樣本,經(jīng)過特征提取之后,兩個樣本仍然不相似。
實驗中,本文在自建的民族布藝圖案數(shù)據(jù)集minzudataset上劃分訓練集和測試集,訓練集2 400張,測試集385張,每張圖片重置大小為256×256,cropsize大小設置為224×224,訓練中,網(wǎng)絡的學習速率設置為0.000 1,迭代訓練150個周期,每30個周期為一批次,每一個周期迭代訓練2 400次,每一個batch設置大小為32,每30次訓練計算一下平均精度,alpha值設置為0.1,將數(shù)據(jù)集在不同的網(wǎng)絡模型。
首先使用不同的哈希算法對圖像進行對比檢索,將VIT的頭部去掉,換成其它的哈希算法,并進行對比實驗,實驗結果見表1。其中16、32、64為散列碼長度,DSH、CSQ、DPN、GreedyHash、HashNet、IDHN為深度哈希檢索框架。
表1 不同檢索方法下的平均mAP
從表1可以看出DSH在與VIT搭配時表現(xiàn)效果最好,mAP可以達到0.953。
將DSH放在不同的網(wǎng)絡結構下繼續(xù)進行檢索實驗,結果展示見表2。其中16、32、64為散列碼長度。
從表2可以看出,在使用VIT網(wǎng)絡為特征提取網(wǎng)絡時效果最好,且在VIT16和VIT32模型時效果都為0.953,VTDSH模型的mAP在散列碼位數(shù)為64時最高,比其他網(wǎng)絡模型的平均mAP值要高,可以得出該模型有效且針對于民族布藝圖案數(shù)據(jù)集有良好的圖像檢索性能。
提出了一種新的面向多民族多種圖案的深度學習哈希圖像檢索方法,與傳統(tǒng)的深度哈希圖像檢索方法相比,本文所提出的VIT-DSH方法使用VIT網(wǎng)絡結構作為主干網(wǎng)絡、DSH深度哈希為檢索框架,通過實驗證明本文的方法更快,針對于民族布藝圖案數(shù)據(jù)集檢索精度更高。