孫 潔, 丁笑君, 杜 磊, 李秦曼, 鄒奉元
(1. 浙江理工大學 服裝學院, 浙江 杭州 310018; 2. 浙江傳媒學院 設計藝術學院, 浙江 杭州 310018; 3. 浙江省服裝工程技術研究中心, 浙江 杭州 310018; 4. 絲綢文化傳承與產(chǎn)品設計數(shù)字化技術文化和旅游部重點實驗室, 浙江 杭州 310018)
織物是服裝的三大物態(tài)構成要素之一,織物圖像的分類、識別與檢索技術在紡織服裝行業(yè)數(shù)字化設計與智能制造領域發(fā)揮著重要作用[1-2]。隨著織物圖像數(shù)量的迅速增加,如何合理地組織、表達織物圖像信息,使用戶能夠快速、準確地從海量圖像數(shù)據(jù)集中找到目標圖像是一個亟待解決的問題[3]。
基于內(nèi)容的圖像檢索(CBIR)通過圖像像素相似性匹配實現(xiàn)檢索。在CBIR系統(tǒng)中,圖像淺層視覺特征經(jīng)參數(shù)化處理轉(zhuǎn)化為特征向量,從而實現(xiàn)計算機對圖像信息的讀取。目前,已有多種圖像淺層視覺特征提取方法被用于圖像檢索,如顏色、形狀及紋理特征[4]、空間包絡特征(GIST)[5-6]等基于圖像全局特征的提取方法,詞袋模型(BoW)[7]、尺度不變特征變換(SIFT)[5]等基于圖像局部特征的提取方法。特征提取后需通過歐氏距離或余弦相似度函數(shù)[6,8]等非柔性距離函數(shù)進行圖像相似度搜索,而固定的剛性相似函數(shù)或距離函數(shù),并不是最適合的復雜視覺圖像檢索任務的距離計算方法。
從計算機提取的淺層視覺特征到大腦中形成的高級人類感知是一個復雜的映射關系,即由淺層視覺特征到高層感知判斷的過程存在“語義鴻溝”。深度學習被認為是當下克服“語義鴻溝”的重要途徑。該方法通過多個層次的數(shù)據(jù)抽取進行特征學習,并允許系統(tǒng)學習復雜的函數(shù)[1,3,9],進而實現(xiàn)語義概念的抽象表達[10]。近年來,學者們提出了大量的深度學習技術。其中,深度卷積神經(jīng)網(wǎng)絡(CNN)在計算機視覺和圖像識別的各種任務和競爭中都表現(xiàn)出了較優(yōu)的性能[11]。在CNN分類識別任務基礎上實現(xiàn)基于語義的圖像檢索(SBIR)已成為圖像檢索的發(fā)展趨勢。
織物圖像檢索的關鍵是設計適合的、高效的圖像特征提取方法,并能夠在此基礎上構建具有適用性的分類與識別模型[11-12]。針對上述問題,本文分別從織物圖像淺層視覺特征提取、深度特征學習 2個方面梳理并討論其在織物圖像檢索中的適用性,并從高層語義屬性、網(wǎng)絡結(jié)構設計與距離尺度學習3個方面論述了檢索模型的優(yōu)化路徑,最后基于現(xiàn)狀展望了該領域未來的研究重點。
圖像淺層視覺特征主要關注圖像的顏色、紋理、形態(tài)等視覺特征以及GIST、SIFT等手工提取特征。
1.1.1 顏色特征
顏色特征是織物圖像識別過程中最直觀的視覺特征。顏色特征提取主要有顏色矩(CM)[6]、顏色直方圖(CH)[2,13-14]及顏色相關圖[15]等方法。顏色直方圖可用于描述不同色彩在整幅圖像中所占的比例,但并不能捕捉到顏色區(qū)域的空間關系[6]。顏色相關圖和顏色矩是基于圖像顏色全局分布的顏色索引方法,具有特征向量維數(shù)低、計算次數(shù)少等優(yōu)點[6],但對圖像的尺寸與空間信息不敏感。故顏色特征在圖像分類、識別與檢索中一般不單獨使用,需要與其他特征結(jié)合使用。
1.1.2 紋理特征
紋理特征旨在捕獲圖像中的表面細粒度和重復模式,描述圖像中對象的表面性質(zhì),對區(qū)域內(nèi)部灰度變化進行量化[16]。
在織物特征的表達中,紋理特征對織物表面肌理[14,17]、重復周期[17-18]、疵點[19]等具有較好的表征效果。Jing等[17]采用灰度均值、灰度方差和灰度共生矩陣等紋理特征分析色織物的意匠圖和重復特征,識別色織物的組織模式。Yildiz[19]采用局部二值(LBP)特征表征起絨織物表面疵點特性,實現(xiàn)織物疵點檢測。但以上2個單獨使用紋理特征進行織物特征表征的案例中,樣本均為純色織物圖像,對于色差大、復雜程度高的織物圖案,還需融合其他特征使用。
1.1.3 形狀特征
形狀特征提取通常需在圖像分割與輪廓提取后進行。形狀特征提取方法可分為2類:基于邊界和基于區(qū)域[6,20]。傅里葉描述符[21]和不變矩[2,22-23]是形狀特征的2種常用表示。傅里葉描述符使用傅里葉變換邊界進行形狀描述。不變矩的主要目的是利用變換不變的區(qū)域內(nèi)像素點的矩進行形狀描述。形狀特征在多色織物圖案元素的識別問題中具有重要作用,在檢索運用中,形狀特征也需要與其他特征融合使用[22-23]。
如上所述,顏色、紋理和形狀特征是圖像的淺層視覺特征,每一類特征在單獨使用時均存在缺陷。結(jié)合2個及以上的特征,可達到更好的檢索效果[6,22]:Kuo等[2]采用顏色直方圖和重復單元圖像的Hu不變矩構建波點印花織物的檢索數(shù)據(jù)庫;向忠等[24]提出了一種基于邊緣特征和顏色特征的織物花型檢索算法,具有平移、縮放、旋轉(zhuǎn)不變性,平均查準率可達93.17%。
以上研究僅對織物的淺層視覺特征進行相似匹配計算,并未就織物高層屬性進行識別。有學者嘗試采用淺層視覺特征構建分類模型,探索織物高層語義識別問題。
Suciati等[14]提出一種基于分形紋理特征與HSV顏色特征的織物圖像檢索系統(tǒng),對“batik”和非“batik”2種織物表面肌理進行識別,檢索召回率分別為94%和92%。Chen等[13]提取了織物顏色、紋理等特征,使用支持向量回歸(SVR)來構建特征與情感語義標簽之間的映射函數(shù),分別對8、16個屬性進行識別,平均檢索召回率高于80%。Jing等[6]提出了基于顏色矩和GIST特征的織物紋樣檢索算法,對5類織物紋樣進行檢索,平均檢索精度達86.3%,平均召回率達53.3%。Umam等[22]采用三維特征提取方法(CVQ)提取顏色特征以及Hu不變矩識別Madurese蠟染織物的26類設計母題,結(jié)果顯示基于顏色特征的平均檢索精度僅為46.72%,基于形狀特征的平均檢索精度為80%??梢钥吹?,隨著語義識別屬性的增多,檢索效率明顯下降。
以上涉及的織物淺層視覺特征提取文獻比較如表1所示??梢?,手工特征提取方法在小樣本數(shù)據(jù)集中具有一定的適用性,但由于該方法依賴人工標注,未在大樣本圖像檢索中得到普及。此外,淺層視覺特征在高層語義識別問題中表現(xiàn)并不理想,特別是當語義屬性數(shù)量增加時,檢索效果明顯不佳。
表1 織物淺層視覺特征提取文獻比較Tab.1 Comparison of literatures on extraction of superficial features of fabrics
圖像深度特征學習旨在將研究對象的語義信息表示為稠密低維實值向量,在低維空間中計算語義聯(lián)系。深度卷積神經(jīng)網(wǎng)絡在圖像特征學習方面已經(jīng)被證明優(yōu)于傳統(tǒng)手工提取特征[25]。
卷積神經(jīng)網(wǎng)絡模型是一種典型的監(jiān)督學習模型,是LeCun于1989年在梯度反向傳播算法(BP)的基礎上提出的一種包含卷積層的深度神經(jīng)網(wǎng)絡[26],即LeNet-5 CNN模型,如圖1所示。該模型由2部分組成:一是卷積層和池化層;二是全連接層和隱含層。
圖1 LeNet-5 CNN模型結(jié)構Fig.1 LeNet-5 CNN model structure
在服裝及織物圖像的分類、識別與檢索問題中常采用在LeNet-5模型基礎上改進的AlexNet和VGGnet模型。其中AlexNet克服了LeNet-5模型的過擬合問題,采用11×11的巨大卷積核進行降維處理,但快速縮小也意味著可能丟失更多的細節(jié)特征[27];VGGnet在卷積層的結(jié)構中采用多個3×3的卷積核代替大卷積核,并在多個卷積層后加入池化層,以保證網(wǎng)絡深度[28]。
通過CNN圖像特征學習,實現(xiàn)圖像識別與檢索的基本思路如圖2所示。通過CNN分類過程將圖像分配到不同的預設語義標簽上,從而構建圖像與語義信息的映射關系。這一過程通常提取圖像的全局特征,當圖像中包含多個感興趣對象/區(qū)域時,首先需要利用圖像淺層視覺特征進行區(qū)域分割,實現(xiàn)目標檢測;然后,通過CNN提取特征,經(jīng)支持向量機(SVM)等分類器,完成由圖像輸入到語義輸出的識別過程。
圖2 基于CNN的織物圖像語義識別框架Fig.2 Framework of fabric SBIR based on CNN
CNN網(wǎng)絡特征提取過程中,卷積窗口在圖像上滑動,將窗口內(nèi)的元素進行卷積操作。遍歷過程中產(chǎn)生的所有的輸出按位置組成了特征圖,而每一層需要設計多少特征圖取決于需要學習多少種特征。特征圖數(shù)量設計的好壞直接影響著最終的網(wǎng)絡性能。如何科學計算特征圖數(shù)目,目前還沒有形成詳細的理論指導,大都依賴實驗和經(jīng)驗決定。
CNN分類過程中,不同圖像數(shù)據(jù)集具有的圖像標簽數(shù)是不同的,而網(wǎng)絡最后一層全連接層的輸出個數(shù)需要與圖像標簽的數(shù)目一致。故在網(wǎng)絡結(jié)構中,若全連接層的輸出個數(shù)能夠根據(jù)數(shù)據(jù)集的標簽數(shù)變化,將有效提升模型的適用范圍。為此,Wan等[29]嘗試在AlexNet結(jié)構上,將第2層全連接層的輸出個數(shù)設置為可變,使得第1層全連接層的輸出個數(shù)到第3層全連接層的輸出個數(shù)的改變可以相對平滑,最后一層全連接層能平滑擬合不同的標簽數(shù)量。
研究表明經(jīng)過預處理的大規(guī)模數(shù)據(jù)集可直接用于SBIR任務特征提取[29]??蓮?個方面提升織物檢索模型的精度:一是語義分類標簽的合理設計;二是CNN的結(jié)構優(yōu)化;三是距離尺度學習。
CNN作為一種有監(jiān)督的機器學習模型,需要預先進行語義分類標簽設定。標簽的設計一方面需要全面反映織物的固有屬性,另一方面需適應機器學習。人工標注方法是目前常用的圖像標注方法[30],主要通過專家知識[13,22,30]或用戶使用頻數(shù)排序[1]來確定標簽。但人工標注對大樣本數(shù)據(jù)集并不適用,特別是當一張圖片同時觸發(fā)多個屬性時,人工標注費時費力且難以詳盡。
此外,以上標簽詞均是封閉詞匯,雖然便于建模假設,但對織物多樣化多層次的屬性表達具有極大的限制。針對這一問題,有學者將本體構造引入織物圖像檢索[31]?;诒倔w的圖像檢索技術可表達較為復雜的語義關系,并且具備語義模糊匹配能力。Kuang等[32]集成深度CNN構建了基于本體的服裝屬性語義識別模型,論證了該模型在細粒度的服裝(含織物)語義識別中具有更優(yōu)的表現(xiàn)。
諸多學者探索了如何優(yōu)化CNN結(jié)構,使其更適合織物圖像檢索。汪珊娜等[30]在AlexNet模型基礎上構建并行的CNN網(wǎng)絡后,經(jīng)Softmax分類器輸出織物圖像的情感類別。并與LeNet-5模型、AlexNet模型、VGG-16模型進行對比發(fā)現(xiàn),并行模型對小樣本數(shù)據(jù)有更好的分類識別效率。
針對大樣本數(shù)據(jù)集,F(xiàn)ashionNet模型實現(xiàn)了服裝中織物的語義屬性識別,采用VGG-16目標識別框架,通過位置標定處理織物在服裝中的形變和位置變化,由學習到的特征集合誘導出帶有位置信息的織物識別檢索,實現(xiàn)end-to-end的特征學習與語義自動標注[1]。
為進一步提升網(wǎng)絡識別效率,學者們嘗試在CNN模型中嵌入尺度學習算法[33-34],通過共同學習圖像表示和語義識別的度量,弱化類內(nèi)變化,增強類間變化,提升模型的魯棒性。
針對如何在現(xiàn)有的CNN模型中嵌入距離尺度學習以提升檢索精度問題,Deng等[3]提出一種聚焦于排序的嵌入算法(FRE),并與現(xiàn)有的Pair、Magnet和Triplet的3種嵌入算法進行對比,F(xiàn)RE方法的檢索召回率達93.5%,優(yōu)于其他3種距離尺度學習嵌入模型,在細粒度織物圖像分類識別問題上呈現(xiàn)出較大的優(yōu)勢。該方法基于AlexNet模型實現(xiàn),將AlexNet的前7層作為網(wǎng)絡架構的早期層,再添加輔助層來計算損失函數(shù),損失函數(shù)為
式中:f(x)為原始圖像至特征向量的變換;D(x,x)為2個特征向量之間的距離;σ(x)為邏輯函數(shù),σ(x)=log2(1+2-x)。f(x)與某一對象x具有相同標簽的圖像為正,用x+表示,反之用x-表示。
可見,CNN對于捕捉圖像高層語義信息對應的淺層像素信息具有較好的效果。針對不同類型的檢索任務,CNN模型需通過適當?shù)募毣桨?,在特征表示學習過程中能獲得優(yōu)于手工特征的效果。同時,通過相似性學習可進一步提高深度模型的分類識別能力,在細粒度的圖像分類問題上具有明顯優(yōu)勢。
目前國內(nèi)外學者在織物圖像特征提取與檢索領域的研究已取得一些成果。為更好地優(yōu)化織物圖像檢索的準確度,實現(xiàn)細粒度的語義識別效果,未來面料檢索系統(tǒng)的構建應具有以下特點。
1) 語義標簽合理化設計。合理的語義標簽既要充分反映織物固有的屬性以及屬性間的關系,也需適用于機器學習過程。簡單而有效的語義模型構造將是未來織物語義識別研究的重要內(nèi)容??椢镎Z義本體的構建,有助于設計知識的表示和管理,有效提升織物圖像數(shù)字化設計中對設計信息表述的支持能力,增強建模的自動化水平。
2) 精準的圖像自動分割與分類識別。在圖像檢索過程中,準確的對象分割與識別是實現(xiàn)語義檢索的前提與關鍵。精準的對象識別以及對顯著性區(qū)域的排序,是實現(xiàn)對多個區(qū)域或?qū)ο笮枨箜憫闹匾h(huán)節(jié),在此基礎上可實現(xiàn)設計規(guī)律與要素信息的挖掘。
3) 多模態(tài)融合、交互式語義識別。數(shù)據(jù)信息本質(zhì)上是多模態(tài)的,多模態(tài)的語義模型構造可更有效反映數(shù)據(jù)信息的內(nèi)在本質(zhì)關聯(lián),通過模態(tài)的信息對齊更有效地獲取目標圖像集合。此外,允許用戶使用擴展的關鍵字來描述檢索圖像的屬性,構建交互式檢索系統(tǒng),可提高圖像檢索的適用性,提升信息共享效率。