亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多任務(wù)學(xué)習(xí)的蠟染紋樣圖案檢索方法

        2022-04-21 07:23:46潘偉杰方年麗朱姝蔓
        計算機(jī)工程與設(shè)計 2022年4期
        關(guān)鍵詞:紋樣語義模型

        鄒 悅,潘偉杰,呂 健,方年麗,岳 迪,朱姝蔓

        (貴州大學(xué) 現(xiàn)代制造技術(shù)教育部重點實驗室,貴州 貴陽 550025)

        0 引 言

        在民族圖案非物質(zhì)文化遺產(chǎn)數(shù)字化的進(jìn)程當(dāng)中,包括提取、解讀、重用3部分[1],如何對其釋義、如何快速處理其分類、識別、檢索等問題,亦是數(shù)字文化遺產(chǎn)解讀、重用的重要研究方向。Wang等[2]根據(jù)面向工藝品個性化定制的蠟染知識分類框架對蠟染案例進(jìn)行分析,構(gòu)建蠟染知識庫并對蠟染圖案進(jìn)行編碼。Xu等[3]通過研究剪紙圖像的自動分類識別來尋找實現(xiàn)對剪紙圖像分類儲存、高效檢索的新途徑。Yuan等[3]提出了一種基于距離度量學(xué)習(xí)和加權(quán)二部圖匹配的方法,將全局特征和局部特征提取與整合,得到蠟染醒目形狀模式,以實現(xiàn)蠟染紋樣圖像的搜索。綜合來看,上述研究對民族圖案的數(shù)字化研究做出了具有參考價值的研究,但做檢索研究的過程中,沒有考慮到民族圖案具有豐富語義的特性,多只涉及了單模態(tài)的檢索。

        因此,本文針對貴州蠟染紋樣,提出了一種基于多任務(wù)學(xué)習(xí)的跨模態(tài)檢索方法。實現(xiàn)圖-圖、文-圖的跨模態(tài)檢索。主要內(nèi)容如下:

        (1)蠟染數(shù)據(jù)集的構(gòu)建:從“非遺貴州”網(wǎng)站及《中國貴州民族民間美術(shù)全集:蠟染》中提取蠟染紋樣圖片,并根據(jù)文化背景進(jìn)行語義層次分析,對圖片數(shù)據(jù)進(jìn)行增強(qiáng)后對其按語義體系進(jìn)行標(biāo)注,構(gòu)建蠟染紋樣圖案數(shù)據(jù)集Batik Dataset;

        (2)蠟染紋樣跨模態(tài)檢索模型的構(gòu)建:由ResNet50為主干,提取圖片特征,采用BERT預(yù)訓(xùn)練模型提取文本特征輸送到主干網(wǎng)絡(luò)中,實現(xiàn)兩個預(yù)測任務(wù)的學(xué)習(xí);

        (3)實驗:將模型運用在Batik Dataset上驗證其有效性。

        1 蠟染數(shù)據(jù)集的構(gòu)建

        民族圖案是一種極具語義特征的特殊圖案,針對民族服飾銀宇堃等[5]提出一種基于標(biāo)簽民俗語義模型的圖案語義標(biāo)簽體系,用三層語義來增加標(biāo)簽的專業(yè)性和實用性。本文借鑒該方法,參考《中國貴州民族民間美術(shù)全集:蠟染》中的蠟染文化背景、張智艷[6]和孫鑫磊[7]等對苗族圖案意象的研究,針對貴州苗族蠟染紋樣進(jìn)行層次分析,建立適用于蠟染的語義體系,并依據(jù)該語義體系對數(shù)據(jù)集進(jìn)行標(biāo)注,最終構(gòu)建一個總數(shù)為12 249張的蠟染紋樣圖案數(shù)據(jù)集,命名為Batik Dataset。

        1.1 蠟染紋樣的提取

        本文的數(shù)據(jù)集來源于“非遺貴州”的系統(tǒng)網(wǎng)站,從“非遺貴州”系統(tǒng)網(wǎng)站現(xiàn)有的蠟染圖庫中,采集了常見的苗族蠟染紋樣,采集過程中借助貴州省蠟染制作者、蠟染研究者、工藝品設(shè)計師等多方面的專家提供的蠟染知識和技術(shù)知識進(jìn)行辨識,保證紋樣數(shù)據(jù)具有相對的完整性和代表性,其中包括鳥紋、花紋、魚紋、銅鼓紋、蝴蝶紋五大類紋樣。由于蠟染圖片的基數(shù)少,采集得到的圖像數(shù)據(jù)量也相對較小,為解決這一問題,本文對采集的數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng),以防止機(jī)器學(xué)習(xí)中因樣本量過少產(chǎn)生過擬合現(xiàn)象并提升網(wǎng)絡(luò)模型的魯棒性和泛化能力。增強(qiáng)后的數(shù)據(jù)合計蠟染紋樣圖像12 249張,部分采集圖案如圖1所示。

        圖1 部分蠟染紋樣采集圖像及分類

        1.2 語義體系的構(gòu)建

        苗族是一個沒有語言的民族,因此苗族蠟染在文化意義上,不僅是裝飾物,更是苗族歷史文化的載體。從符號學(xué)的角度來看,蠟染紋樣是極具語義內(nèi)容、具有豐富的意象,紋樣之意是其表征上視覺給人帶來的意向,而紋樣之言則是其表達(dá)的創(chuàng)作思維和內(nèi)涵;紋樣之意為其所指,紋樣之言為其能指[6]。

        為了給苗族蠟染紋樣建立一個統(tǒng)一的語義體系作為標(biāo)注的參考標(biāo)準(zhǔn),本文根據(jù)上述方法,從符號學(xué)的角度對蠟染紋樣的語義進(jìn)行分類、拆解,從而構(gòu)建一個語義標(biāo)簽體系模型。目前標(biāo)簽標(biāo)注多采用三元模型,根據(jù)蠟染語義層次的特點,我們構(gòu)建以下模型

        (1)

        其中,P為圖案視覺上紋樣的類型;S為該紋樣的象征意義;G為圖畫工藝的類型。

        模型如圖2所示。

        圖2 語義標(biāo)注模型

        紋樣的類型P(pattern)主要有鳥紋、魚紋、花紋、蝴蝶紋、銅鼓紋等,它描述的是紋樣視覺表達(dá)上的形式。

        紋樣的象征意義S(symbolic meanings)表示紋樣的文化內(nèi)涵,以蝴蝶紋為例:“蝴蝶媽媽”在苗族的神話傳說中占有重要的地位[7],常作為嬰兒襁褓上的圖案,是祈求庇護(hù)和保佑,同時,苗族人也對蝴蝶的生殖能力有著崇拜之情,因此蝴蝶紋也表達(dá)了苗族人民“多子多?!钡拿篮迷妇啊?/p>

        紋樣的工藝類型G(genre)表示貴州蠟染不同的藝術(shù)風(fēng)格流派,包括月亮山型、飛云山型、扁擔(dān)山型、烏蒙山型等[8],不同的藝術(shù)風(fēng)格分布的地區(qū)不同,風(fēng)格也有著細(xì)微的差異,背后也蘊涵著不同的歷史。標(biāo)注不同的藝術(shù)風(fēng)格,有利于更好的溯源和理解紋樣的含義。

        依據(jù)上述規(guī)則,本文針對不同的蠟染紋樣圖片進(jìn)行標(biāo)注,見表1。

        表1 部分蠟染紋樣圖案標(biāo)注示例

        2 蠟染紋樣跨模態(tài)檢索模型

        2.1 整體構(gòu)架

        多任務(wù)學(xué)習(xí)屬于歸納遷移學(xué)習(xí)機(jī)制的一種,它通過共享特征層和并行訓(xùn)練的方法實現(xiàn)多個任務(wù)的學(xué)習(xí),同時能夠利用相關(guān)任務(wù)中的領(lǐng)域特定信息來提高模型的泛化能力。

        本文所采用多任務(wù)學(xué)習(xí)的架構(gòu),訓(xùn)練階段的目的是輸入蠟染圖片,能夠得到類別和文本分類這兩個結(jié)果,通過BERT模型提取文本特征,采用ResNet50作為學(xué)習(xí)的主干網(wǎng)絡(luò),同時提取圖片特征,網(wǎng)絡(luò)中定義一個輸入,兩個輸出,實現(xiàn)兩個預(yù)測任務(wù)的學(xué)習(xí)。

        2.2 文本特征的提取

        本文利用BERT模型[9]進(jìn)行文本特征的提取。BERT模型Google提出的自然語言處理模型,是bidirectional encoder representations from trans-formers的簡稱,其結(jié)構(gòu)是基于多層雙向tranformer模型的encoder結(jié)構(gòu),不同于以往的自然語言處理模型,只能獲取詞語單側(cè)(左側(cè)或右側(cè))的信息,由于這種雙向結(jié)構(gòu),使得BERT模型能夠獲取詞語雙方向的信息,并整合起來。其結(jié)構(gòu)比transformer更深,因此被廣泛應(yīng)用于NLP領(lǐng)域。同時它使用自我注意力機(jī)制,能夠根據(jù)不同語境學(xué)習(xí),用Transformer代替了RNN,由于這兩個機(jī)制的特性,使得BERT模型能夠生成詞向量,解決word2vec中不能解決的一詞多義的問題,表達(dá)詞語在不同語境中的含義。BERT的模型的結(jié)構(gòu)如圖3所示。

        圖3 BERT模型的結(jié)構(gòu)

        在BERT模型之前,自然語言處理常用OpenAI GPT預(yù)訓(xùn)練語言模型,二者都使用了Transformer,但BERT模型針對OpenAI GPT模型中使用的單向注意力機(jī)制進(jìn)行了改進(jìn),借鑒殘差網(wǎng)絡(luò)并使用雙向Transformer的編碼器作為基本組成單元,這使得BERT模型能夠結(jié)合上下文信息進(jìn)行訓(xùn)練[10],BERT中的Transformer網(wǎng)絡(luò)結(jié)構(gòu)如圖4[11]所示。

        圖4 BERT模型中采用的Transformer網(wǎng)絡(luò)

        BERT模型中的多頭注意力機(jī)制,通過這種結(jié)構(gòu)形式,可以使模型捕獲更多層面的語義特征,將結(jié)果進(jìn)行整合拼接得到的最終結(jié)果。多頭注意力機(jī)制的結(jié)構(gòu)如圖5所示。

        圖5 BERT模型的多頭注意力機(jī)制

        民族圖案是一種極具語義特征的特殊圖案,用戶習(xí)慣于根據(jù)先驗知識用圖像的語義進(jìn)行檢索,而不是視覺特征來進(jìn)行查詢,例如檢索“橙子”時,我們會直接搜索關(guān)鍵詞“橙子”而不是“橙色的球體”。但在實際應(yīng)用中視覺特征相似的圖像其語義很可能存在很大差別,這是因為圖像的高層語義(即象征含義)和低層特征(即視覺特征)之間沒有直接關(guān)聯(lián),會產(chǎn)生“語義鴻溝”,這導(dǎo)致一些圖像檢索系統(tǒng)在進(jìn)行某些查詢時會得到意料之外的結(jié)果。

        (2)

        2.3 ResNet模型的分析

        本文利用Resnet50以提取圖像特征同時也作為多任務(wù)學(xué)習(xí)的主干。在神經(jīng)網(wǎng)絡(luò)中,隨著深度和寬度的增加,可以較好提升網(wǎng)絡(luò)性能,但同時,因為網(wǎng)絡(luò)層數(shù)增加,導(dǎo)致訓(xùn)練集上的準(zhǔn)確率飽和下降,這個就是退化問題。Resnet是一種殘差網(wǎng)絡(luò),它與普通網(wǎng)絡(luò)最不同的地方就是引入了一個跳躍連接,使得上一個殘差塊的信息沒有阻礙地流入下一個殘差塊,提高了信息的流通,能夠避免由網(wǎng)絡(luò)過深引起的消失梯度問題和退化問題。ResNet的概述如圖6所示。

        圖6 ResNet概述

        (1)第一層卷積Conv1:64個7*7卷積核,步幅為2,輸出64個(112,112);

        (2)最大池化層pool1:步幅為2,池化區(qū)域(3,3),輸出 64個(5,5);

        (3)第二大層卷積Conv2_x:(64,1,1),(64,3,3),(256,1,1)的卷積核各3個;

        (4)第三大層卷積Conv3_x:(128,1,1),(128,3,3),(512,1,1)的卷積核各4個;

        (5)第四大層卷積Conv4_x:(256,1,1),(256,3,3),(1024,1,1)的卷積核各6個;

        (6)第五大層卷積Conv5_x:(512,1,1),(512,3,3),(2048,1,1)的卷積核各3個;

        (7)全局平均池化層:pool5:步幅為1,池化區(qū)域(7,7),輸出2048個(1,1);

        (9)全連接層fc:輸入2048個神經(jīng)元節(jié)點,輸出ci。

        如表2所示。

        表2 改進(jìn)后的ResNet50網(wǎng)絡(luò)架構(gòu)

        2.4 損失函數(shù)

        本文針對兩個不同的分類問題,定義了兩個損失函數(shù)。

        交叉熵(cross entropy)是香農(nóng)信息論中用于度量兩個概率分布之間的差異性信息的一個重要概念[13]。針對分類任務(wù)使用交叉熵?fù)p失函數(shù)訓(xùn)練模型,用來評估真實值與預(yù)測值之間的差別。交叉熵描述了兩個概率分布的差異,然而神經(jīng)網(wǎng)絡(luò)輸出的是向量,并不符合概率分布的形式,因此需要用一個激活函數(shù)將神經(jīng)網(wǎng)絡(luò)輸出的向量進(jìn)行“歸一化”成概率分布的形式,這樣就能采用交叉熵?fù)p失函數(shù)計算loss了,本文選擇的激活函數(shù)是softmax。將ResNet50中全連接層輸出的向量ci,經(jīng)過用于多分類的softmax激活函數(shù)處理得到

        (3)

        其中,ci為全連接層的輸出;N為總類數(shù),yi為預(yù)測對象屬于第N類的概率。

        然后計算任務(wù)k的預(yù)測標(biāo)簽和真實標(biāo)簽之間的交叉熵?fù)p失如下

        (4)

        其中,M表示類別的數(shù)量;yi為上述softmax的輸出;ti表示真實值。

        (5)

        3 實 驗

        本實驗運用前文構(gòu)建的蠟染紋樣圖案數(shù)據(jù)集Batik Data,共12 249張圖,格式為jpg,進(jìn)行訓(xùn)練和測試測試環(huán)境為python3.7,CPU:4GHz Intel Core i7,內(nèi)存:16 GB;GPU:NVIDIA GeForce GTX 1080,顯存:8 GB。

        3.1 參數(shù)設(shè)置

        本文的訓(xùn)練和測試環(huán)境為tensorflow深度學(xué)習(xí)框架;為保證數(shù)據(jù)的統(tǒng)一,對圖像數(shù)據(jù)進(jìn)行預(yù)處理:對于訓(xùn)練集首先對圖像采用224×224的隨機(jī)剪裁以統(tǒng)一圖像的大小,然后采用隨機(jī)水平翻轉(zhuǎn)并進(jìn)行歸一化處理;同樣地,將驗證集圖像大小調(diào)整為224×224,并進(jìn)行歸一化處理。訓(xùn)練時,輸入的數(shù)據(jù)參數(shù)為224×224×3,lr設(shè)置為le-3,epochs為50。

        3.2 結(jié)果分析

        為了更加直觀地展示檢索的效果,本文設(shè)置輸入一張蠟染紋樣圖片或文本,返回最相似的6張圖片。在圖-圖的模塊當(dāng)中,為了使檢索更加具有實際意義,我們定義返回的圖片為非輸入圖片自身。

        圖7(a)以隨機(jī)一張鳥紋和一張花紋的檢索結(jié)果為例,可以看出當(dāng)輸入鳥紋圖片bird5時,返回了圖片bird1270、bird793、bird669等6張鳥紋圖片,相似度最高達(dá)到99.13%,同理,如圖7(b)所示,輸入花紋flower4時,返回flower2444等6張花紋圖片,相似度最高達(dá)到99.35%。可以看出圖-圖檢索的效果是比較準(zhǔn)確的。

        圖7 圖-圖隨機(jī)檢索實例

        在文-圖任務(wù)中,由于人工標(biāo)注的誤差和數(shù)據(jù)集中具體圖案類別的不均衡,造成了一些詞語只標(biāo)注了10個左右的圖案,一些詞語卻標(biāo)注了上千個圖案的現(xiàn)象,因此,我們剔除了標(biāo)注圖片為100張以下的詞語,使得數(shù)據(jù)集的文本標(biāo)注更加均勻便于機(jī)器學(xué)習(xí)。表3為每個詞最小標(biāo)注圖片量為不同數(shù)量時,文本任務(wù)的準(zhǔn)確率。

        表3 最小標(biāo)注圖片量為不同數(shù)量下文本任務(wù)的準(zhǔn)確率

        同樣設(shè)置輸入文本,返回相似度最高的6張圖片。如圖8(a)所示,以魚紋和為例,可以看出當(dāng)輸入文本“魚紋”時,返回了圖片fish702、fish1714等6張魚紋圖片,相似度最高達(dá)到92.38%;如圖8(b)所示,當(dāng)輸入“崇拜自然”時,返回drum263等6張帶有“崇拜自然”寓意的圖片,包括5張銅鼓紋和一張蝴蝶紋,相似度最高達(dá)到93.8%。

        圖8 文-圖隨機(jī)檢索實例

        需要說明的是,相較于圖-圖的檢索結(jié)果的準(zhǔn)確率,文-圖的表現(xiàn)要差一些,這是因為人工標(biāo)注的過程中,由于蠟染紋樣的圖案采集大部分來自《中國貴州民族民間美術(shù)全集:蠟染》中,且依賴于人工標(biāo)注,盡管本文做了一些剔除的調(diào)整,仍然存在一些標(biāo)注上的不均勻,因此一些大類(如鳥紋)下的小分類(如錦雞)數(shù)量不多且不均衡,造成了機(jī)器在學(xué)習(xí)過程中產(chǎn)生偏差。另外,由于多任務(wù)學(xué)習(xí)的機(jī)制中,任務(wù)間有主次之分,因為共享特征層,文本任務(wù)又一定程度上提高了主任務(wù)圖像任務(wù)的準(zhǔn)確性,導(dǎo)致了一個任務(wù)表現(xiàn)優(yōu)異,一個任務(wù)表現(xiàn)平平的結(jié)果。

        最后本文用準(zhǔn)確率Accuracy、平均查準(zhǔn)率mAP、平均查詢時間mAT,與單任務(wù)下的調(diào)整前的ResNet網(wǎng)絡(luò)模型作對比,來評估圖-圖任務(wù)的實驗效果。

        由表4可以看出本文相較于調(diào)整前的ResNet網(wǎng)絡(luò)模型在圖-圖任務(wù)上,平均查準(zhǔn)率提升了2.4%,準(zhǔn)確率提升了9.2%,平均查詢縮短了8.1 s。

        表4 本文方法和ResNet50對比

        4 結(jié)束語

        針對非物質(zhì)文化遺產(chǎn)數(shù)字化問題中的解讀與再利用問題,以貴州苗族蠟染紋樣為例,提出一種基于多任務(wù)學(xué)習(xí)的跨模態(tài)檢索方法,實現(xiàn)圖-圖及文-圖的檢索。該方法以ResNet50為主干,提取圖片特征,采用BERT預(yù)訓(xùn)練模型提取文本特征,實現(xiàn)兩個預(yù)測任務(wù)。為驗證方法的有效性,本文從蠟染數(shù)據(jù)庫中提取蠟染紋樣圖案,并建立多層語義體系進(jìn)行標(biāo)注,構(gòu)成蠟染紋樣圖案數(shù)據(jù)集Batik Dataset。最后在Batik Dataset上驗證了方法的有效性。

        其中圖-圖檢索任務(wù),相對于ResNet50單模態(tài)檢索在平均準(zhǔn)確率上有2.4%的提升。然而受人工標(biāo)注產(chǎn)生的標(biāo)注詞匯分布不均勻的影響,文-圖任務(wù)并不理想。

        通過分析,造成文-圖任務(wù)與理想結(jié)果產(chǎn)生偏差的原因有二:一是數(shù)據(jù)集在人工標(biāo)注的過程中容易受疲勞、主觀等因素影響,造成標(biāo)注的詞匯分布不均勻造成結(jié)果的偏差;二是由多任務(wù)學(xué)習(xí)的特性和數(shù)據(jù)集標(biāo)注存在缺陷造成的。

        在未來的工作中,一方面為減少人工標(biāo)注易產(chǎn)生疲勞而產(chǎn)生標(biāo)注的偏差問題,研究自動標(biāo)注方法;另一方面將考慮更全面地構(gòu)建語義模型,完善數(shù)據(jù)集標(biāo)注不均勻的問題,豐富訓(xùn)練集,利用大量數(shù)據(jù)進(jìn)行訓(xùn)練,提高模型的效率。

        猜你喜歡
        紋樣語義模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        語言與語義
        《2020年杭州亞運會紋樣設(shè)計》
        流行色(2019年7期)2019-09-27 09:33:08
        藏族傳統(tǒng)紋樣中幾何紋樣的類型及其文化解讀
        3D打印中的模型分割與打包
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        袁飛紋樣設(shè)計
        湖南包裝(2016年2期)2016-03-11 15:53:17
        經(jīng)典的藝術(shù)幾何紋樣
        Coco薇(2015年10期)2015-10-19 15:03:24
        亚洲av综合一区二区在线观看| 粉嫩国产白浆在线播放| 一区二区三区在线观看精品视频| 国产女同va一区二区三区| 国产美女精品一区二区三区| 精品无码国产一区二区三区麻豆| 私人毛片免费高清影视院| 黄视频国产| 国产三级国产精品国产专区| 日日麻批视频免费播放器| 青青草大香蕉视频在线观看| 亚洲av永久精品爱情岛论坛| 97久久精品人人妻人人| 久久亚洲av午夜福利精品西区| 日出白浆视频在线播放| 一性一交一口添一摸视频| 综合色久七七综合尤物| 在线观看女同一区二区| 国产91会所女技师在线观看| 欧美丰满熟妇性xxxx| 日本a级特黄特黄刺激大片| 亚洲熟妇夜夜一区二区三区| 在线天堂av一区二区| 狠狠色婷婷久久综合频道日韩| 狼人国产精品亚洲| 内射中出后入内射极品女神视频| 日产乱码一二三区别免费l| 中国xxx农村性视频| 日韩av无卡无码午夜观看| 精品国精品自拍自在线| 亚洲中文字幕舔尻av网站| 99香蕉国产精品偷在线观看| 东京热加勒比在线观看| 国产不卡在线播放一区二区三区| 日本一二三区视频在线| 中文在线天堂网www| 国产中文字幕亚洲综合| 一边摸一边做爽的视频17国产| 国产永久免费高清在线| 成人免费xxxxx在线视频| 日韩av综合色区人妻|