亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度網(wǎng)絡的苗繡繡片紋樣分割算法研究

        2023-11-22 08:19:30陳世婕王衛(wèi)星
        計算機技術與發(fā)展 2023年11期
        關鍵詞:紋樣語義實驗

        陳世婕,王衛(wèi)星,彭 莉

        (貴州大學 機械工程學院,貴州 貴陽 550025)

        0 引 言

        苗族是中國人口最多的少數(shù)民族之一,分布在貴州省不同地區(qū)。苗族的民族歷史大多記錄在刺繡圖案中,不僅可以作為裝飾,同時還具備記錄歷史的功能。苗族人民現(xiàn)在主要聚居在貴州省東南部,在這里可以找到豐富且具有特色的苗繡,因此對黔東南苗繡的研究具有代表性。同時,苗繡作為非物質(zhì)文化遺產(chǎn),是中國少數(shù)民族服飾文化的重要組成部分,也是一種民族工藝品和紡織品[1],如圖1所示。

        圖1 苗繡實例

        但隨著經(jīng)濟社會的發(fā)展,人們愈發(fā)追求快節(jié)奏生活,外來文化對少數(shù)民族傳統(tǒng)文化產(chǎn)生了巨大影響。因此,苗繡的保存及發(fā)展也面臨挑戰(zhàn):一方面,傳統(tǒng)苗繡幾乎都是純手工制作,然而具備刺繡生產(chǎn)技能的一輩逐漸老去,同時年輕一代沒有充分的動機學習苗繡技藝。另一方面,苗繡的制作流程相對復雜,從繡片選取到紋樣設計幾乎是純手工勞動。相反,流水線生產(chǎn)制作簡單,性價比高,擠壓了傳統(tǒng)苗繡的售賣市場,因此對刺繡數(shù)字化保護進行研究是必要的。受計算機視覺技術的啟發(fā),該文擬結合現(xiàn)代信息技術對苗繡資源進行設計、存儲與傳承,既體現(xiàn)了苗繡的歷史特色,又結合了現(xiàn)代紋樣的創(chuàng)新。

        目前,苗繡繡片紋樣的設計、挑選與分類主要由人工處理,這些任務較為繁瑣且需要耗費大量人力、物力。隨著計算機性能的提升,凡是涉及圖像調(diào)整均可使用計算機進行處理,但傳統(tǒng)計算機圖像處理有其不足之處,如邊緣檢測或線條檢測對噪聲敏感且難以掌握最佳閾值。為改善傳統(tǒng)方法的弊端,計算機也逐漸開始學習圖像特征。隨著深度學習技術,特別是卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)在視覺應用中取得了巨大成功,在醫(yī)療、教育、文化等領域得到了廣泛應用。在醫(yī)療領域,Olaf等人提出U-net[2]用于解決生物醫(yī)學圖像分割的問題,同時也是首次提出將圖像語義分割技術應用于醫(yī)學領域。在文化領域,賈小軍等人[3]提出一種基于神經(jīng)網(wǎng)絡的分類方法,用于構建藍色花布紋理圖案的圖像元素。在紡織和服裝領域,吳歡等人[4]提出一種基于CNN模型的服裝廓形分類方法,該方法用于對女性褲子的輪廓進行分類。

        圖像深度學習在刺繡紋樣研究中也取得了相關成就。彭宇等人[5]綜述了實時語義分割的優(yōu)勢和限制,同時也提出面向快速語義分割方案。鄭銳等人[6]為解決刺繡風格數(shù)字化缺少立體感和線條方向等問題,提出一種基于深度學習的風格遷移方法,采用語義分割網(wǎng)絡對圖像輪廓進行提取。Gatys等人[7]提出一種基于卷積神經(jīng)網(wǎng)絡的自然紋理參數(shù)化模型,紋理合成的質(zhì)量和方法較以往有了實質(zhì)性改進。Luan等人[8]提出在風格遷移過程中添加引導圖以避免圖像內(nèi)容難以匹配等問題。王禹君等人[9]提出基于空間領域的模糊均值算法用于處理少數(shù)民族刺繡紋樣分割任務。通過以上分析,提取豐富圖像信息是高質(zhì)量語義分割的關鍵。為此,有關學者提出了擴張卷積,該方法可以在不降低空間分辨率下擴大圖像感受野。DeepLab[10]和PSPNet[11]通過捕獲多尺度空間信息實現(xiàn)高效圖像分割。RefineNet[12]提出多路徑細化模塊,增強了圖像特征信息的提取。Deeplab v3+[13]將擴張卷積和空間金字塔池化集成到網(wǎng)絡中進一步提高分割效率。

        綜上所述,將圖像語義分割方法用于苗繡繡片紋樣的提取,讓網(wǎng)絡理解圖像中的語義信息并提煉出別具一格的苗繡紋樣值得研究。因此,該文提出一種基于深度學習語義分割框架用于提取苗繡繡片紋樣的輪廓,主要貢獻有:(1)將苗繡文化與圖形圖像識別技術有機結合;(2)為彌補相關苗繡繡片紋樣數(shù)據(jù)的稀少,提出并構建了苗繡繡片數(shù)據(jù)庫,同時對其進行分類和分割的標注[14];(3)針對傳統(tǒng)圖像處理提取刺繡紋樣輪廓不連續(xù)、易丟失以及誤分割等現(xiàn)象,提出一種多尺度深度學習網(wǎng)絡。據(jù)筆者了解,很少有將深度學習模型應用于苗繡繡片紋樣提取的研究,因此,文中工作在苗繡數(shù)字化保護中具有明顯意義。

        1 苗繡繡片數(shù)據(jù)庫構建

        為了深入研究苗繡繡片紋樣,進一步保護非物質(zhì)文化遺產(chǎn),通過實地調(diào)查對收集到的圖像進行數(shù)據(jù)庫的構建。

        在收集圖像樣本的過程中,分別從當?shù)夭┪镳^、手工作坊以及紋樣設計公司獲取苗繡紋樣樣本,基于相關數(shù)據(jù)和知識共收集3 600幅苗繡繡片紋樣建立數(shù)據(jù)庫,用于開展不同類型的研究。據(jù)筆者了解,這是第一個僅以苗繡繡片紋樣為主的圖像數(shù)據(jù)庫。分類標準主要以線條類型、紋樣大小、物體類型為主,每幅圖像均進行了類別標注以及用于語義分割的輪廓標注。已建立苗繡數(shù)據(jù)庫的一些示例,如圖2所示。

        圖2 自建苗繡繡片圖像數(shù)據(jù)庫部分示例

        2 基于多尺度網(wǎng)絡的繡片紋樣語義分割

        本節(jié)主要介紹圖像語義分割的多尺度網(wǎng)絡(MSNet)。首先,闡述網(wǎng)絡的主要模塊并分析相對于其他網(wǎng)絡框架的優(yōu)勢;其次,描述MSNet的體系結構;最后,表明該網(wǎng)絡目的在于改善語義分割任務中出現(xiàn)的信息“丟失”、錯誤分割以及遺漏分割等問題。

        通常,帶有尺度特征提取的卷積神經(jīng)網(wǎng)絡是一個分層結構。它由堆疊的卷積層組成,可選項是歸一化層、池化層以及損失函數(shù)。卷積層通過線性卷積濾波器和非線性激活函數(shù)生成特征圖(Feature Map),然后將特征圖饋送至損失函數(shù)中進行優(yōu)化。卷積神經(jīng)網(wǎng)絡的訓練包括兩個階段:前向階段和反向階段。前一階段用每層中的參數(shù)(權重和偏置)表示輸入圖像,最后一層的輸出用于計算具有真值標簽(Ground-Truth Label)的損失函數(shù)。同時采用鏈式法則用于反向傳播更新梯度,并為下一次正向計算做好準備。

        2.1 MSNet架構

        網(wǎng)絡架構如圖3(a)所示,采用類似U-net[2]網(wǎng)絡的編碼器-解碼器架構且圖像尺寸的縮放倍率為16。編碼器部分包含特征金字塔下的采樣操作,主要用于提取圖像特征;解碼器部分采用上采樣雙線性插值用于恢復圖像的尺寸。其中每個特征提取層均包含多尺度特征提取步驟,同時采用跳躍連接[15]維持編碼器和解碼器之間的特征關系。

        圖3 MSNet整體流程

        2.2 MSNet網(wǎng)絡細節(jié)

        網(wǎng)絡架構由四個模塊組成:多尺度模塊(Multi-Scale Block,MSB)、多尺度編碼器(Multi-Scale Encoder,MSE)、多尺度解碼器(Multi-Scale Decoder,MSD)以及語義分割頭(Semantic-Head,SH)。同時,為了進一步利用空間線索,在編碼器和解碼器之間疊加一系列跳躍連接來進行特征融合。模塊詳細分析如下:

        多尺度模塊(Multi-Scale Block,MSB):如圖3(b)所示,圖像語義分割的一個關鍵問題是如何提取上下文信息。因此有必要利用不同尺寸的卷積核獲取全局信息。在該模塊中將不同卷積核的輸出依次疊加并通過1×1,3×3以及擴張比率分別為1和2的卷積核,最后采用跳躍連接進行融合,其中通道數(shù)變化為(5,32)→(32,64) →(64,64)。

        多尺度編碼器(Multi-Scale Encoder,MSE):該模塊用于提取不同尺度的特征,采用順序堆疊+跳躍連接的形式,下采樣階段采用全局平均池化用來避免卷積操作帶來的額外開銷。消融實驗表明,該步驟對最終的MIoU幾乎無影響。因此在該類條件下,特征圖像的通道數(shù)變化為 (64→128→256→512),尺寸變化為(224,224)→(14,14)。

        多尺度解碼器(Multi-Scale Decoder,MSE):與上采樣操作和轉(zhuǎn)置卷積相比,采用多尺度特征+雙線性插值構建解碼器部分。主要原因有:(1)上采樣忽略了“參數(shù)”可學習因素,最終結果可能會降低分割精度。相反,文中方法具有無參數(shù)學習以及訓練速度快的優(yōu)點;(2)轉(zhuǎn)置卷積包含可學習因素,但難以保證與編碼器信息的對齊。因此,該文采用多尺度特征+雙線性插值替換常規(guī)轉(zhuǎn)置卷積步驟,并在消融實驗中驗證該步驟的合理性。

        3 損失函數(shù)

        從實際情況和數(shù)據(jù)集分析可知,采用損失函數(shù)的標準是提高神經(jīng)網(wǎng)絡的泛化能力,其中需要解決的問題包括:(1)圖像物體邊界分割模糊;(2)如何緩解場景中的類別失衡;(3)如何更好地優(yōu)化交并比(MIoU)。對于上述問題,使用損失函數(shù)的組合來監(jiān)督模型訓練,主要包括交叉熵損失Lwce,Lova ′sz-Softmax損失以及邊界損失Lbd。在語義分割任務中,二維圖像主要存在語義分割時物體邊界模糊的問題。因此,定義邊界損失Lbd為:

        (1)

        Pc、Rc對于類別C,預測的邊界特征ybd相對于真實標簽ygt的精度和召回率。因此,邊界可定義為:

        (2)

        pool(·):大小為θ0的滑動窗口上的最大池化操作。

        為了解決類別標簽不平衡問題,通過類別出現(xiàn)頻率開方的倒數(shù)來制定權重Softmax交叉熵損失函數(shù):

        (3)

        (4)

        L=w1·Lls+w2·Lwce+w3·Lbd

        (5)

        w1,w2,w3:表示不同損失函數(shù)的權重,這些參數(shù)的組合形式將會在消融實驗中展示。

        4 實 驗

        4.1 實驗配置

        為保證實驗的有效性和公平性,分別在公共數(shù)據(jù)集PASCAL VOC 2012數(shù)據(jù)集(http://host.robots.ox.ac.uk/pascal/VOC/voc2012/)和苗繡繡片自建數(shù)據(jù)庫中進行實驗,主要用于驗證模型的魯棒性和泛化能力。

        數(shù)據(jù)集:實驗選用數(shù)據(jù)集I是PASCAL VOC 2012的語義分割部分。該數(shù)據(jù)集作為公開的基準數(shù)據(jù)集,主要用于驗證圖像分類、檢測與語義分割等主流計算機視覺任務,同時提供完善的指標對比方式。該數(shù)據(jù)集包含1個背景類別和20個物體對象類別,其中包含1 456張測試用例、1 464組訓練用例以及1 449組驗證用例。為了獲取更多可用訓練數(shù)據(jù),本實驗依據(jù)數(shù)據(jù)增強方法額外生成8 000組訓練數(shù)據(jù);數(shù)據(jù)集II是自建的苗繡繡片數(shù)據(jù)庫,共包含3 600張苗繡繡片紋樣且采用數(shù)據(jù)增強進行擴充。但相較PASCAL VOC 2012數(shù)據(jù)集來說,自建基礎數(shù)據(jù)體量不充分,因此僅按照9∶1劃分訓練用例和測試用例,不采用驗證用例,該策略主要針對小型數(shù)據(jù)集,其目的是為了保證充分的訓練用例。

        數(shù)據(jù)增強:數(shù)據(jù)增強作為一種重要的機器學習方法,在基于已有的訓練樣本數(shù)據(jù)下來生成更多的訓練數(shù)據(jù),目的是為了使擴增的訓練數(shù)據(jù)盡可能接近真實分布的數(shù)據(jù),從而提高檢測精度。實驗中對輸入圖像做隨機水平翻轉(zhuǎn)、隨機旋轉(zhuǎn)以及隨機縮放等數(shù)據(jù)增強操作。其中,以DeiT[16]為基準,設置隨機水平翻轉(zhuǎn)的概率為0.5,隨機縮放比例的范圍為[0.5,3],隨機旋轉(zhuǎn)范圍為[-15°,15°]。該數(shù)據(jù)增強準則目前被廣泛用于圖像深度學習中,實驗中對比模型均以此為前置條件,以保證預測結果的公平性。

        實驗配置:本實驗選用設備CPU為Intel(R)Core(TM)i5-9300H CPU @ 2.40 GHz,GPU NVIDIA Geforce GTX 2080Ti;所用操作系統(tǒng)為UBUNTU,網(wǎng)絡框架為Pytorch 1.7。

        評價指標:本次實驗采用的評估指標I為MIoU,該指標主要是先計算每種類別真實標簽和預測標簽的兩個對應像素點集合的交并比,然后在所有類別上取平均值。該指標的取值為概率形式,因此設定范圍為[0,1]。其中交并比越大說明圖像的分割越精準,該指標的計算公式如下:

        (6)

        k:表示數(shù)據(jù)集中的類別標簽總數(shù);pii:表示第i類標簽被分配到第i類類別的像素數(shù)量;pij:表示第i類標簽被分配到第j類類別的像素數(shù)量,即將i類別預測為j類別;pji:表示將所有的j類別預測為i類標簽的像素數(shù)量。評價指標II為模型推理速度和模型參數(shù)量。主要用于評估模型的遷移特性和泛化能力。

        訓練策略:訓練策略即正則化方法,由于神經(jīng)網(wǎng)絡較為復雜且擬合能力強,很容易在訓練數(shù)據(jù)上產(chǎn)生過擬合。因此在訓練神經(jīng)網(wǎng)絡時需要通過一定的正則化方法來改進網(wǎng)絡的泛化能力。該實驗以全景分割方法Panoptic segformer[17]為基準設置訓練策略,使用隨機梯度下降(Stochastic Gradient Descent,SGD)算法,權重衰減為0.000 1,基礎學習率為0.1,動量為0.9,訓練迭代次數(shù)為300,實驗涉及的模型均采用該訓練策略。

        4.2 不同模型對比分析

        在PASCAL VOC 2012數(shù)據(jù)集上進行相關實驗,主要從兩方面闡述:(1)與不同的語義分割框架對比,包括PSPNet[11]、FCN[18]、DeepLab[10,13]系列框架等,如表1所示;(2)從模型的推理速度和模型參數(shù)上進行對比。

        表1 圖像語義分割模型精度對比

        由表1和圖4可知,文中方法(MSNet)的MIoU相比于FCN提高了14.84百分點,提升幅度相對較大的原因是FCN[18]作為首個語義分割框架,在目前看來仍有許多可以優(yōu)化的技術,由于FCN解碼器中特征融合的方式較為單一,所以相比現(xiàn)代語義分割方法來說精度最低。相比于近期主流框架DANet[19]、PSPNet[11]以及DeepLab V3+[10,13]分別提高了2.38百分點、4.78百分點以及2.2百分點。同時,MSNet在訓練數(shù)據(jù)上的損失值變化曲線如圖4(b)所示,在前期損失值快速下降,最終穩(wěn)定在0.03區(qū)間范圍,從而體現(xiàn)了網(wǎng)絡可以準確、快速地尋找到梯度下降的方向。

        (a)模型分割精度結果對比

        (b)MSNet網(wǎng)絡損失值變化圖4 模型訓練及精度指標對比

        文中方法的優(yōu)勢主要體現(xiàn)在提出的多尺度特征提取模塊,由于感受野在每一階段都會做出相應的擴大,從而可以更好地提取特征。這同時也表明了在同一階段,局部信息與全局信息的融合對模型性能的提升有很大的幫助,相關實驗展示如圖5所示。

        圖5 模型訓練及精度指標對比

        如圖5(b)所示,在自建苗繡數(shù)據(jù)庫上進行紋樣語義分割測試,對比框架為DeepLab V3+和HRNet。實驗結果表明,MSNet在提取紋樣邊界上明顯優(yōu)于前者,同時誤匹配、誤分類現(xiàn)象也相對降低。實驗結果可知,MSNet在面對顏色相近紋樣時可以更好地提取邊界特征。

        表2展示了相同實驗條件下不同模型推理速度和參數(shù)量的對比。MSNet在模型參數(shù)量上相較FCN增加了32.5百分點,但精度提升了14.84百分點。DeepLab V3+的MIoU指標與MSNet基本一致,但參數(shù)量增加了39.4百分點,在后期推理速度上明顯低于文中方法。由此可知,MSNet可以更好地遷移至嵌入式平臺。

        表2 推理速度和模型參數(shù)分割結果對比

        浮點運算(Floating Point Operation Per Second,FLOPs)是衡量神經(jīng)網(wǎng)絡效率的度量標準之一,表2比較了MSNet與不同模型的FLOPs運算量。對于相同運算量的FLOPs,MSNet在模型參數(shù)量以及運算速度上有著明顯優(yōu)勢。但同樣需要注意的是,浮點運算并非完全代表模型的效率,因為該指標并未考慮與網(wǎng)絡推理相關的因素,如內(nèi)存訪問、并行特性和平臺特性。

        4.3 消融實驗

        為了驗證不同模塊的作用,進行了一系列消融實驗,包括模型參數(shù)、FLOPs(浮點運算)、損失函數(shù)的分配比、解碼器選擇以及訓練策略的對比,同時從常用的雙線性插值上采樣方式逐步擴展到當前模型,以增量式消融實驗來驗證模型性能。

        表3 圖像語義分割方法參數(shù)量對比 (Decoders:解碼器)

        上采樣模型堆疊:為驗證網(wǎng)絡特性,將解碼器部分替換為雙線性插值上采樣步驟,并逐步替換該文所提的多尺度方法,主要階段有:5C+BI(5C:卷積下采樣,BI:雙線性插值上采樣);增量模式同時包括:(4C+M+BI),(3C+2M+BI),(2C+3M+BI),(C+4M+BI)和(5M+BI),其中M表示多尺度模塊,結果如表3所示。

        損失函數(shù)組合比例:損失函數(shù)的選擇同樣會影響網(wǎng)絡的性能,該文選擇的損失函數(shù)組合為:w1·Lls+w2·Lwce+w3·Lbd。首先,僅采用Lls和Lwce損失函數(shù)組合,但是在進行大量實驗之后發(fā)現(xiàn)邊界損失的比例也會明顯影響最終的平均交并比,如表4所示。

        表4 損失函數(shù)系數(shù)比率對比

        5 結束語

        圖像語義分割任務是計算機視覺領域的研究熱點,相較于傳統(tǒng)圖形學,語義分割在提取物體輪廓上有著更大優(yōu)勢。該文首先建立了一個苗繡繡片紋樣的圖像數(shù)據(jù)庫,并為每個圖像手動分配一個準確的苗繡類別標簽。然后,在基于公共數(shù)據(jù)庫和自建數(shù)據(jù)庫的基礎上提出了一種基于深度學習的多尺度語義分割方法,可以有效彌補通用框架在此類問題上的缺陷,例如繡片紋樣輪廓錯誤分割、遺漏分割等。實驗結果表明,模型不僅能對邊界特征進行高效提取,還在精度與速度之間取得平衡。此外,從文中方法的有效性上表明,將深度學習與傳統(tǒng)繡片特色相結合是一種比較有意義的方式。因此,在未來的工作中,會繼續(xù)探索與多尺度特征融合相關的網(wǎng)絡及觸發(fā)點,同時結合風格遷移對苗繡繡片紋樣的再設計做出更多研究。

        猜你喜歡
        紋樣語義實驗
        記一次有趣的實驗
        語言與語義
        做個怪怪長實驗
        《2020年杭州亞運會紋樣設計》
        流行色(2019年7期)2019-09-27 09:33:08
        藏族傳統(tǒng)紋樣中幾何紋樣的類型及其文化解讀
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語義的不對稱性及其認知闡釋
        袁飛紋樣設計
        湖南包裝(2016年2期)2016-03-11 15:53:17
        經(jīng)典的藝術幾何紋樣
        Coco薇(2015年10期)2015-10-19 15:03:24
        久久久久亚洲av成人无码| 在线观看免费的黄片小视频| 中文字幕综合一区二区三区| 亚洲av高清在线观看一区二区| 亚洲国产av导航第一福利网| 亚洲欧美日韩一区二区在线观看| 日本中文字幕官网亚洲| 久久午夜福利电影| 天堂草原电视剧在线观看图片高清| 亚洲伊人久久成人综合网| 国产99久久久国产精品免费| 亚洲综合av一区二区三区蜜桃| 亚洲色在线v中文字幕| 久久99精品久久久久久齐齐百度 | 国产精品久久一区二区蜜桃| 亚洲乱码中文在线观看| 国产在线精品成人一区二区三区| 亚洲午夜无码AV不卡| av在线资源一区二区| 久久国产人妻一区二区| 韩国精品一区二区三区无码视频| 日韩在线不卡一区在线观看| 成人国产高清av一区二区三区| 亚洲熟妇av一区| 国产精品一区二区 尿失禁 | 精品不卡视频在线网址| 午夜不卡无码中文字幕影院| 国产精品无码日韩欧| 日本韩国黄色三级三级| 国产毛女同一区二区三区| 欧美成人精品三级网站| 久久久久欧洲AV成人无码国产| 高清成人在线视频播放| 国产成人无码a在线观看不卡| 猫咪免费人成网站在线观看| 国产亚洲无码1024| 亚洲av迷人一区二区三区| 亚洲精品成人网线在线播放va| 亚洲国产A∨无码影院| 国产一区二区三区白浆肉丝| 日韩精品专区av无码|