亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的產(chǎn)品風(fēng)格精細(xì)識別

        2024-04-10 12:59:48蘇建寧張志鵬魚寶銀
        計算機集成制造系統(tǒng) 2024年3期
        關(guān)鍵詞:特征產(chǎn)品模型

        李 雄 ,蘇建寧 ,張志鵬 ,祝 鐸 ,魚寶銀

        (1.蘭州理工大學(xué) 機電工程學(xué)院,甘肅 蘭州 730050;2.蘭州城市學(xué)院 培黎機械工程學(xué)院,甘肅 蘭州 730070 3.蘭州理工大學(xué) 設(shè)計藝術(shù)學(xué)院,甘肅 蘭州 730050;)

        0 引言

        風(fēng)格策略及設(shè)計是提升產(chǎn)品設(shè)計質(zhì)量的重要手段之一[1]。良好的產(chǎn)品風(fēng)格設(shè)計可以有效傳達消費者的情感需求,也能充分體現(xiàn)設(shè)計師的理念,不僅是設(shè)計師與消費者溝通的重要方式,還是設(shè)計師準(zhǔn)確把握和理解消費者對產(chǎn)品情感認(rèn)知的重要途經(jīng)[2-3]。從廣義的角度來看,產(chǎn)品風(fēng)格是地域、文化、經(jīng)濟、生產(chǎn)技術(shù)等環(huán)境因素綜合折射的結(jié)果。但從狹義的角度看,產(chǎn)品風(fēng)格是通過不同的造型方法將各種造型元素分析、組織后,構(gòu)建出的一種具有相似造型特征的集合[2,4]。其內(nèi)涵涉及造型特征和意象特征[2],是物理層面與精神層面高度融合的結(jié)果。因此,如何快速、準(zhǔn)確、有效地計算產(chǎn)品風(fēng)格及生成方法構(gòu)建是研究者和實踐者們長期探索的方向[2,4-5],風(fēng)格識別作為產(chǎn)品風(fēng)格設(shè)計計算的首要任務(wù),在產(chǎn)品形態(tài)概念生成、設(shè)計評價和用戶偏好推薦等方面扮演著重要角色[2,4-7]。

        針對產(chǎn)品風(fēng)格計算,文獻[2]總結(jié)的4類方法相對全面合理,包括基于形狀文法的產(chǎn)品風(fēng)格描述與再現(xiàn)、基于感性工學(xué)的產(chǎn)品風(fēng)格與造型要素映射、基于認(rèn)知心理學(xué)的產(chǎn)品風(fēng)格認(rèn)知計算和基于模式識別理論的產(chǎn)品風(fēng)格計算模型。其中第4類方法屬于人工智能范疇,然而受限于當(dāng)時的算力、算法和數(shù)據(jù),研究并沒有獲得較好的效果,僅作為一種風(fēng)格查詢系統(tǒng)在使用[2]。近年來,深度學(xué)習(xí)作為人工智能的一個重要分支發(fā)展迅猛,特別是深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNNs)的發(fā)展使得計算機視覺(Computer Vision,CV)在圖像識別、目標(biāo)監(jiān)測、語義分割等方面取得了重要突破[8]。2012年AlexNet[9]橫空出世,在ImageNet(2010)上的圖像特征學(xué)習(xí)能力首次超過人工設(shè)計的特征,從而改變了人們對CV的理解方式。AlexNet不僅良好地繼承了它的前賢LeNet-5(1998)[10],同時對后續(xù)DCNNs研究影響深遠(yuǎn)。例如,NiN(2013)[11],VGG(2015)[12]、GoogLeNet(2015)[13]和ResNets(2015)[14]都不同程度地參考和學(xué)習(xí)AlexNet。其中ResNets提出了具有殘差塊的網(wǎng)絡(luò)結(jié)構(gòu),可將網(wǎng)絡(luò)深度提升至千層,為深度神經(jīng)網(wǎng)絡(luò)的收斂做出了重要貢獻。另外,研究者們提出的各種激活函數(shù)(如ReLU[15],GELUs[16])、暫退法(Dropout)[9,17]、層歸一化(Layer Normalization,LN)[18]和批歸一化(Batch Normalization,BN)[19]等方法與技術(shù)是避免深度神經(jīng)網(wǎng)絡(luò)過擬合或梯度消失的重要手段。這些神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)組件的提出不僅促進了深度學(xué)習(xí)技術(shù)發(fā)展,還為產(chǎn)品風(fēng)格智能識別與生成提供了技術(shù)基礎(chǔ)和研究思路。

        近幾年,一些研究者開始應(yīng)用DCNNs提取目標(biāo)產(chǎn)品的特征信息。HU等[20]針對家具風(fēng)格視覺分類任務(wù),通過實驗對比了基于人工特征設(shè)計的支持向量機(Support Vector Machine,SVM)和具有端到端學(xué)習(xí)能力的DCNNs(AlexNet、VGG16、GoogLeNet等),結(jié)果顯示DCNNs具有明顯優(yōu)勢,但人工設(shè)計的特征也不容忽視。朱斌等[21]應(yīng)用VGG16模型對座椅進行感性偏好識別,對比實驗結(jié)果表明VGG16感性識別準(zhǔn)確率超過經(jīng)典機器學(xué)習(xí)算法SVM。GONG等[22]基于AlexNet對產(chǎn)品包裝進行像素級的感性分析。ZHOU等[23]應(yīng)用簡化后的VGG11對汽車進行二分類美學(xué)評估。王亞輝等[24]結(jié)合感性評價提出基于ResNets的人工智能設(shè)計決策模型,以起重機造型語義分類為實例進行驗證。SU等[25]則應(yīng)用DFL-CNN對汽車進行細(xì)粒度感性偏好分類識別??梢奃CNNs在產(chǎn)品風(fēng)格、感性意象識別、美學(xué)評價方面的研究已取得一些成果。然而,現(xiàn)有研究多側(cè)重于驗證深度學(xué)習(xí)方法在風(fēng)格意象識別、美學(xué)評價等方面的可行性,所使用的算法模型多以通用經(jīng)典深度學(xué)習(xí)算法為主,鮮有針對產(chǎn)品風(fēng)格特征精細(xì)識別問題提出新的神經(jīng)網(wǎng)絡(luò)算法框架。盡管文獻[20]發(fā)現(xiàn)將人工設(shè)計特征和神經(jīng)網(wǎng)絡(luò)自動提取特征相結(jié)合能提高準(zhǔn)確率,但人工設(shè)計特征不僅耗時費力,而且不利于擴展風(fēng)格對象。因此,針對產(chǎn)品風(fēng)格特征提取及識別的神經(jīng)網(wǎng)絡(luò)算法仍需進一步研究。

        注意力機制(Attention Mechanism,AM)使得神經(jīng)網(wǎng)絡(luò)具備專注于核心特征的能力,最初在自然語言處理中被證實具有突出的效果,現(xiàn)已經(jīng)被廣泛用于不同的CV任務(wù),如圖像分類、語義分割、目標(biāo)檢測[26],可以有效降低網(wǎng)絡(luò)結(jié)構(gòu)和模型復(fù)雜度。在DCNNs方面多以視覺注意力為主,常采用通道注意力和空間注意力。遷移學(xué)習(xí)(Transfer Learning,TL)是機器學(xué)習(xí)中解決訓(xùn)練數(shù)據(jù)不足問題的重要方法[27],它試圖通過放寬小樣本數(shù)據(jù)集必須為獨立同分布的假設(shè),將知識和經(jīng)驗從源域遷移到目標(biāo)域。遷移學(xué)習(xí)在CV領(lǐng)域發(fā)揮了重要作用,通過在大數(shù)據(jù)集上預(yù)先訓(xùn)練獲得一套模型參數(shù),針對新的任務(wù)模型參數(shù)不再隨機初始化,從而實現(xiàn)網(wǎng)絡(luò)模型保留了在大數(shù)據(jù)集上獲得的經(jīng)驗和知識。

        產(chǎn)品風(fēng)格精細(xì)識別是圖像識別的一種特殊形式,屬于CV應(yīng)用研究子領(lǐng)域。相比粗粒度大類識別,產(chǎn)品風(fēng)格精細(xì)識別屬于細(xì)粒度子類識別問題,要求神經(jīng)網(wǎng)絡(luò)提取更多具有差異性的細(xì)節(jié)特征。另外,不同風(fēng)格產(chǎn)品圖像的數(shù)量是有限的,可歸為小樣本學(xué)習(xí)范疇[28]。因此,產(chǎn)品風(fēng)格精細(xì)識別是一項更有挑戰(zhàn)性的圖像識別任務(wù)。注意力使得神經(jīng)網(wǎng)絡(luò)具有自上而下的特征選擇而忽略無關(guān)特征的機制;預(yù)先訓(xùn)練模型作為遷移學(xué)習(xí)的重要范式為新的圖像識別任務(wù)提供“通用視覺特征”,如“線條”、“輪廓”等。

        基于上述分析,為更專注、更高效地抽取具有差異性的風(fēng)格特征,提出一種基于復(fù)合學(xué)習(xí)機制(通路)的細(xì)粒度風(fēng)格識別卷積神經(jīng)網(wǎng)絡(luò),同時融入注意力機制和遷移學(xué)習(xí)模式,以提升產(chǎn)品風(fēng)格識別準(zhǔn)確率。該算法模型有助于設(shè)計師在風(fēng)格特征設(shè)計階段更有效地檢索預(yù)期風(fēng)格產(chǎn)品,實現(xiàn)對已有風(fēng)格特征的檢索和重用,也為識別用戶風(fēng)格偏好提供新的技術(shù)支持。

        1 產(chǎn)品風(fēng)格精細(xì)識別算法模型

        1.1 風(fēng)格識別網(wǎng)絡(luò)

        產(chǎn)品風(fēng)格精細(xì)識別任務(wù)屬于類內(nèi)間的細(xì)粒度識別問題。DCNNs在圖像特征學(xué)習(xí)方面的能力出眾,特別是在數(shù)據(jù)量充足的條件下能夠?qū)崿F(xiàn)接近或超過人類分類識別水平[8]。然而,大多數(shù)產(chǎn)品歷史圖像數(shù)據(jù)較為有限,具體到不同風(fēng)格的樣本數(shù)據(jù)量則更小。本文創(chuàng)建的自行車頭盔風(fēng)格數(shù)據(jù)集,平均每種風(fēng)格約有1 200幅圖像,屬于小樣本數(shù)據(jù)集。如果使用較淺的網(wǎng)絡(luò)模型難學(xué)習(xí)到更多有效特征,而采用較深的網(wǎng)絡(luò)模型又易產(chǎn)生過擬合,二者均容易導(dǎo)致模型性能下降[8,28]。

        研究表明,人腦神經(jīng)系統(tǒng)有兩個相對重要的學(xué)習(xí)機制,即遷移學(xué)習(xí)和注意力機制,前者能將從前積累的經(jīng)驗用于解決新問題,后者可有效處理信息過載問題。為融合、模擬這兩種學(xué)習(xí)機制,本文提出一種復(fù)合并行學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法框架,包括注意力學(xué)習(xí)通路和遷移學(xué)習(xí)通路,用于提高復(fù)雜產(chǎn)品造型風(fēng)格的識別精度,如圖1所示。注意力學(xué)習(xí)通路實現(xiàn)“專用特征”學(xué)習(xí),遷移學(xué)習(xí)通路基于大數(shù)據(jù)預(yù)先訓(xùn)練模型實現(xiàn)“通用特征”學(xué)習(xí)。同時給出一種具體的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)形式,并命名為細(xì)粒度風(fēng)格識別卷積神經(jīng)網(wǎng)絡(luò)(Fine-grained Style Recognition Convolutional Neural Networks,FSR-CNN),如圖2所示。一方面注意力學(xué)習(xí)通路由一種混合注意力殘差網(wǎng)絡(luò)(Hybrid Attention-based ResNet,HA-ResNet)結(jié)構(gòu)實現(xiàn),是在修改后的殘差網(wǎng)絡(luò)結(jié)構(gòu)中嵌入多種注意力,優(yōu)點是注意力強且結(jié)構(gòu)簡潔,但模型容量較小;另一方面遷移學(xué)習(xí)通路采用預(yù)先訓(xùn)練的GoogLeNet實現(xiàn),優(yōu)點是能通過小量數(shù)據(jù)學(xué)習(xí)引入外部經(jīng)驗記憶特征,以擴充HA-ResNet的容量。兩條并行的學(xué)習(xí)通路優(yōu)勢互補,“專用特征”與“通用特征”的數(shù)量比為2∶1。最終的風(fēng)格識別輸出通過特征融合層和多層感知機(Multilayer perceptron,MLP)分類器實現(xiàn)。

        圖1 復(fù)合學(xué)習(xí)機制的神經(jīng)網(wǎng)絡(luò)算法框架

        圖2 細(xì)粒度風(fēng)格識別卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        1.2 混合注意力殘差網(wǎng)絡(luò)

        在卷積神經(jīng)網(wǎng)絡(luò)中,較淺層用于捕獲低階語義特征,較深層可學(xué)習(xí)到更高階的語義特征,因此卷積神經(jīng)網(wǎng)絡(luò)一直向著更深的網(wǎng)絡(luò)結(jié)構(gòu)發(fā)展。然而深層網(wǎng)絡(luò)容易出現(xiàn)退化現(xiàn)象,模型訓(xùn)練難度大,容易出現(xiàn)梯度消失和梯度爆炸。為此,HE等[14]提出了殘差學(xué)習(xí)框架,即通過快速跳躍連接的方式將信號前饋補償,構(gòu)建出了殘差表示學(xué)習(xí)方法,從而解決了上述問題。這使得殘差結(jié)構(gòu)既可以增加網(wǎng)絡(luò)層數(shù),又能夠防止網(wǎng)絡(luò)退化現(xiàn)象。另外,注意力機制作為一種資源分配方案,能將有限的計算資源用來處理更關(guān)鍵的信息,可有效提高神經(jīng)網(wǎng)絡(luò)的計算效率[26,29]?;诖?本文提出混合注意力殘差網(wǎng)絡(luò)HA-ResNet,如圖2所示。以殘差結(jié)構(gòu)作為網(wǎng)絡(luò)基礎(chǔ)架構(gòu),采用串并結(jié)合的方式將3種不同的注意力分階段嵌入其中,有助于注意力學(xué)習(xí)通路捕獲產(chǎn)品風(fēng)格關(guān)鍵特征信息。

        由圖2可知,HA-ResNet輸入的是一幅產(chǎn)品圖像,輸出是該產(chǎn)品造型風(fēng)格注意力特征張量,共有3個模塊組成,分別是圖像輸入模塊、串行注意力模塊和并行注意力模塊。輸入模塊采用1個卷積層對輸入圖像進行處理,卷積核的尺寸為7×7,步長為2,將輸入的3通道特征圖映射后輸出64通道的特征圖。使用LN代替BN對卷積層的輸出進行層歸一化,將高斯線性誤差單元GELUs作為激活函數(shù),并用最大匯聚層(MaxPool2d)對激活后的特征進行降維。接著是串行注意力模塊,由卷積殘差塊和坐標(biāo)注意力塊順序交替組成,將特征圖從64維映射到128維。最后是并行注意力模塊,包括1個卷積殘差塊和1個混合注意力塊。先由卷積殘差塊將特征圖從128維提升至256維;然后利用自適應(yīng)平均匯聚(AdaptiveAvgPool2d)提取特征并輸出尺寸為7×7的特征圖,為防止過擬合在其后加入Dropout層(概率為0.6);最后分別由卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)和多頭注意力(Multi-Head Attention,MHA)模塊并行關(guān)注而成。另外,所有卷積殘差塊中卷積核的尺寸為5×5,且激活函數(shù)混合使用GELUs和ReLU。

        1.2.1 串行注意力模塊

        深度神經(jīng)網(wǎng)絡(luò)靠前的淺層可識別物體的邊、角和輪廓,靠后的深層可識別整體對象部分[30],這是一種從局部到整體的識別模式。然而這與WERTHEIMER[31]最先提出的格式塔視覺心理感知組織原則存在差異性。該視覺組織原則包括接近原則(相近的元素傾向于被組織成單元)、相似原則(看上去相像的物體常常被組合為一體)、連續(xù)性原則(除非有尖銳的拐點出現(xiàn),不然視覺知覺認(rèn)為是連續(xù)的)和閉合原則(傾向于完整地構(gòu)建一個圖形,而不是觀察殘缺的線條或形狀)。通常,人們對產(chǎn)品風(fēng)格的視覺心理感知同樣遵循某一條或某幾條原則。這說明人的視覺感知具有先整體后局部的先驗性特點,為人類快速識別對象提供了有效支持。為了模擬這種視覺感知特點,論文在卷積神經(jīng)網(wǎng)絡(luò)較淺層嵌入具有全局注意力機制的坐標(biāo)注意力塊(Coordinate Attention Block,CAB)[32]。如此可使較淺的卷積層提前關(guān)注到全局信息,有助于降低網(wǎng)絡(luò)的深度。由圖2可知,串行注意力模塊是由殘差塊和CAB串聯(lián)而成,其中殘差塊已在上文進行詳述,在此重點討論CAB的算法結(jié)構(gòu)。

        CAB機制的實現(xiàn)如圖3所示。首先,分別從水平方向和垂直方向進行平均匯聚操作得到兩個特征向量;其次,在空間維度上先進行特征拼接操作(Concat operation),后進行1×1卷積運算,從而實現(xiàn)壓縮通道數(shù);然后,通過BN處理和非線性變換來編碼垂直方向和水平方向的空間信息,并對其進行分割操作(Split operation);接著,再各自通過1×1卷積運算獲得與輸入通道數(shù)相同的特征圖,并使用Sigmoid激活函數(shù)對特征數(shù)據(jù)進行歸一化;最后,實現(xiàn)加權(quán)輸出與輸入相同維度的特征圖??偨Y(jié)來說,CAB機制首先是在水平方向和垂直方向上同時進行平均匯聚,然后通過一系列變換方法對空間信息進行編碼,最后把空間信息在通道維度上以加權(quán)求和的方式進行融合,從而實現(xiàn)更大區(qū)域特征信息的關(guān)注。具體網(wǎng)絡(luò)設(shè)計是在第2個卷積殘差塊后使用了1個通道數(shù)為64、高寬均為56的CAB,以及在第3個卷積殘差塊之后使用了1個通道數(shù)為128、高寬均為28的CAB,從而構(gòu)建了一個殘差坐標(biāo)串行注意力模塊,如圖2(第Ⅰ部分)所示。

        圖3 坐標(biāo)注意力模塊[32]

        1.2.2 并行注意力模塊

        由圖2(第Ⅰ部分)可知,并行注意力模塊由1個卷積殘差塊和兩個并行通路的注意力塊組成,前者執(zhí)行產(chǎn)品造型特征的高層語義表示,后者實現(xiàn)對重要信息的提取。由于HA-ResNet使用較少的卷積層進行特征提取,但為了從網(wǎng)絡(luò)深層獲得更多關(guān)鍵特征表示,本文提出混合兩種不同的注意力機制進行并行特征關(guān)注,并與殘差塊順序連接構(gòu)成并行注意力模塊,如圖4所示。其中,CBAM是一種靜態(tài)注意力計算模式;而MHA則是以動態(tài)生成注意力權(quán)重的方式捕捉交互信息,并且能以多頭并行運算方式過濾信息。因此,以動靜并行的注意力計算模式有利于關(guān)注到深層次的風(fēng)格特征。

        圖4 并行注意力模塊

        CBAM[33]是一種用于前饋卷積神經(jīng)網(wǎng)絡(luò)的注意力模塊,由通道注意力和空間注意力混合而成,如圖4上半部分所示??蓪o定任何中間特征圖在通道和空間依次推斷出注意力圖,然后將注意力圖與給定的中間特征圖相乘以進行自適應(yīng)特征精煉,從而實現(xiàn)對關(guān)鍵特征提取。其連續(xù)的注意力計算過程為:

        (1)

        式中:?表示按元素相乘,Fin∈256×7×7是前一層AdaptiveAvgPool2d輸出的特征圖,Mc∈256×1×1表示1維通道注意力映射,Ms∈1×7×7表示2維空間注意力映射。

        MHA[34]是通過將h個自注意力頭以并行獨立學(xué)習(xí)的方式表示不同的關(guān)注行為,能讓每個頭都關(guān)注輸入的不同部分,可以表示比簡單加權(quán)平均值更復(fù)雜的函數(shù),如圖4下半部分所示。具體來說,當(dāng)給定相同的查詢(q∈dq)、鍵(k∈dk)和值(v∈dv)信息集合時,可以用獨立學(xué)習(xí)得到的h個不同的線性映射來變換它們,并對其進行注意力匯聚和拼接,注意力頭hi(i=1,…,h)計算方法為:

        (2)

        最后的輸出需經(jīng)過一個線性變換得到:

        (3)

        式中:Wo∈po×hpv為可學(xué)習(xí)的參數(shù)。

        綜合考慮CBAM和MHA,混合注意力特征計算方法為:

        (4)

        式中:fRD表示特征張量變形及均值降維,FCBAM∈256表示經(jīng)fRD映射后的卷積塊注意力特征;hi∈{1,2,3,…,6}表示使用了6個自注意力頭,FMHA∈256表示經(jīng)fRD映射后的多頭自注意力特征;fCON表示特征拼接操作,FCON∈512表示經(jīng)fCON映射后的混合注意力特征。

        1.3 基于GoogLeNet的遷移學(xué)習(xí)網(wǎng)絡(luò)

        通常,提升網(wǎng)絡(luò)性能最直接的辦法就是增加網(wǎng)絡(luò)深度,但一味地增加會導(dǎo)致網(wǎng)絡(luò)參數(shù)激增、模型變大、容易導(dǎo)致過擬合、梯度消失、難以收斂等問題。為了解決這些問題,GoogLeNet研究人員基于赫布原理(Hebbian principle)和多尺度處理方法,提出具有并行卷積計算的Inception block算法[13],如圖2(第Ⅱ部分)所示。Inception block由4條并行的卷積運算路徑構(gòu)成。前3條路徑分別使用卷積核為1×1、3×3和5×5的卷積層抽取不同尺度的空間特征。第2、3條路徑為減少通道數(shù),均使用了1×1卷積層對輸入進行處理,從而降低了模型的復(fù)雜度。第4條路徑則首先使用核尺寸為3×3的最大匯聚層,然后應(yīng)用1×1卷積層來改變通道數(shù)。為了使輸入和輸出的尺寸一致,4條路徑的卷積層均使用了相適應(yīng)的填充。最后將每條路徑上的輸出特征在通道維度上進行拼接操作。該算法重點解決了適度卷積核尺寸問題。通過組合不同大小卷積核的方式抽取不同尺度的細(xì)節(jié)特征,從網(wǎng)絡(luò)寬度的角度提升模型性能,最終的GoogLeNet共串聯(lián)了9個Inception block。相比LeNet-5[10]、AlexNet[9]、NiN[11]、VGG[12]等串行卷積運算方式,GoogLeNet的卷積層并行運算方式更有利于細(xì)粒度產(chǎn)品風(fēng)格特征抽取。因此,本文采用在ImageNet上預(yù)先訓(xùn)練的GoogLeNet作為遷移學(xué)習(xí)通路,以便抽取多尺度“通用特征”,有助于擴充HA-ResNet容量,同時也擴展了FSR-CNN的寬度。對模型最后一個線性層進行微調(diào),先將其輸出特征修改為256,然后進行層歸一化處理,并將GELUs作為激活函數(shù)層,最后使用Dropout層預(yù)防過擬合,概率為0.3,如圖2(第Ⅱ部分)所示。

        1.4 損失函數(shù)

        (5)

        1.5 評價指標(biāo)

        為了驗證比較模型的風(fēng)格識別性能,本文采用與文獻[21,23,25]相同的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值(F1Score)對訓(xùn)練好的模型進行評估比較,如式(6)~式(9)所示:

        (6)

        (7)

        (8)

        (9)

        式中:TP是指實際為正例,預(yù)測為正例的樣本數(shù)量;TN是指實際為負(fù)例,預(yù)測為負(fù)例的樣本的數(shù)量;FP代表實際為負(fù)例,但被預(yù)測為正例的樣本數(shù)量;FN代表實際為正例,但被預(yù)測為負(fù)例的樣本的數(shù)量。

        2 實驗

        本文實驗平臺為雙GPU(RTX2080/8GB顯存),并使用CUDA11.0加速;操作系統(tǒng)為Ubuntu18.04,深度學(xué)習(xí)框架為PyTorch1.8.1;訓(xùn)練過程由Visdom可視化監(jiān)測。以自行車頭盔數(shù)據(jù)集對FSR-CNN及對比算法模型進行訓(xùn)練。

        2.1 數(shù)據(jù)集

        由于目前鮮有開源細(xì)粒度產(chǎn)品風(fēng)格數(shù)據(jù)集,本文創(chuàng)建了1個自行車頭盔風(fēng)格數(shù)據(jù)集,共包含6 502幅自行車頭盔圖像,訓(xùn)練/驗證集為6 217幅,測試集為285幅。一共有5類風(fēng)格的自行車頭盔圖像,即波線型(線條交錯)、科幻型(造型獨特)、流線型(多線條并行)、硬朗型(型面交錯規(guī)整)、包裹型(形態(tài)圓潤),每種風(fēng)格的樣例和數(shù)量如表1所示。

        表1 自行車頭盔風(fēng)格數(shù)據(jù)集

        2.2 網(wǎng)絡(luò)驗證實驗

        2.2.1 網(wǎng)絡(luò)對比實驗

        設(shè)FSR-CNN最大訓(xùn)練輪數(shù)max_epoch為800,批量大小batch_size為88。使用AadmW[35]優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率為2E6,β1=0.9,β2=0.999,同時使用權(quán)重衰減策略,衰減系數(shù)λ為5E-2。訓(xùn)練時將自行車頭盔風(fēng)格數(shù)據(jù)集劃分為訓(xùn)練集與驗證集,比例為6∶4。

        如圖5所示為FSR-CNN訓(xùn)練損失與驗證損失變化對比,誤差均逐輪降低并趨于穩(wěn)定,其中驗證損失曲線下降的更快,表明網(wǎng)絡(luò)具有較好地學(xué)習(xí)和抗過擬合能力。圖6為訓(xùn)練準(zhǔn)確率與驗證準(zhǔn)確率曲線對比,二者均逐輪上升,其中驗證準(zhǔn)曲率增長相對較快,并最終趨于穩(wěn)定,表明具有較好地泛化性能。最好模型出現(xiàn)在第725輪,其驗證準(zhǔn)確率為87.79%。

        圖5 訓(xùn)練損失與驗證損失對比

        圖6 訓(xùn)練準(zhǔn)確率與驗證準(zhǔn)確率對比

        為對比驗證,還訓(xùn)練了7個經(jīng)典DCNNs算法模型,即LeNet-5[10]、AlexNet[9]、VGG11[12]、VGG16[12]、GoogLeNet[13]、GoogLeNet(pretrained)[13]和ResNet18[14],網(wǎng)絡(luò)深度依次增加。需要說明的是不同的超參數(shù)會對訓(xùn)練結(jié)果產(chǎn)生不同程度的影響,本著較小過擬合的原則經(jīng)過多次實驗,7個對比模型選擇了訓(xùn)練曲線與驗證曲線振蕩較小的超參數(shù),具體如表2所示。訓(xùn)練模型時,驗證集的損失變化曲線與準(zhǔn)確率變化曲線如圖7和圖8所示。對比可知FSR-CNN的驗證誤差下降明顯,小至0.4附近且振蕩小;同時驗證準(zhǔn)確率曲線逐輪提升,且振蕩最小。這表明FSR-CNN算法模型具有更好的泛化能力和穩(wěn)健性。

        表2 經(jīng)典算法模型的超參數(shù)

        圖7 8個算法模型的驗證損失變化曲線對比

        圖8 8個算法模型的驗證準(zhǔn)確率變化曲線對比

        在測試集上對訓(xùn)練好的FSR-CNN及上述7個算法模型進行風(fēng)格識別性能測試,結(jié)果如表3所示,加粗?jǐn)?shù)據(jù)表示最優(yōu)值??芍?FSR-CNN在準(zhǔn)確率、精確率、召回率和F1值4項評價指標(biāo)均高于其他7個DCNNs算法模型,說明該模型與自行車頭盔風(fēng)格數(shù)據(jù)集的復(fù)雜度最匹配。同時,還可看出GoogLeNet在6個非預(yù)訓(xùn)練算法模型中的表現(xiàn)相對更好,這也驗證了選擇GoogLeNet作為遷移學(xué)習(xí)通路具有一定的合理性。

        表3 FSR-CNN與經(jīng)典算法模型對比結(jié)果

        另外,通常由于數(shù)據(jù)集中的每種風(fēng)格類型的樣本數(shù)量是不相等的,表3中的評價結(jié)果并不能直接反映出模型在每個風(fēng)格類型中的識別性能。因此,必須使用更有效的指標(biāo)來衡量FSR-CNN的性能?;煜仃?confusion matrix)是評價分類識別模型優(yōu)劣的更直觀的工具。如圖9所示為FSR-CNN模型在測試集上的混淆矩陣,矩陣的每一列代表模型識別的結(jié)果,矩陣的每一行表示樣本的真實風(fēng)格標(biāo)簽。

        圖9 FSR-CNN在測試集上的混淆矩陣

        由圖9可獲得識別錯誤的風(fēng)格類型和樣本數(shù)量,波線型(1Sleek)、流線型(3Streamline)、硬朗型(4Hale)和包裹型(5Wrap)各有4個、5個、3個和5個的自行車頭盔被識別為科幻型風(fēng)格(2Sci-fi),同時科幻型風(fēng)格有4個被識別為波線型,8個被識別為硬朗型,2個被識別為包裹型。波線型中有4個被識別為科幻型、2個被識別為流線型、1個被識別為硬朗型。另外,前4種風(fēng)格中除了科幻型有2個被識別為包裹型外,其余風(fēng)格均識別正確,而包裹型風(fēng)格中有5個被識別為科幻型,4個被識別為硬朗型。由此表明,模型識別科幻型風(fēng)格的準(zhǔn)確率最低,而識別包裹型風(fēng)格的準(zhǔn)確率最高。進一步通過式(7)~式(9)可得到每種風(fēng)格類型的具體精確率、召回率和F1值,結(jié)果見表4。比較F1值可知,模型在5種風(fēng)格類型上的穩(wěn)健性由高到低依次為包裹型、硬朗型、波線型、流線型和科幻型。部分風(fēng)格樣例識別結(jié)果如圖10所示。

        表4 FSR-CNN風(fēng)格類型評價結(jié)果

        圖10 FSR-CNN的風(fēng)格預(yù)測結(jié)果(部分)

        2.2.2 網(wǎng)絡(luò)消融實驗

        對于較為復(fù)雜的神經(jīng)網(wǎng)絡(luò),消融實驗常用于分析各神經(jīng)網(wǎng)絡(luò)算法模塊對整個網(wǎng)絡(luò)的貢獻性,可采用刪除網(wǎng)絡(luò)中的部分算法模塊以驗證其對網(wǎng)絡(luò)整體性能的影響。為了驗證2個學(xué)習(xí)通路對FSR-CNN的影響,以及不同的注意力機制對FSR-CNN的影響,本文以模塊組別的方式設(shè)計了消融實驗。其中,組別0是FSR-CNN,組別1是FSR-CNN中的注意力學(xué)習(xí)通路HA-ResNet,組別2是FSR-CNN中的遷移學(xué)習(xí)通路,組別3是刪除了FSR-CNN中的坐標(biāo)注意力機制(CAB),組別4是刪除了FSR-CNN中的混合注意力塊(CBAM和MHA)。如表5所示為各組別神經(jīng)網(wǎng)絡(luò)算法在測試數(shù)據(jù)集上的識別性能對比結(jié)果,加粗?jǐn)?shù)據(jù)表示最優(yōu)值??梢钥闯?FSR-CNN在準(zhǔn)確率、精確率、召回率和F1值4個評價指標(biāo)上的表現(xiàn)均最佳。因此,FSR-CNN模型具有一定的合理性和先進性。

        表5 各組別神經(jīng)網(wǎng)絡(luò)消融實驗對比

        3 討論

        面對FSR-CNN對自行車頭盔風(fēng)格的預(yù)測結(jié)果,可由圖10中的一些結(jié)果作進一步分析和推斷。在波線風(fēng)格中,3號方案被識別為科幻型,但識別概率(0.558)較低,這是由于該方案的線條交錯相對規(guī)整。在科幻風(fēng)格中,8號方案被識別為包裹型,這是由于該方案在整體造型上與包裹型比較接近,僅通過頭盔后部翹起的漸消面體現(xiàn)科技感,容易導(dǎo)致識別錯誤;對比9號和10號方案發(fā)現(xiàn),受視角影響9號方案被識別為包裹型。在流線型風(fēng)格中,因風(fēng)格特征不夠強烈導(dǎo)致識別錯誤,如12號方案。在硬朗型風(fēng)格中,因部分方案存在風(fēng)格特征的交叉而容易出現(xiàn)識別偏差,如17號方案兼具波線型和硬朗型,但標(biāo)簽更偏向硬朗型風(fēng)格。在包裹型風(fēng)格中,同樣出現(xiàn)因風(fēng)格特征差異不明顯導(dǎo)致的識別錯誤,如22號方案,其標(biāo)簽為包裹型,但模型識別為科幻型。由此可知,產(chǎn)品風(fēng)格分類與識別,不僅需要從總體上識別產(chǎn)品的造型結(jié)構(gòu),還需要考慮視角,以及判別具體形態(tài)細(xì)節(jié),如線條、尺度、色彩等。

        結(jié)合圖10中的識別結(jié)果,考慮到神經(jīng)網(wǎng)絡(luò)算法缺乏人類視覺的空間構(gòu)思能力,單一視角容易出現(xiàn)識別錯誤。為此,本文嘗試了多視角綜合識別任務(wù),如圖11所示。發(fā)現(xiàn)綜合評估多個視角的風(fēng)格特征概率能夠提高預(yù)測準(zhǔn)確率,同時也表明FSR-CNN具有較好的泛化能力。

        圖11 多視角綜合識別結(jié)果

        FSR-CNN本質(zhì)上輸出的是設(shè)計方案的風(fēng)格概率分布,因此能夠?qū)υO(shè)計師繪制的概念草圖進行風(fēng)格概率分布預(yù)測,如圖12所示。從該圖中可以清晰地看出每種概念設(shè)計方案的造型特質(zhì)和風(fēng)格趨向,有助于高效引導(dǎo)設(shè)計師分析、探索和聚焦符合用戶風(fēng)格認(rèn)知的設(shè)計概念。例如,圖中Sketch_6以流線型(3Strealine)為主,兼具波線(1Sleek)和硬朗(4Hale),且波線風(fēng)格強于硬朗,而包裹和科幻風(fēng)格特征則相對很小。與形狀文法、感性工學(xué)等[2]傳統(tǒng)風(fēng)格計算方法相比,無論是在風(fēng)格要素評價上,還是在產(chǎn)品風(fēng)格繼承性和競爭對手產(chǎn)品決策分析方面[1],FSR-CNN的風(fēng)格計算識別方法為設(shè)計師提供了一種相對理性、高效的智能分析手段,有利于設(shè)計團隊及時調(diào)整和把控產(chǎn)品風(fēng)格策略。

        圖12 FSR-CNN風(fēng)格策略分析

        FSR-CNN為產(chǎn)品風(fēng)格智能分類與識別提供了新方法和新思路,但該項工作仍有一個問題必須面對。產(chǎn)品風(fēng)格傳遞的是一種綜合體驗,既有物理層面的造型特征,還有精神層面的意象特征。從2.2.1節(jié)的實驗過程及結(jié)果可知,FSR-CNN更多的是在物理層面學(xué)習(xí)不同風(fēng)格間的差異性特征,所提供的單一風(fēng)格標(biāo)簽標(biāo)是其進行學(xué)習(xí)的引導(dǎo)性準(zhǔn)則,未融入多樣化的風(fēng)格情感屬性。這也是細(xì)粒度風(fēng)格識別出錯的一個重要因素。因此,還需挖掘產(chǎn)品在線評論數(shù)據(jù),進一步探索多模態(tài)多標(biāo)簽產(chǎn)品風(fēng)格識別方法,以及多標(biāo)簽風(fēng)格策略分析。

        4 結(jié)束語

        針對產(chǎn)品風(fēng)格精細(xì)識別任務(wù),本文提出一個細(xì)粒度風(fēng)格識別深度卷積神經(jīng)網(wǎng)絡(luò)FSR-CNN,以復(fù)合并行通路連接的方式融入了遷移學(xué)習(xí)和注意力機制。這兩種學(xué)習(xí)機制的聯(lián)合為產(chǎn)品風(fēng)格精細(xì)識別提供了新思路,不但有利于抽取更加細(xì)膩的特征,而且面對小數(shù)據(jù)集有抗過擬合特性。消融實驗不僅驗證了FSR-CNN在產(chǎn)品風(fēng)格精細(xì)識別上的優(yōu)良性能,還進一步地表明了復(fù)合學(xué)習(xí)機制的優(yōu)勢。

        注意力學(xué)習(xí)通路使用論文提出的混合注意力殘差網(wǎng)絡(luò)HA-ResNet實現(xiàn)。該網(wǎng)絡(luò)在殘差映射結(jié)構(gòu)中先以串行的方式嵌入了兩個坐標(biāo)注意力塊,而后以并行的方式同時嵌入了卷積塊注意力和多頭注意力,不僅能夠較早地關(guān)注自行車頭盔風(fēng)格特征的全局信息,還能重點關(guān)注空間位置信息和有效的特征差異信息,對提升模型的識別準(zhǔn)確率起到了至關(guān)重要的作用。遷移學(xué)習(xí)通路采用預(yù)先訓(xùn)練的GoogLeNet,其網(wǎng)絡(luò)結(jié)構(gòu)特點是多感受野并行計算,能提取更加細(xì)膩的風(fēng)格特征細(xì)節(jié)。另外,面對樣本數(shù)量有限的條件下,在網(wǎng)絡(luò)中加入層歸一化、自適應(yīng)平局匯聚和暫退法,并混合使用ReLU和GELUs激活函數(shù),有利于緩解過擬合現(xiàn)象,提升模型泛化能力。

        通過實驗與7個經(jīng)典深度卷積神經(jīng)網(wǎng)絡(luò)對比,證明FSR-CNN能以較高的準(zhǔn)確率和良好的穩(wěn)健性對自行車頭盔圖像進行風(fēng)格識別。與傳統(tǒng)風(fēng)格認(rèn)知計算模式相比,FSR-CNN無需手工提取特征,實現(xiàn)端到端的風(fēng)格識別,且省時省力。不僅可以輔助設(shè)計師實施產(chǎn)品智能風(fēng)格策略分析及設(shè)計定位,還可為用戶精準(zhǔn)風(fēng)格推薦提供支持,也為產(chǎn)品風(fēng)格聚類奠定了基礎(chǔ)。

        本文所提出的具有復(fù)合學(xué)習(xí)機制的并行網(wǎng)絡(luò)架構(gòu)也可以應(yīng)用到其他精細(xì)分類和識別任務(wù),針對類內(nèi)間差異大小、數(shù)據(jù)集規(guī)模等,設(shè)計出更有針對性的混合注意力網(wǎng)絡(luò)通路,以及嘗試更合適的遷移學(xué)習(xí)網(wǎng)絡(luò)通路。

        猜你喜歡
        特征產(chǎn)品模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        2015產(chǎn)品LOOKBOOK直擊
        Coco薇(2015年1期)2015-08-13 02:23:50
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        新產(chǎn)品
        玩具(2009年10期)2009-11-04 02:33:14
        色综合久久精品中文字幕| 亚洲 欧美 国产 制服 动漫| 亚洲avav天堂av在线网爱情| 久久精品国产亚洲av电影| 中文字幕av无码一区二区三区电影 | 在线视频制服丝袜中文字幕| 亚洲国产一区久久yourpan| 自拍偷拍韩国三级视频| 亚洲av永久无码天堂网| 国产av一区二区精品久久凹凸| 国产欧美另类精品久久久| 亚洲中文字幕一区高清在线 | 久久久久亚洲av无码专区桃色| 成人无码a级毛片免费| 亚洲精品中文字幕91| 国产激情艳情在线看视频| 亚洲熟妇丰满大屁股熟妇| 在线a人片免费观看高清| 国产一区二区av在线免费观看| 国产精品久久久久久福利| a在线观看免费网站大全| 久久AⅤ无码精品色午麻豆| 日本久久精品福利视频| 白丝兔女郎m开腿sm调教室| 日韩毛片基地一区二区三区| 超级少妇一区二区三区| 日韩精品人妻系列中文字幕| 国产人与zoxxxx另类| 国产欧美精品一区二区三区–老狼 | 欧美末成年videos在线观看| 亚洲综合精品在线观看中文字幕| 国产精品高清视亚洲乱码| 国产99久久久国产精品免费看| 国产又黄又爽视频| 国产毛片精品一区二区色| 中文字幕av中文字无码亚| 免费观看又色又爽又黄的韩国| 国产欧美激情一区二区三区| 国产精品性色av麻豆| 亚洲 卡通 欧美 制服 中文| 日韩免费小视频|