王祖斌
(蘭州職業(yè)技術(shù)學院,甘肅 蘭州 730070)
在日常生活中,服裝發(fā)揮著重要的作用。但是服裝樣式和種類的增加,導(dǎo)致搭配難度上升,并不是每一個人都能從大量服裝中挑選并搭配出得體的套裝。需要從用戶的實際需求出發(fā),對服裝搭配模型進行分析,使用戶通過搭配模型獲取合適的服裝搭配方案。
神經(jīng)網(wǎng)絡(luò)技術(shù)是一種模擬人腦功能的信息處理系統(tǒng),在該技術(shù)應(yīng)用過程中,主要是參考人腦神經(jīng)系統(tǒng)對信息進行處理的過程。神經(jīng)網(wǎng)絡(luò)以數(shù)學網(wǎng)絡(luò)拓撲為基礎(chǔ)理論發(fā)展而來,其主要特點是大規(guī)模并行性、高度容錯性,還具有自適應(yīng)、自學習、自組織等功能。神經(jīng)網(wǎng)絡(luò)技術(shù)與信息技術(shù)進行融合具有廣闊的應(yīng)用前景,神經(jīng)網(wǎng)絡(luò)的研究包含了計算機科學、控制論、信息科學、心理學、認知科學、數(shù)學等不同學科。神經(jīng)網(wǎng)絡(luò)具有非傳統(tǒng)表達方式和固有的學習能力,在控制領(lǐng)域的特點主要表現(xiàn)在以下方面。第一,非線性映射能力。神經(jīng)網(wǎng)絡(luò)可以無限逼近任意復(fù)雜的非線性關(guān)系,并且能夠形成非線性動力學系統(tǒng),對某些被控對象的模型或者控制器模型進行表示[1]。第二,具有較強的自適應(yīng)功能??梢圆粩嘧赃m應(yīng)修正網(wǎng)絡(luò)權(quán)值,并且能夠?qū)W習與適應(yīng)不確定性系統(tǒng)的動態(tài)特性。第三,具有較強的泛化功能。神經(jīng)網(wǎng)絡(luò)可以對未經(jīng)過訓(xùn)練的數(shù)據(jù)進行處理,并且能夠獲取數(shù)據(jù)的合適解答。除此之外,可以對一些含有噪聲的數(shù)據(jù)進行處理,所有定量信息都能夠分布存儲在網(wǎng)絡(luò)中的神經(jīng)元內(nèi),因此,神經(jīng)網(wǎng)絡(luò)的容錯性和魯棒性比較強。第四,神經(jīng)網(wǎng)絡(luò)可以高度并行處理,其數(shù)據(jù)融合能力比較強,還可以對多束信號進行自然處理并輸出信號。
在以神經(jīng)網(wǎng)絡(luò)技術(shù)為基礎(chǔ)構(gòu)建服裝兼容性模型的過程中,需要從以下角度出發(fā)確定研究內(nèi)容。第一,需要將多模態(tài)信息作為核心,對常用的視覺模態(tài)進行充分考慮,除此之外,要認識到文本模態(tài)在服裝兼容性建模過程中的應(yīng)用價值,了解其類別搭配規(guī)律。為了有效融合時尚單品多模態(tài)信息,需要進行編碼,獲取有效特征。視覺模態(tài)信息和文本模態(tài)信息本身為互補關(guān)系,因此,在建模過程中,需要對兩者的關(guān)鍵作用進行深入發(fā)掘[2]。在一件上衣和下衣兼容性建模過程中的復(fù)雜度比較高,對搭配偏好也要進行充分考慮。在實際建模中需要將不同類別服裝映射到相同的兼容性空間中完成建模,統(tǒng)計服裝信息,可以確定服裝之間的搭配關(guān)系。在面對海量服裝的過程中,對不同類別服裝之間的隱含搭配偏好進行有效學習,可以在一定程度上提高兼容性建模的應(yīng)用效果。除此之外,還要考慮到多模態(tài)信息之間的內(nèi)在聯(lián)系,要充分考慮不同因素的關(guān)系才能保證服裝搭配效果。
第二,在分析服裝不同特征的貢獻差異時,可以從服裝在搭配過程中不同特征的置信度出發(fā),進行建模。尤其是在確定上衣和下衣動態(tài)信息后,可以在掌握兩者的隱含表示基礎(chǔ)上,準確捕捉服裝的多面性屬性。在實際建模中,需要對影響兼容性建模的貢獻差異也就是服裝的不同特征進行充分考慮。為了對不同特征進行有效應(yīng)用,需要利用特征模型和注意力模型,通過自適應(yīng)為不同類型的服裝進行成對特征分配,最后可以獲取可靠度比較高的差異化置信度。此外,對互補服裝之間的兼容性進行分析時,需要了解端對端多模態(tài)深度神經(jīng)網(wǎng)絡(luò)的相關(guān)應(yīng)用要點,掌握時尚單品的多模態(tài)特征編碼,能夠保證兼容性建模的有效性。
第三,在生成式兼容性建模過程中,需要對輔助模板進行充分應(yīng)用。利用輔助模板實現(xiàn)生成式兼容性建模。在具體的建模中需要給定上衣和下衣,為給定的上衣繪制兼容下衣模板,在互補服裝分析中,可以將獲取的模板作為輔助鏈接進行下衣搭配。此外,在服裝搭配過程中,需要利用對抗網(wǎng)絡(luò)將給定的單片作為核心,構(gòu)建多模態(tài)數(shù)據(jù)生成與單品互補且兼容的潛在模板。此外,利用兼容模型捕捉互補單品之間的兼容規(guī)律,并在互補單品搭配過程中將其作為輔助橋梁進行應(yīng)用,可以提升不同單品的兼容關(guān)系,保障建模效果。在實際建模過程中受轉(zhuǎn)化啟發(fā),可以在輔助模板生成中將其定義成上一生成兼容的下一模板,而上一到下一模板生成過程可以被轉(zhuǎn)化成圖與圖的轉(zhuǎn)換問題,從而提高兼容性建模的整體性能。
現(xiàn)階段,越來越多的人開始關(guān)注在線時尚搭配社區(qū)。而在線時尚搭配社區(qū)對服裝兼容性建模的依賴度比較高。在具體的研究中需要以對象為主對現(xiàn)有的服裝兼容性建模進行分析。根據(jù)具體的建模對象,現(xiàn)有的服裝兼容性建模主要包括成對單品之間的兼容性建模以及多件單品之間的兼容性建模。因為服裝信息本身具有多樣性,再加上線性映射的局限性,在開展成對單品兼容性建模的過程中,需要完成兩件時尚單品兼容性評估,將評估結(jié)果作為解決套裝兼容性建模問題的主要依據(jù)[3]。在實際研究中,有一些人員利用低秩馬氏變換映射服裝單品,可以將服裝單品展示在兼容性空間,并且可以使用歐式距離測量不同單品之間的兼容性。因為服裝信息具有多樣性和線性映射的局限性,在研究過程中還要綜合考慮時尚單品的多模態(tài)信息,也就是視覺模態(tài)信息和文本模態(tài)信息,并利用自編碼器學習非線性兼容性空間。除此之外,為了對單品的種類信息進行有效應(yīng)用,提出引入服裝類型信息的方法可以完成兼容性建模的上下文指導(dǎo),因為在實際建模中標注的數(shù)據(jù)獲取數(shù)量本身是有一定限制的,其數(shù)據(jù)獲取成本比較高,可以利用半監(jiān)督的兼容性建模方法解決這些問題。對這一方法進行應(yīng)用,需要挖掘不同單品的相似結(jié)構(gòu),保證兼容性模型的性能。
為了有效利用市場領(lǐng)域的專業(yè)知識,保證模型的應(yīng)用效果,在具體的研究中還可以通過教師學生網(wǎng)絡(luò)模型知識蒸餾框架完成時尚領(lǐng)域知識轉(zhuǎn)化,在知識蒸餾框架應(yīng)用過程中,可以將時尚單品的搭配規(guī)則引入這一模型中,此為基礎(chǔ)形成促進純數(shù)據(jù)驅(qū)動的服裝兼容性建模。在該模型應(yīng)用過程中,多件時尚單品可以被測量,掌握不同市場單品之間的整體兼容性,在多件單品兼容性建模過程中需要測量多件時尚單品的整體兼容性,才能夠?qū)崿F(xiàn)有效搭配。有一些研究人員將套裝看作是單品的序列,提出了雙向LSTM 和GRU 網(wǎng)絡(luò)對服裝之間的多個單品兼容性進行序列化預(yù)測,但是服裝搭配中,套裝的時尚單品沒有比較嚴格的先后關(guān)系,可以先確定上衣,也可以先確定下衣,甚至可以先給定鞋子,之后再搭配上衣和下衣。因此,有研究人員將套裝看作時尚單品的集合,并利用圖神經(jīng)網(wǎng)絡(luò)完成套裝兼容性建模。
在此次研究過程中主要是利用神經(jīng)網(wǎng)絡(luò)尋找非線性隱含兼容性空間,在這一空間中可以以內(nèi)容深度神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)主動學習,掌握套裝時尚物品,例如上衣、下衣、鞋子、包包、飾品之間的兼容性,并完成建模。除此之外,還要對時尚單品的動態(tài)信息進行整合利用,通過融合不同模態(tài)的信息完成時尚單品兼容性建模工作。
現(xiàn)階段,在對服裝搭配技術(shù)進行應(yīng)用時,需要以協(xié)同過濾方法和內(nèi)容方法為主。其中基于協(xié)同過濾方法可以利用具有相似品位和偏好的用戶歷史行為完成推薦工作,例如,推薦商品時可以根據(jù)用戶的購買行為進行商品描述,還可以根據(jù)其他用戶點擊購買行為對商品的相關(guān)數(shù)據(jù)進行統(tǒng)計,根據(jù)最終的統(tǒng)計結(jié)果完成推送。這種方法在應(yīng)用過程中存在的最大問題是冷啟動,如果用戶未在網(wǎng)站上進行任何搜索或者購買行為,就無法向用戶提供推薦[4]。而基于內(nèi)容的方法主要是以單品之間的視覺兼容性為基礎(chǔ)進行推薦。但是這些兼容性建模單純利用的是時尚單品的視覺特征,也被稱為視覺模態(tài)信息,視覺特征一般是單品的直觀屬性,但是在對時尚單品兼容性進行分析的過程中,其綜合建模性能存在缺陷。文本模態(tài)信息也包含時尚單品的重要信息,例如在對帶蕾絲花邊黑色短褲以及機車夾克(圖1)進行搭配的過程中,雖然根據(jù)視覺特征,兩者具有兼容性,但是從文本模態(tài)信息進行分析,可以發(fā)現(xiàn)女士短褲與機車夾克的兼容性不足。因此,利用多模態(tài)數(shù)據(jù)進行時尚單品建模,有利于提高單品之間的兼容性評估水平。上衣、下裝、鞋子作為最基本的市場單品類別,其一般性較強。在此次研究中需要將一件上衣、下衣搭配一雙兼容性較強的鞋子作為對象,介紹互補單品之間的搭配。但是要注意多個互補單品的搭配難度相對較大。為了對這一問題進行有效解決,可以基于貝葉斯個性化排名,利用多重自動編碼器神經(jīng)網(wǎng)絡(luò)模型完成多件單品兼容性建模,也就是完成一件上衣、下衣、鞋子搭配。
圖1 多模態(tài)信息的重要性
在時尚分享網(wǎng)站不斷發(fā)展的過程中,以Polyvore網(wǎng)站作為主要研究對象。在該網(wǎng)絡(luò)運行過程中,用戶除了根據(jù)自己的需求搜索和瀏覽時尚單品外,還可以按照自身的喜好進行服裝搭配,最后可以生成套裝圖像。在這一平臺中除了有背景比較干凈的服飾圖像,還有豐富的源數(shù)據(jù),例如類別、點贊數(shù)、標題、用戶評論等。
在此次研究中,從該網(wǎng)站中爬取時尚單品的多模態(tài)數(shù)據(jù),主要包括圖像模態(tài)數(shù)據(jù)、文本模態(tài)數(shù)據(jù),構(gòu)建單品數(shù)據(jù)集FashionVC+后,可以獲取用戶產(chǎn)生的搭配數(shù)據(jù)。這些數(shù)據(jù)的純凈度無法滿足研究要求,在數(shù)據(jù)獲取完成后需要完成噪聲信息過濾,具體的操作過程包括以下內(nèi)容:第一,要從相應(yīng)的網(wǎng)站上以套裝的點贊數(shù)量為基礎(chǔ)收集種子數(shù)據(jù)集并篩選出時尚專家;第二,要排除專家分享的歷史搭配數(shù)據(jù)。在建模中需要保留上衣、下衣、鞋子套裝,將套裝搭配作為正例;第三,在開展套裝分析工作時需要考慮有一些套裝可能是用戶隨機搭配的,本身不具有兼容性,為了保證最終的建模效果,需要將點贊數(shù)超過50 萬的套裝篩選出來作為正例進行單品搭配;第四,獲取726 套單品搭配后,其中包括14 872 件上衣、13 660 件下衣以及14 100 雙鞋子(圖2);第五,收集每一件時尚單品圖像,并收集類別和標題描述的文本信息,從視覺模態(tài)信息和文本模態(tài)信息兩方面出發(fā)進行深入研究。
圖2 上衣、下衣與鞋子搭配數(shù)量示意圖
在此次研究過程中,利用卷積神經(jīng)網(wǎng)絡(luò)對單品圖像視覺信息進行提取,與傳統(tǒng)提取方法相比,卷積神經(jīng)網(wǎng)絡(luò)是圖像特征提取中比較先進的模型。在研究時,需要利用完成預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)提取視覺特征,包含5 個卷積層和3 個全連接層,可以將市場產(chǎn)品圖像輸入到網(wǎng)絡(luò)內(nèi),并輸出最終的單品視覺特征,每一件時尚單品的視覺特征都有4 096 個維向量表示。在提取文本模態(tài)信息的過程中需要考慮的文本模態(tài)一般是單詞或者比較短的短句,在此次提取過程中,詞袋模型主要完成市場單品文本特征提取。這一方法在文本特征提取中具有突出作用,要對數(shù)據(jù)中的標題描述、類別信息等進行統(tǒng)計和匯總,形成詞匯表。因為用戶在注明標題和類別時存在噪聲,因此,需要過濾到單詞數(shù)在5 個以下的類別信息,而標題信息的單詞數(shù)為3 個以下。經(jīng)過統(tǒng)計可以獲得3 529 個詞組,每一個時尚單品的文本信息最終由3529 維布爾向量表示。
在互補單品兼容性建模時,需要給定上衣以及下衣,完成上衣+下衣與鞋子的兼容性建模,下衣和鞋子的類別、功能具有明顯的差異,在研究中需要先建設(shè)兼容性空間,對互補單品的語義環(huán)境進行彌補。在對兼容性較高的互補單品進行研究時,潛在的兼容性空間內(nèi)本身具有較大的相似性,需要對間歇性因素進行考慮,其相對復(fù)雜。因此,在研究中需要深度自編碼器學習視覺和文本模態(tài)的隱含表示。在隱含表示學習方面深度,自編碼器具有突出的作用。自編碼器由編碼器和解碼器組成,是無監(jiān)督的深度神經(jīng)網(wǎng)絡(luò),在運行過程中,編碼器可以在隱含表示空間內(nèi)映射數(shù)據(jù);解碼器可以在重構(gòu)空間中映射輸入的數(shù)據(jù)。自編碼器在運行中的函數(shù)基礎(chǔ)為多重非線性函數(shù)。
在對多件時尚單品的兼容性建模方案進行分析時,要對互補單品之間的搭配問題進行有效解決,這一問題并不是單件時尚單品的搭配,而是對單件單品進行綜合完成多件時尚單品搭配工作。給定上衣和下衣的情況下搭配出一雙兼容性較強的鞋子。在具體的操作過程中,可以完成所有上衣視覺隱含表示以及文本隱含表示,將上衣作為隱含表示的重構(gòu)表示。在給定上衣和下衣后,為了能夠搭配出合適的鞋子組合成適當?shù)奶籽b,需要考慮到多個時尚單品之間的兼容性復(fù)雜度更高。例如上衣流蘇毛毯開衫與高筒靴是搭配的,但是考慮到下衣為扇形超長裙時,高筒靴與給定的上衣和下衣并不能同時搭配。在具體的搭配分析過程中,需要對上衣下衣鞋子之間的兼容性進行計算,上衣和下衣對兼容性度量的貢獻度是相同的。因此,需要從上衣和下衣兩方面出發(fā)對鞋子的兼容性進行準確計算,獲取最優(yōu)解,保證時尚單品搭配的兼容性[5]。
總而言之,基于深度學習的單品兼容性建模方法的研究雖然已經(jīng)取得了一定成效,并且通過神經(jīng)網(wǎng)絡(luò)服裝兼容性建模能夠在一定程度上提高服裝搭配的效率和質(zhì)量。但是現(xiàn)階段在單品兼容性建模方法應(yīng)用過程中仍存在不足。因此,在未來的發(fā)展和研究過程中,需要從實際應(yīng)用場景出發(fā),以用戶為核心,考慮兼容性建模的實現(xiàn)要素。需要考慮到用戶自身的個人喜好,此外,親友對用戶的穿搭喜好也會產(chǎn)生一定影響。因此,在現(xiàn)有的單純依賴單品交互關(guān)系兼容性建模研究的基礎(chǔ)上需要充分考慮用戶的個人偏好,才能夠確保模型滿足用戶的服裝搭配要求。在研究過程中,除了考慮服裝自身的兼容性之外,還要認識到用戶自身的偏好對服裝搭配產(chǎn)生的影響,如果單純利用兼容性模型進行服裝搭配,則無法滿足用戶的偏好需求。因此,可以構(gòu)建不同用戶之間的關(guān)系模型,將其與服裝單品的兼容性模型進行融合,可以構(gòu)建用戶和單品的偏好模型,這一模型可以以用戶的穿搭歷史為基礎(chǔ)開展服裝合理搭配,并且可以根據(jù)用戶的偏好完成個性化推薦。