亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法

        2020-12-04 07:50:46鄭雄風(fēng)汪云云
        計算機技術(shù)與發(fā)展 2020年11期
        關(guān)鍵詞:分類模型

        鄭雄風(fēng),汪云云

        (1.南京郵電大學(xué) 計算機、軟件、網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210023; 2.江蘇省大數(shù)據(jù)安全與智能處理重點實驗室(南京郵電大學(xué)),江蘇 南京 210023)

        0 引 言

        遷移學(xué)習(xí)利用相關(guān)的源域知識輔助目標(biāo)域?qū)W習(xí),以解決目標(biāo)域數(shù)據(jù)或數(shù)據(jù)標(biāo)簽稀缺的問題,目前已得到機器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注。在推薦系統(tǒng)中,遷移學(xué)習(xí)利用評分完善的電影數(shù)據(jù)幫助推薦無評分記錄的書籍,解決冷啟動問題;在室內(nèi)wifi定位中,借助遷移學(xué)習(xí),利用前時刻已有設(shè)備采集的信號數(shù)據(jù),幫助學(xué)習(xí)新設(shè)備和未來時刻產(chǎn)生的信號。其實,遷移學(xué)習(xí)廣泛存在于人類活動中,一個人學(xué)會了自行車,便很容易學(xué)會開電動車;熟悉五子棋,則可將知識遷移到學(xué)習(xí)圍棋中。遷移學(xué)習(xí)的關(guān)鍵在于如何找到源領(lǐng)域和目標(biāo)領(lǐng)域間的相關(guān)性進行遷移。

        近年來,大量遷移學(xué)習(xí)方法被相繼提出[1-2]。根據(jù)所遷移知識形式的不同,現(xiàn)有遷移分類學(xué)習(xí)方法可大致分為4大類:(1)基于樣本[3-5]的遷移學(xué)習(xí)方法,通常采用對源域樣本采樣或加權(quán)的方式,選擇或側(cè)重與目標(biāo)域相關(guān)的樣本輔助目標(biāo)域?qū)W習(xí)。如TrAdaBoost[4]和域適應(yīng)支持向量機(domain adaptation support vector machine,DASVM)[6]等;(2)基于特征的遷移學(xué)習(xí)方法,關(guān)注并遷移源域特征或特征參數(shù)中的相關(guān)知識,如特征增廣方法[7-8]、遷移成分分析(transfer component analysis,TCA)方法[9]和聯(lián)合域適應(yīng)(joint domain adaptation,JDA)方法[10]等;(3)基于模型的遷移學(xué)習(xí)方法,其假設(shè)源域和目標(biāo)域的模型參數(shù)之間存在一定的相似性或聯(lián)系,將源域模型參數(shù)遷移至目標(biāo)域中。如域適應(yīng)機(domain adaptation machine,DAM)[11]和域選擇機(domain selection machine,DSM)[12]等;(4)基于關(guān)系的遷移學(xué)習(xí)方法,實現(xiàn)關(guān)系型域間的知識遷移。在關(guān)系型域中,數(shù)據(jù)的呈現(xiàn)形式為關(guān)系而非獨立同分布的樣本,如社會網(wǎng)絡(luò)數(shù)據(jù)。在針對該類知識的遷移學(xué)習(xí)中,研究者們常采用統(tǒng)計關(guān)系型學(xué)習(xí)技術(shù)[13],如馬爾可夫邏輯網(wǎng)絡(luò)(Markov logic networks,MLNs)[14]。

        而根據(jù)源域個數(shù)的不同,遷移學(xué)習(xí)又可分為單源域和多源域?qū)W習(xí)。多源域自適應(yīng)學(xué)習(xí)旨在從多個源領(lǐng)域中挖掘相關(guān)知識以輔助目標(biāo)域的學(xué)習(xí)。目前多源域自適應(yīng)學(xué)習(xí)方法主要有兩類[15-19]:一是在遷移過程中對各源域賦予權(quán)重,描述各源域和目標(biāo)域間的相關(guān)性。Chattopadhyay等人[15]提出多源域加權(quán)方法(conditional probability based multi-source domain adaptation approach,CP-MDA),用于衡量各源域和目標(biāo)域的條件分布差異;Sun等人[16]利用各源域和目標(biāo)域間的邊緣分布差異對源域樣本進行加權(quán),同時利用條件分布差異對各源域進行加權(quán);Duan等人[11]在支持向量回歸模型中引入數(shù)據(jù)依賴的正則化項,對各源域進行選擇或加權(quán)。另一類則是通過多源域分類器集成進行知識遷移。Schweikert等人[17]提出用于基因組序列分析的域自適應(yīng)方法,尋求各源域分類器和目標(biāo)域分類器間的凸組合;Sun等人[18]則提出多源域自適應(yīng)的動態(tài)貝葉斯學(xué)習(xí)框架,利用無標(biāo)簽?zāi)繕?biāo)域數(shù)據(jù)上的拉普拉斯矩陣獲得各源域的先驗,并利用k近鄰距離計算似然。

        此外,隨著深度神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)的發(fā)展,遷移學(xué)習(xí)又可分為傳統(tǒng)遷移學(xué)習(xí)和深度遷移學(xué)習(xí)。Zhao等人[19]通過構(gòu)建一個新的泛化邊界,利用對抗神經(jīng)網(wǎng)絡(luò)實現(xiàn)多個源域的知識遷移。Hoffman等人[20]將多個源域的交叉熵損失和其他損失分布加權(quán)組合。Zhang等人[21]從因果關(guān)系的角度研究多源域自適應(yīng)問題,通過考慮因果模型的不同模塊隨著多個域變化狀況,挖掘出合適的遷移知識。

        現(xiàn)有多源域自適應(yīng)學(xué)習(xí)方法通常僅關(guān)注各源域和目標(biāo)域間的知識遷移,并不考慮各源域間的知識共享和共性信息。即各源域的知識遷移是相互獨立的,源域間的相關(guān)性并沒有被考慮和利用。因此,該文嘗試利用各源域間的相關(guān)性指導(dǎo)遷移學(xué)習(xí)。而字典學(xué)習(xí)可以挖掘數(shù)據(jù)的本質(zhì)特征,因此在多源域自適應(yīng)學(xué)習(xí)中利用字典學(xué)習(xí),挖掘各源域的共性信息,提出基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)方法(multi-source domain adaption based on dictionary learning,DL_MSDA)。DL_MSDA通過學(xué)習(xí)多個源域模型參數(shù)的共享字典,挖掘各源域間的內(nèi)在關(guān)系,并將其遷移至目標(biāo)域模型參數(shù)的學(xué)習(xí)中,提升目標(biāo)域?qū)W習(xí)模型的準(zhǔn)確性與可靠性。

        1 相關(guān)工作

        1.1 域自適應(yīng)機

        Duan等人[11]提出域自適應(yīng)機DAM,通過最大均值差異(maximum mean discrepancy,MMD)衡量每個源域與目標(biāo)域間邊緣分布差異,并對各源域進行加權(quán),約束目標(biāo)域的擬分類輸出與各源域?qū)δ繕?biāo)域分類輸出相近,如圖1所示。

        圖1 DAM算法原理

        在獲得各源域與目標(biāo)域間的相似性權(quán)值后,其目標(biāo)函數(shù)刻畫如下:

        (1)

        1.2 字典學(xué)習(xí)

        (2)

        2 算法框架

        2.1 問題定義

        2.2 算法模型

        2.2.1 基于目標(biāo)域數(shù)據(jù)的學(xué)習(xí)

        基于結(jié)構(gòu)風(fēng)險最小化理論和流形正則化約束,僅利用目標(biāo)域數(shù)據(jù)的學(xué)習(xí)模型構(gòu)建如下:

        minΩ(fT)+μVL(fT)+γMf(PT)

        (3)

        其中,Ω(fT)為用戶控制目標(biāo)域分類器復(fù)雜度,VL(fT)為目標(biāo)域有標(biāo)簽樣本的分類損失。第三項是流行正則化項,用于刻畫數(shù)據(jù)分布的流形結(jié)構(gòu):

        (4)

        W是樣本相似性矩陣,其中元素為:

        (5)

        對于目標(biāo)域數(shù)據(jù)的學(xué)習(xí),其原理與半監(jiān)督學(xué)習(xí)一致,在確保有標(biāo)簽的樣本分類正確的同時,保持無標(biāo)簽樣本數(shù)據(jù)的流行結(jié)構(gòu)。

        2.2.2 基于參數(shù)字典學(xué)習(xí)的知識遷移

        首先,對于每個源域?qū)W習(xí)一個分類器參數(shù)Ws∈Rd×c。為了更好地挖掘源域間的共享信息,對k個源參數(shù)學(xué)習(xí)共享字典D,并將其遷移至目標(biāo)域分類參數(shù)的學(xué)習(xí)中,指導(dǎo)目標(biāo)域分類,算法框架如下:

        (6)

        聯(lián)合式(3)和式(6),并基于平方損失函數(shù),提出基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)框架:

        (7)

        同時,采用非線性隨機傅里葉特征[22]對樣本進行非線性映射,近似逼近非線性高斯核函數(shù)。對給定數(shù)據(jù)X,利用Bochner定理生成h維隨機特征:

        (8)

        2.3 算法優(yōu)化

        采用ADMM(alternating direction method of multipliers)[23]對式(7)中目標(biāo)函數(shù)進行求解,即交替迭代方式優(yōu)化每個參數(shù)。

        (10)

        (11)

        (12)

        (13)

        基于FISTA (fast iterative shrinkage thresholding algorithm)[24],該問題為近端(proximal)正則化問題,可由下式迭代求解:

        (14)

        其中:

        (15)

        (16)

        其中,Sλγ(·)是軟閾值算子,且Sλγ(·)=sgn(x)·(|x|-λ)。

        算法流程如圖2所示。

        圖2 DL_MSDA算法流程

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集和實驗設(shè)置

        該文選擇了3組經(jīng)典多源數(shù)據(jù)集進行實驗,其中各個源域之間都滿足不同分布。

        3.1.1 Office+Caltech數(shù)據(jù)集

        Office數(shù)據(jù)集包含三組數(shù)據(jù)集:Amazon (Amazon購物網(wǎng)站的商品圖像),Webcam(網(wǎng)絡(luò)相機拍攝的低分辨率圖像)和DSLR(數(shù)碼單反相機拍攝的高分辨率圖像)。Caltech也是常用的目標(biāo)識別數(shù)據(jù)集。每個數(shù)據(jù)集包含下列10類物體的圖像數(shù)據(jù):雙肩包、旅行自行車、計算器、耳機、電腦鍵盤、筆記本電腦、電腦顯示器、電腦鼠標(biāo)、咖啡杯和投影儀,且每類樣本數(shù)都不盡相同,數(shù)目在8到151之間,樣本總數(shù)為2 533。圖3顯示了各數(shù)據(jù)集中電腦顯示器的圖像。實驗中提取出了每個域圖像的4 096維的DeCAF6特征,并將所有特征進行了標(biāo)準(zhǔn)化處理。

        圖3 目標(biāo)識別數(shù)據(jù)中的電腦顯示器在不同數(shù)據(jù)集中的圖像

        3.1.2 PIE數(shù)據(jù)集

        PIE數(shù)據(jù)集包含68種共計11 554幅面部圖像,其中每幅圖像由32×32個像素構(gòu)成。采用了五個不同照明和姿勢條件下拍攝的面部圖像數(shù)據(jù)集進行實驗,使用SURF特征提取方法,并對特征進行標(biāo)準(zhǔn)化處理。圖4展示了PIE數(shù)據(jù)集中姿勢的變化,分別是PIE05(左側(cè))、PIE07(向上的姿勢)、PIE09(向下的姿勢)、PIE27(前擺姿勢)。

        圖4 不同姿勢下拍攝的面部圖像

        3.1.3 YalB數(shù)據(jù)集

        該數(shù)據(jù)集由不同光照條件下38人的2 414張面部圖像組成,每幅圖像分辨率是32×32。圖像的處理和文獻[23]中一樣,將數(shù)據(jù)集劃分為了五個子集(Y1-Y5,從第一行開始依次為Y1,Y2,Y3,Y4,Y5,見圖5)。子集1由正常光照條件下的266張圖像組成(每人7張圖像);子集2和3由受試者的12張圖像組成,表征輕微到中等的亮度變化;子集4(每人14張圖像)和子集5(每人19張圖像)體現(xiàn)了嚴重的光照變化。

        圖5 不同光照條件下的人臉樣本

        3.2 對比方法及參數(shù)設(shè)置

        實驗中,源域樣本皆為有標(biāo)簽樣本,目標(biāo)域包含部分有標(biāo)簽樣本。將DL_MSDA與多源域自適應(yīng)學(xué)習(xí)算法DAM進行了對比,其中DAM采用文獻[11]中的參數(shù)設(shè)置。此外,還采用SVMS和SVMT作為基礎(chǔ)對比方法,SVMS僅利用源域樣本學(xué)習(xí)并對目標(biāo)域分類,SVMT僅利用目標(biāo)域樣本進行學(xué)習(xí)。對每個數(shù)據(jù)集組合,實驗重復(fù)運行了20次并取平均分類精度。

        DL_MSDA中源域參數(shù)模型可通過任意分類方法得到,如SVM、C4.5等。實驗中,采用線性SVM結(jié)合傅里葉特征變換得到源域分類參數(shù)。對每個數(shù)據(jù)集,分別從目標(biāo)域的每個類中隨機選取1個樣本作有標(biāo)簽樣本,用于訓(xùn)練,其他樣本歸為無標(biāo)簽樣本,用于測試。實驗中涉及5個參數(shù)取值為:α=1,β=5,λ=0.1,γ=30,μ=0.1。最大迭代次數(shù)設(shè)為100。

        3.3 實驗結(jié)果

        表1給出了DL_MSDA與其他算法在不同源域-目標(biāo)域組合下的分類準(zhǔn)確率,其中每個數(shù)據(jù)集下最高準(zhǔn)確值加粗表示。表2和表3分別是PIE數(shù)據(jù)集和Yale B數(shù)據(jù)集上的分類性能。

        表1 Office+Caltech數(shù)據(jù)集上實驗平均準(zhǔn)確率 %

        表2 PIE數(shù)據(jù)集上實驗平均準(zhǔn)確率 %

        表3 Yale B數(shù)據(jù)集上實驗平均準(zhǔn)確率 %

        3.4 參數(shù)分析

        本節(jié)對正則化參數(shù)α和β進行實驗分析,研究其對DL_MSDA性能的影響,從而分析源域相關(guān)知識對目標(biāo)域分類性能的影響。α,β的取值范圍為[0.000 1,0.001,0.01,0.1,1,5,10],λ的取值同α,其余參數(shù)值固定。圖6給出了Office+Caltech數(shù)據(jù)集上4種不同組合下DL_MSDA的性能圖。

        圖6 Office數(shù)據(jù)集中不同源域下的參數(shù)分析

        由圖6可看出,當(dāng)α和β取值趨近于0,僅利用目標(biāo)域數(shù)據(jù)進行學(xué)習(xí);隨著α和β取值不斷增大,模型的分類準(zhǔn)確率有了明顯的提升,這表明DL_MSDA可以有效地從多個源域中學(xué)習(xí)到共享知識并幫助目標(biāo)域?qū)W習(xí)。但是當(dāng)α,β取值過大時,模型由源域知識主導(dǎo),忽略了目標(biāo)域自身信息,因此分類準(zhǔn)確率也隨之降低。因此,用多個源域間的共享信息輔助目標(biāo)域數(shù)據(jù)學(xué)習(xí),可有效提升目標(biāo)域的學(xué)習(xí)性能。

        4 結(jié)束語

        提出的基于參數(shù)字典學(xué)習(xí)的多源域自適應(yīng)(DL_MSDA)學(xué)習(xí)框架,能夠有效利用多源域間的共享信息,解決目標(biāo)域僅有少量有標(biāo)簽樣本的多源域自適應(yīng)學(xué)習(xí)任務(wù)。字典學(xué)習(xí)較其他多源域自適應(yīng)學(xué)習(xí)框架可以更多地探索各個源域之間的共享信息,并把這些重要信息傳遞到目標(biāo)域分類模型的學(xué)習(xí)過程中。實驗表明,DL_MSDA可有效提升目標(biāo)域分類模型的分類精度。DL_MSDA算法僅通過多個源域模型參數(shù)的共享字典進行遷移,挖掘源域參數(shù)間的共享知識,而后續(xù)工作將考慮從數(shù)據(jù)空間出發(fā),進一步拆分字典為多源域共享字典和每個源域特有字典,在挖掘源域間的共享知識進行遷移的同時減少負遷移,提升目標(biāo)域的學(xué)習(xí)性能。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        香港三级日本三韩级人妇久久| 国产午夜在线观看视频播放| 国内精品视频成人一区二区 | 国产一区二区三区免费视| 亚洲欧洲成人a∨在线观看| 成人看片黄a免费看那个网址| 999久久66久6只有精品| 久久精品蜜桃美女av| 国产99视频精品免视看7| 国产成人vr精品a视频| 欧美1区二区三区公司| 日本一区二区三区四区在线视频| 亚洲亚洲人成综合丝袜图片| 无码国产精品一区二区vr老人| 98精品国产高清在线xxxx| 亚洲av高清不卡免费在线| 2020无码专区人妻系列日韩| 老熟女毛茸茸浓毛| 韩国免费一级a一片在线| 国产精品午夜夜伦鲁鲁| 久久无码av中文出轨人妻| 男人j进女人p免费视频| 青青草精品在线免费观看| 免费大片黄国产在线观看| 欧美黑人巨大xxxxx| 在线观看视频日本一区二区三区| 青青草在线免费播放视频| 久久99精品久久久久久秒播 | 国产成人av在线影院无毒| 亚洲av少妇一区二区在线观看| 久久精品国产自在天天线| 人人妻人人澡人人爽精品欧美| 和少妇人妻邻居做爰完整版| 亚洲国产精品高清一区| 日产国产精品亚洲系列| 粉嫩高中生无码视频在线观看 | 人妻熟妇乱又伦精品视频| 国产熟女高潮视频| 中文字幕日本熟妇少妇 | 无码人妻一区二区三区免费视频| 亚洲无码精品免费片|