亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        參數(shù)字典稀疏表示的完全無監(jiān)督域適應*

        2019-07-18 01:07:36余歡歡陳松燦
        計算機與生活 2019年5期
        關(guān)鍵詞:源域字典聚類

        余歡歡,陳松燦

        南京航空航天大學 計算機科學與技術(shù)學院,南京 211106

        1 引言

        域適應學習(domain adaptation learning,DAL)[1]作為遷移學習[2]的子問題,近幾年在機器學習和數(shù)據(jù)挖掘領域受到了越來越多的關(guān)注,并被應用于自然語言[3-6]、計算機視覺[7-8]、醫(yī)療健康和生物信息學[9-10]等領域。DAL不同于傳統(tǒng)的機器學習方法,其無需假設訓練/源域(記為S)樣本和測試/目標域(記為T)樣本服從相同的概率分布,即PS(X)≠PT(X),因此能有效解決因概率分布不同而產(chǎn)生的學習性能退化問題。

        無監(jiān)督域適應(unsupervised DA,UDA)作為域適應學習的一個研究分支,通常用于解決標記稀缺、無標記小樣本、個性化設計等問題。其中,無標記小樣本問題備受關(guān)注,一般采用聚類方法進行建模,但因樣本量少易導致聚類性能較差。因此,嘗試借助相關(guān)域(與目標域分布不同)中的“知識”來提高目標域的學習性能。而在現(xiàn)實場景中,獲得大量有標記源域樣本成本較高,并且源域樣本的標記有時可能難以獲取。例如,校園網(wǎng)頁文本分類中,不同學校的網(wǎng)頁文本數(shù)據(jù)的分布可能存在差異(如已建立的校A網(wǎng)和新建立的校B網(wǎng)可分別作為源域和目標域),A網(wǎng)和B網(wǎng)的文本數(shù)據(jù)可能因標記成本的原因?qū)е码y以獲得樣本標記,同時B網(wǎng)建立時間較短,則可能僅有少量訓練樣本能獲取。然而,針對此類問題,現(xiàn)有的基于參數(shù)[11-13]和非參數(shù)[4,14-22]域適應的方法可能難以直接對其建模。因此,在這種缺少監(jiān)督信息(即完全無監(jiān)督)的情況下,尋找源域和目標域間的共性并實現(xiàn)“知識”遷移更成為了無監(jiān)督域適應研究的極大挑戰(zhàn)。

        為了應對上述問題,受先前軟大間隔聚類[23](soft large margin clustering,SLMC)啟發(fā),提出了一種靈活的參數(shù)遷移新方法——參數(shù)字典稀疏表示的完全無監(jiān)督域適應(whole UDA,WUDA)。該方法不僅擴充了文獻[2]中的參數(shù)遷移方法,還擴展了參數(shù)遷移在域適應學習中的應用范圍。本文中,WUDA的核心思想是源域和目標域的參數(shù)(決策函數(shù)的權(quán)重矩陣)借助一個參數(shù)公共字典上的稀疏表示實現(xiàn)選擇性的互適應學習。此種基于參數(shù)字典稀疏表示的選擇性域適應方法還未見發(fā)表。本文所提出的WUDA避免了現(xiàn)有參數(shù)遷移方法[11-13]的典型缺陷,如:(1)現(xiàn)有方法直接在域間作參數(shù)傳遞[11],或者通過線性變換[12]和參數(shù)微調(diào)[13]進行,而WUDA利用學得的參數(shù)公共字典作為橋梁實現(xiàn)了兩個域的關(guān)聯(lián)。(2)現(xiàn)有方法無法或難以進行參數(shù)的適應性選擇學習,而WUDA則利用參數(shù)公共字典的稀疏表示加以實現(xiàn),使得各域參數(shù)可被適應性選擇。

        總之,本文的主要貢獻如下:

        (1)借助源域的知識,從參數(shù)公共字典的角度,對兩個域的權(quán)重經(jīng)參數(shù)字典進行互適應學習,并通過系數(shù)的稀疏約束進行各域權(quán)重的適應性選擇,從而實現(xiàn)域適應并提高目標域的聚類性能。

        (2)為現(xiàn)有參數(shù)遷移方法提供了一個更大的靈活框架,能克服現(xiàn)有參數(shù)遷移方法無法適應性選擇參數(shù)的缺陷,并擴展了參數(shù)遷移在完全無監(jiān)督域適應上的應用。

        (3)采用網(wǎng)格搜索法尋找最佳參數(shù),有效克服了無標記樣本無法使用交叉驗證選擇超參數(shù)的問題,同時合適的參數(shù)也避免了負遷移的產(chǎn)生。

        (4)通過在多個模擬和真實數(shù)據(jù)集上與相關(guān)算法的比較,驗證了本文方法在聚類性能上的顯著有效性。

        2 相關(guān)工作

        域適應學習是機器學習領域的重要研究方向之一。在源域有標記的條件下,根據(jù)目標域是否包含樣本標記,域適應學習可分為監(jiān)督型[3,24]、半監(jiān)督型[25-27]和無監(jiān)督型[14-16,28]。例如,Daumé[3]提出了特征增廣的監(jiān)督型方法。那么,對于給定特征向量x,定義源域和目標域中樣本的增廣特征分別為和,然后根據(jù)訓練分類器。但該方法需目標樣本有標記,不適用于現(xiàn)實場景。針對這種問題,Daumé等人[25]對EDA(easy domain adaptation)算法做出改進,使其可用于半監(jiān)督域適應學習。此外,考慮到無標記樣本更易獲得,且標記樣本通常需要較高的代價,則為了提升機器學習算法在這種無標簽目標域中的學習性能,無監(jiān)督域適應和無監(jiān)督遷移學習(unsupervised transfer learning,UTL)分別被提出。前者針對的是源域有標記而目標域無標記的學習問題,而后者解決的是源域和目標域均無標記的學習問題,其與本文提出的WUDA的主要區(qū)別[2]是:DAL針對的是不同域(D={X,P(X)})但任務(T={Y,P(Y|X)})相同的問題(DS≠DT但TS=TT)。例如,源域樣本為來自Webcam的電腦圖片,目標域樣本為來自Amazon的電腦圖片。顯然,兩個域的樣本分布不同,但任務均為電腦識別。但UTL解決的是學習任務不同但相似的問題(TS≠TT)。因此,建立在聚類基礎上的STC(self-taught clustering)[29]、TSC(transfer spectral clustering)[30]和TFCM(transfer fuzzy C-means)[31]算法先后被提出。其中,STC建立在雙聚類的基礎上,利用互信息學習兩個域間的共有特征空間,從而提高目標域的聚類性能;TSC是一種譜聚類方法,它不僅與聚類任務的數(shù)據(jù)流形相關(guān),還與聚類任務間共享的特征流形相關(guān);TFCM則通過對齊源域和目標域的聚類中心來實現(xiàn)簇與簇的對齊,從而提高了FCM的聚類性能。

        基于非參數(shù)遷移的域適應是解決UDA核心方法之一,主要包括特征遷移和實例遷移兩種方法。第一種方法通常需將原始域中特征進行變換,使得變換后的域間差異減小。因此,文獻[4]提出了結(jié)構(gòu)對應學習算法(structural correspondence learning,SCL)來促進不同域的特征對應,其有效性取決于兩個域中核心特征的啟發(fā)式選擇。雖然SCL算法在NLP(natural language processing)上獲得了顯著效果,但核心特征選擇的啟發(fā)式準則對不同應用極為敏感。鑒于此不足,基于對齊方式的UDA被提出。其中,F(xiàn)ernando等人[14]提出的子空間對齊(subspacealignment,SA)是一種實例對齊方法,該方法通過在子空間中學得變換矩陣來實現(xiàn)子空間基的對齊。但是,SA算法易在投影時產(chǎn)生代價。為了避免該問題,相關(guān)性對齊[15](correlation alignment,CORAL)和基于深度神經(jīng)網(wǎng)絡的深度CORAL[16](Deep CORAL)方法先后被Sun等人提出,CORAL通過對齊數(shù)據(jù)的二階統(tǒng)計矩來學習一個線性變換矩陣,Deep CORAL建立在CORAL的基礎上,解決了CORAL算法無法實現(xiàn)端對端計算的問題。雖然CORAL和Deep CORAL算法實現(xiàn)了較好的實驗性能,但它們忽略了協(xié)方差矩陣是對稱正定矩陣(symmetric positive definite,SPD)的屬性——SPD矩陣不是歐氏空間的子空間。因此,Morerio等人[17]提出了基于黎曼度量的相關(guān)性對齊(log D-CORAL)方法,即采用似然歐氏度量[18]來衡量協(xié)方差矩陣的距離。盡管一階矩[19](均值)、二階矩[15-16](方差)對齊方法先后實現(xiàn)了較好的域適應性能,但Zellinger等人[20]提出了更強的對齊方法——中心距對齊(central moment discrepancy,CMD)。該方法實現(xiàn)了源域和目標域樣本的各階矩(包括一階矩、二階矩、三階矩等)對齊,從而大大減小了分布間的差異。第二種方法基于重加權(quán)實現(xiàn)了模型建立。其中,核均值匹配(kernel-mean matching,KMM)[21]最具代表性,該方法通過匹配源域和目標域的核均值來直接學習權(quán)重,實現(xiàn)了域適應學習。但該方法僅關(guān)注了源域樣本的重加權(quán)。因此,Li等人[22]從目標數(shù)據(jù)的角度實現(xiàn)了目標數(shù)據(jù)預測的重加權(quán)(prediction reweighting for domain adaptation,PRDA)。

        不同于非參數(shù)方法,基于參數(shù)遷移的域適應則通過參數(shù)傳遞實現(xiàn)知識遷移。例如,Evgeniou等人[11]提出了一種參數(shù)直接遷移的方法,該方法借鑒了層次貝葉斯(hierarchical Bayesian,HB)框架[32]的思想,將SVM在源域和目標域?qū)W習的參數(shù)wS和wT分別表示為wS=w0+vS和wT=w0+vT,然后利用共享參數(shù)w0實現(xiàn)域間“連接”。除此之外,基于神經(jīng)網(wǎng)絡的參數(shù)遷移方法也逐漸受到關(guān)注。因此,通過參數(shù)微調(diào)[13]和變換[12](domain adaption with parameter transfer,DAPT)的方法先后被提出,參數(shù)微調(diào)法針對遷移權(quán)重實現(xiàn)微調(diào),而DAPT的目標是學習一個變換矩陣W,將目標域上的分類器參數(shù)投影到源域參數(shù)空間中,使得域間參數(shù)分布相同。雖然RMTL(regularized multitask learning)和DAPT實現(xiàn)了部分參數(shù)的遷移,但它們不能靈活地選擇各域參數(shù)和公共參數(shù),更無法進行選擇性適應。

        綜上所述,目前大部分域適應學習僅面向源域有標記的學習問題而設計,然而對于源域和目標域均無標記的域適應學習研究相對較少。為彌補現(xiàn)有參數(shù)遷移方法的不足并擴展域適應方法的應用范圍,本文提出了一種基于參數(shù)字典稀疏表示的完全無監(jiān)督域適應方法(WUDA)。

        3 模型建立與優(yōu)化

        WUDA與在樣本空間中直接學習字典的SIUDA[33]和S-LOW[34]不同,它通過樣本學習參數(shù)(決策函數(shù)的權(quán)重矩陣),然后從學習參數(shù)公共字典的角度,在源域和目標域的權(quán)重間進行互適應參數(shù)字典學習。通過對系數(shù)的l2,1范數(shù)約束,不僅避免了文獻[11-12]中的問題,而且實現(xiàn)了參數(shù)的選擇性域適應。實際上,RMTL和DAPT能視為WUDA的特例,故而WUDA為基于參數(shù)遷移的域適應方法提供了一個更大的框架。

        圖1顯示了WUDA的算法框架圖。因此,針對給定的源域樣本,通過SLMC實現(xiàn)聚類,學得源域權(quán)重矩陣WS。那么,當給定目標域樣本時,WUDA不僅實現(xiàn)聚類,而且通過源域參數(shù)和目標域參數(shù)矩陣學習一個公共參數(shù)字典A=(a1,a2,…,ar),該參數(shù)字典實現(xiàn)了源域到目標域的知識遷移,同時對參數(shù)字典的系數(shù)矩陣做行稀疏約束,使得各域權(quán)重參數(shù)可從A中互適應選擇。

        Fig.1 System diagram of proposed WUDA圖1WUDA系統(tǒng)圖

        3.1 軟大間隔聚類(SLMC)

        軟大間隔聚類是一種結(jié)合了大間隔聚類[35](maximum margin clustering,MMC)和模糊聚類[36](fuzzy C-means,F(xiàn)CM)優(yōu)點的方法,但其本身不同于FCM和MMC:第一,SLMC采用分類學習的原則在輸出(標記)空間中實現(xiàn)聚類,該方法通過One-Of-C標記編碼準則將輸出空間中的聚類中心固定,并確定樣本的決策函數(shù)和隸屬度。第二,SLMC允許樣本屬于多個簇。因此,給定數(shù)據(jù)集X=[x1,x2,…,xn](xi∈Rd),令f(x)=WTx(W∈Rd×c表示權(quán)重矩陣)為決策函數(shù),則在原始空間中SLMC的優(yōu)化問題為:

        其中,U=[uki]C×n(uki表示第i個樣本屬于第k個簇的隸屬度),{l1,l2,…,lC}表示C個簇的標記編碼,且lk=[0,…,0,1,0,…,0]T∈RC(對應第k個類)表示第k個元素為1,其余元素均為0。

        SLMC實際上是對樣本標記的聚類,那么決策函數(shù)和隸屬度可同時確定給定樣本的預測值。而當給定實例的隸屬度相等但簇標記不相等時,為了保證期望一致性,SLMC總是將樣本分配給簇標記更小或更大的簇。

        3.2 WUDA模型的建立

        對于完全無監(jiān)督域適應問題,給定無標記的源域樣本XS=[x1,x2,…,xnS]∈ Rd×nS和目標域樣本XT=[x1,x2,…,xnT]∈ Rd×nT,其中nT?nS。假設源域DS和目標域DT不同:XS=XT但P(XS)≠P(XT),源任務TS和目標任務TT相同:YS=YT且P(YS|XS)=P(YT|XT)。因此,本文從學習參數(shù)公共字典的角度,實現(xiàn)了源域和目標域知識的關(guān)聯(lián),并通過對字典系數(shù)的稀疏約束實現(xiàn)各域參數(shù)的適應性選擇。故WUDA的優(yōu)化問題如下:

        其中,WS和WT為d×C矩陣,分別表示源域和目標域的權(quán)重矩陣;A∈Rd×r表示源域和目標域公共字典;VS和VT為r×C矩陣,分別表示源域和目標域的系數(shù)矩陣,然后引入l2,1范數(shù)來約束系數(shù),體現(xiàn)了權(quán)重矩陣可由字典稀疏表示的特性;λ、β1、β2和α為權(quán)衡參數(shù)。

        對于式(2),第一項和第二項繼承了原始的SLMC算法,主要用于目標域數(shù)據(jù)的聚類;第三項和第四項為參數(shù)的公共字典學習,實現(xiàn)了源域和目標域“知識”的連接;最后兩項為字典系數(shù)的約束,并通過行稀疏約束實現(xiàn)了選擇性域適應。

        該模型基于SLMC在輸出(標記)空間中進行聚類,通過學習參數(shù)公共字典實現(xiàn)域間知識連接,并由稀疏系數(shù)實現(xiàn)各域參數(shù)(權(quán)重)在公共字典中的適應性選擇。此外,本文提出的參數(shù)遷移新方法,對于無監(jiān)督模型(FCM及其衍生算法)、監(jiān)督模型(SVM及其衍生算法)和神經(jīng)網(wǎng)絡模型,亦可分別對聚類中心和權(quán)重進行參數(shù)字典學習實現(xiàn)域適應。因此,本文提出的WUDA框架有著較廣泛的擴展。

        3.3 模型優(yōu)化

        WUDA是關(guān)于(WT,u,A,VS,VT)塊凸的優(yōu)化問題,則根據(jù)文獻[37]可保證迭代優(yōu)化的收斂性。故而,本文使用交替迭代法優(yōu)化目標變量,即在優(yōu)化過程中,固定其他變量,只優(yōu)化一個變量。因此,式(2)的優(yōu)化問題可重寫為以下5個子優(yōu)化問題:

        對于式(3)中的5個子優(yōu)化問題,分別令關(guān)于uki、WT、A、VS、VT的偏導為0,即有:

        因此,關(guān)于uki、WT、A、VS、VT的閉式解如下:

        那么,具體算法如下:

        輸入:XS、XT,源域和目標域數(shù)據(jù)集;λ、β1、β2、α,權(quán)衡參數(shù);r,字典的詞匯量;ε,迭代停止參數(shù);Max_iter,迭代最大次數(shù)。

        輸出:U,隸屬度矩陣;,決策函數(shù)。

        4 實驗與結(jié)果

        4.1 實驗設置

        實驗中,采用RI(rand index)和NMI(normalized mutual information)指標評估WUDA算法的聚類性能。通常,RI和NMI的定義如下:

        子美千古大俠,司馬遷之后一人。 子長為救李陵而下腐刑,子美為救房琯幾陷不測,賴張相鎬申救獲免。 坐是蹉跌,卒老劍外,可謂為俠所累。 然太史公遭李陵之禍而成《史記》,與天地相終始; 子美自《發(fā)秦州》以后諸作,泣鬼疑神,驚心動魄,直與《史記》并行。 造物所以酬先生者,正自不薄。

        其中,n為樣本數(shù),a和b分別表示實際標記和預測標記屬于相同類別的元素對數(shù)和不同類別的元素對數(shù)。ni,j表示簇i和簇j一致的樣本量,ni和nj分別表示簇i和簇j的樣本量。RI和NMI的取值范圍均為[0,1],并且它們的值越大說明聚類效果越好。

        在WUDA優(yōu)化模型中,字典的詞匯量r和多個權(quán)衡參數(shù)(λ、β1、β2、α)需要確定,β1和β2分別權(quán)衡源域和目標域所提供“知識”的程度。因此,這些參數(shù)值的確定對提高WUDA的聚類性能至關(guān)重要。同時,本文的研究問題是從完全無監(jiān)督(源域和目標域中的數(shù)據(jù)均無標記)的角度考慮,而交叉驗證法主要面向監(jiān)督型方法確定參數(shù)。因此,在實驗過程中采用網(wǎng)格搜索法來尋找最佳參數(shù),避免了不佳參數(shù)產(chǎn)生的負遷移問題。

        本文關(guān)注的是無標記小樣本問題。因此,對目標域數(shù)據(jù)做以下處理:從給定的真實數(shù)據(jù)集中隨機抽取各類的部分樣本作為目標域的實驗數(shù)據(jù)。

        實驗均在配置為Intel?CoreTMi5-3470 CPU,16 GB內(nèi)存的計算機上運行,且實驗代碼均由python編寫實現(xiàn)。

        4.2 實驗結(jié)果

        為了驗證WUDA算法的有效性,本文分別在模擬數(shù)據(jù)集和真實數(shù)據(jù)集上進行實驗,對比算法包括聚類算法(FCM、SLMC)和無監(jiān)督遷移學習算法(STC、TSC、TFCM),并且為了避免實驗的偶然性,分別在各數(shù)據(jù)集上運行10次,以它們的均值作為最后的實驗結(jié)果。

        (1)模擬數(shù)據(jù)集

        在模擬數(shù)據(jù)集中,分別模擬高斯分布和雙月分布。在高斯分布的情況下,源域樣本數(shù)為600(每個類為200),目標域樣本數(shù)為90(每個類為30)且特征維度均為2。而在雙月分布的情況下,源域樣本數(shù)為400(每個類為200),目標域樣本數(shù)為60(每個類為30),且特征維度也為2。由圖2知,源域和目標域的邊際概率P(X)不同,但條件概率P(Y|X)相同。

        Fig.2 Simulated data sets圖2 模擬數(shù)據(jù)集

        Table 1 Performance comparison of simulated data sets表1 模擬數(shù)據(jù)集性能比較

        (2)真實數(shù)據(jù)集

        真實數(shù)據(jù)集包括Office+Caltech、Mnist+Usps和PIE數(shù)據(jù)集,分別為目標識別、手寫數(shù)字和人臉識別數(shù)據(jù)集。如表2所示。

        Table 2 Real data sets表2 真實數(shù)據(jù)集

        (1)Office+Caltech數(shù)據(jù)集總共包括2 533個圖片和4個域,分別為Webcam、Amazon、Caltech和Dslr,且這4個域的邊際分布(P(X))不同但描述的均為相同的物體。在實驗中,分別以Caltech和Webcam作為源域,以Amazon和Dslr作為目標域。

        (2)Mnist+Usps數(shù)據(jù)集共有3 800個樣本和2個域,這兩個域中的手寫數(shù)字的表現(xiàn)形式不同。實驗中,以Mnist為源域,Usps為目標域?qū)崿F(xiàn)完全無監(jiān)督域適應。

        (3)PIE數(shù)據(jù)集是人臉識別數(shù)據(jù)集,該數(shù)據(jù)集根據(jù)不同的拍攝角度劃分域。實驗中,選取PIE05作為源域,PIE07作為目標域?qū)崿F(xiàn)完全無監(jiān)督自適應。綜上,數(shù)據(jù)如圖3所示。

        在實驗中,為了驗證WUDA的可行性僅僅是因為域適應而不是樣本是否線性可分,以線性決策函數(shù)f(x)=WTx為代表進行算法驗證和比較。因此,本文通過減少類別數(shù)來降低非線性情況的概率。那么,在 Caltech→Amazon、Webcam→Dslr、Mnist→Usps、PIE05→PIE07數(shù)據(jù)集中,分別從它們的10、10、10和68個類中隨機選擇3、4、3和8個類作為實驗類別,故實驗結(jié)果的好壞完全驗證了域適應的程度。

        對于非線性問題,本文的WUDA也可解決。但WUDA的優(yōu)化函數(shù)需做以下修改:將核化后樣本的決策函數(shù)表示成f(x)=WTφ(x)=αK,然而,直接對參數(shù)W進行字典學習會因φ(x)未知而導致問題無法優(yōu)化。故而,需對參數(shù)α進行互適應公共字典學習,從而可以解決樣本線性不可分的問題。因本文的主旨是驗證WUDA在概念上的可行性,所以僅對線性情況做了實驗,免去了非線性的實驗,原因是兩者實現(xiàn)方式上完全一致。因此,給出了非線性情況的理論說明,同時線性情況的實驗已充分驗證了WUDA不僅可行,而且聚類效果顯著。

        由于本文針對的是無標記小樣本問題,且原始樣本數(shù)過多,故從對應類中隨機刪除部分數(shù)據(jù),得到了滿足要求的數(shù)據(jù)。

        在真實的域適應數(shù)據(jù)集上,分別與5種算法進行比較,得到表3,并據(jù)此得出以下結(jié)論:

        Fig.3 Real data sets圖3 真實數(shù)據(jù)集

        Table 3 Performance comparison of real data sets表3 真實數(shù)據(jù)集性能比較

        (1)在Office+Caltech數(shù)據(jù)集和PIE人臉識別數(shù)據(jù)集上,提出的WUDA明顯優(yōu)于其他算法,主要得益于源域和目標域間公共字典的連接及其選擇性適應。STC和TSC均從實例和特征兩個角度實現(xiàn)知識遷移,由于其無選擇能力,導致不利元素也被遷移致使性能變?nèi)酰欢鳷FCM受源域和目標域間的類中心和隸屬度的影響,若源域?qū)δ繕擞虻念愔行暮碗`屬度指導性差,則同樣因其無選擇能力而導致遷移能力變?nèi)?。此外,對?016年提出的TFCM,在Office+Caltech數(shù)據(jù)集上,WUDA的RI指標高出約15%;在PIE數(shù)據(jù)集上,NMI指標高出約35%。

        (2)在Mnist+Usps數(shù)據(jù)集上,TSC的聚類性能最佳,但WUDA明顯優(yōu)于TFCM,且與STC的聚類性能相當。究其原因:Mnist和Usps數(shù)據(jù)集間參數(shù)的相關(guān)性較弱,導致Usps和Mnist互適應學得的公共“知識”較少,致使各域參數(shù)的選擇能力變?nèi)?,故而WUDA的聚類性能達不到最佳。TSC在原始樣本空間中實現(xiàn)譜聚類遷移學習,由于受參數(shù)相關(guān)性影響相對較小,因此域適應效果優(yōu)于WUDA。

        (3)在所有數(shù)據(jù)集上,提出的WUDA均優(yōu)于原始聚類算法SLMC,說明通過調(diào)節(jié)域適應參數(shù)β1、β2和α,可有效地抑制負遷移的產(chǎn)生。

        4.3 參數(shù)和收斂性

        (1)參數(shù)選擇

        本文所提的WUDA的目標函數(shù)有多個參數(shù)需要確定,在完全無監(jiān)督的情況下,采用網(wǎng)格搜索法尋找最佳參數(shù)。在參數(shù)選擇的過程中,以PIE數(shù)據(jù)集為例進行參數(shù)確定。

        首先是參數(shù)α,它用于權(quán)衡字典稀疏系數(shù)的重要性,搜索范圍為[0.01,0.10,1.00,2.00,5.00,8.00,10.00,20.00,50.00]。觀察圖4(a)發(fā)現(xiàn):當α=1.00時,NMI的值最大;同時,α在[2.00,5.00,8.00,10.00]上并未對結(jié)果產(chǎn)生顯著性影響。

        Fig.4 Parameter setting ofαandr圖4 α和r的參數(shù)設置

        然后是參數(shù)r,它表示字典的詞匯量。從圖4(b)易知,詞匯量的大小顯著地影響聚類性能,搜索范圍為1~10,當r為5時,NMI取最大值0.665;當r超過5時,NMI趨于穩(wěn)定。說明r超過一定值時,超出的字典對域適應學習影響較小。然而總體的NMI變化較大,則說明字典詞匯量過小,會影響WUDA的聚類性能。

        最后,對于參數(shù)β1和β2,分別用于權(quán)衡源域和目標域中參數(shù)W的重要性,搜索范圍均為[0.000 1,0.001 0,0.010 0,0.100 0,1.000 0,5.000 0,10.000 0]。觀察圖5發(fā)現(xiàn):當β1=5.000 0,β2=0.010 0時,NMI取最大值,說明目標域從源域中適應性學得了可遷移“知識”,提高了目標域的聚類性能。

        Fig.5 Parameter setting ofβ1andβ2圖5 β1和β2的參數(shù)設置

        (2)收斂性

        Fig.6 Convergence of data sets圖6 數(shù)據(jù)集的收斂性

        5 總結(jié)與展望

        本文受軟大間隔聚類的啟發(fā),結(jié)合字典學習的理論,在源域和目標域的權(quán)重間進行互適應參數(shù)公共字典學習,并引入l2,1范數(shù)來約束字典系數(shù),使各域參數(shù)可從公共字典中適應性選擇,從而實現(xiàn)域適應學習。最后通過相關(guān)實驗驗證了WUDA的可行性和顯著有效性。除此之外,本文的算法思想不僅適用于SLMC,對于傳統(tǒng)的無監(jiān)督算法(如FCM及其衍生算法)、監(jiān)督型算法(如SVM及衍生算法)和神經(jīng)網(wǎng)絡,可對聚類中心v和參數(shù)W分別進行互適應公共字典學習,亦可實現(xiàn)域適應學習。故下一步工作中,將對此算法做以下擴展:(1)目標域類別是源域類別的子類問題;(2)多個源域和多個目標域的互適應學習問題(既有虛漂移也有實漂移),同時包括源域和源域、目標域和目標域的互學習。

        猜你喜歡
        源域字典聚類
        多源域適應方法綜述
        開心字典
        家教世界(2023年28期)2023-11-14 10:13:50
        開心字典
        家教世界(2023年25期)2023-10-09 02:11:56
        基于參數(shù)字典的多源域自適應學習算法
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        我是小字典
        正版字典
        讀者(2016年14期)2016-06-29 17:25:50
        基于改進的遺傳算法的模糊聚類算法
        可遷移測度準則下的協(xié)變量偏移修正多源集成方法
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        国产一区二区三区在线影院| 五月天激情小说| 亚洲五月天综合| 天堂网在线最新版www中文网| 久久亚洲精品成人| аⅴ天堂国产最新版在线中文| 国产精品无码不卡在线播放| 91亚洲精品久久久蜜桃| 一区二区免费国产a在亚洲| 国产成人精品一区二区三区av| 中文字幕人妻在线少妇| 色又黄又爽18禁免费网站现观看 | 久久久久人妻精品一区5555| 亚洲肥婆一区二区三区| 十八禁视频网站在线观看| 亚洲h在线播放在线观看h| 亚洲av无码一区二区三区性色| 加勒比日本东京热1区| 91在线视频视频在线| 亚洲一区二区三区四区地址| 无码少妇精品一区二区免费动态| 双乳被一左一右吃着动态图| 中文字幕第1页中文字幕在| 黄色大片一区二区中文字幕| av中文字幕在线直播| 国产乱人伦偷精品视频免观看 | 国产成人拍精品免费视频| 国产自拍精品视频免费观看| 国产亚洲精品一区在线| 国产女主播白浆在线观看| 日韩在线看片免费人成视频| 中文字幕一区韩国三级| 少妇性l交大片免费1一少| 暖暖 免费 高清 日本 在线| 欧美巨大xxxx做受中文字幕| 久久国产精品超级碰碰热| 久久综合久久综合久久| 91成人自拍在线观看| 99精品人妻少妇一区二区| 无限看片在线版免费视频大全| 制服无码在线第一页|