張汗靈,湯隆慧,周 敏
(1.湖南大學(xué)信息科學(xué)與工程學(xué)院,湖南長沙 410082;2.國家安全生產(chǎn)監(jiān)督管理總局,北京 100713)
基于KMM匹配的參數(shù)遷移學(xué)習(xí)算法*
張汗靈1?,湯隆慧1,周 敏2
(1.湖南大學(xué)信息科學(xué)與工程學(xué)院,湖南長沙 410082;2.國家安全生產(chǎn)監(jiān)督管理總局,北京 100713)
當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自不同的領(lǐng)域或任務(wù)以至于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布不相同時(shí),需要進(jìn)行知識(shí)的遷移.本文提出一種基于實(shí)例KMM匹配的參數(shù)遷移學(xué)習(xí)方法.利用KMM算法估計(jì)每個(gè)源領(lǐng)域?qū)嵗臋?quán)重,再利用得到的權(quán)重,把這些實(shí)例應(yīng)用到基于參數(shù)的遷移學(xué)習(xí)方法中.把該遷移學(xué)習(xí)算法應(yīng)用到無線網(wǎng)絡(luò)定位問題中時(shí),該方法的定位準(zhǔn)確度要高于單獨(dú)從實(shí)例或是從參數(shù)出發(fā)的遷移學(xué)習(xí)方法.
遷移;實(shí)例;權(quán)重;參數(shù)
數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)已經(jīng)應(yīng)用于許多知識(shí)工程技術(shù)領(lǐng)域[1].但是,大多數(shù)機(jī)器學(xué)習(xí)技術(shù)都存在一個(gè)相同的假設(shè),那就是訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從相同的分布.當(dāng)這些分布發(fā)生變化的時(shí)候,統(tǒng)計(jì)模型需要重新收集訓(xùn)練數(shù)據(jù)來重建,但是重新收集這些訓(xùn)練數(shù)據(jù)或重建這個(gè)模型的花費(fèi)是比較昂貴的.我們希望能夠設(shè)計(jì)出一種算法以減少重新收集訓(xùn)練數(shù)據(jù)所花費(fèi)的開銷,在這種情況下,不同任務(wù)或領(lǐng)域間的知識(shí)遷移或遷移學(xué)習(xí)就顯得十分重要了.
遷移學(xué)習(xí)按照遷移的對(duì)象不同可以分為4類:第1類,基于實(shí)例的遷移學(xué)習(xí)算法[2-3];第2類,基于特征表征的遷移學(xué)習(xí)算法[4-5];第3類,基于參數(shù)的遷移學(xué)習(xí)算法[6-7];第4類,基于關(guān)聯(lián)知識(shí)的遷移學(xué)習(xí)算法[8].這些遷移學(xué)習(xí)算法各有利弊:基于實(shí)例的遷移學(xué)習(xí)算法,遷移效果較為明顯,但是它只能對(duì)非常相似的數(shù)據(jù)進(jìn)行遷移;基于特征的遷移學(xué)習(xí)算法,效果不是很明顯,但是它可以從很不相似的數(shù)據(jù)中遷移知識(shí);基于模型參數(shù)的遷移學(xué)習(xí)方法是傳統(tǒng)機(jī)器學(xué)習(xí)方法比較自然的擴(kuò)展,但是這種方法是一種比較被動(dòng)的方法.事實(shí)上,基于實(shí)例的遷移學(xué)習(xí)方法一般發(fā)生于模型訓(xùn)練之前,而基于模型參數(shù)的遷移學(xué)習(xí)方法剛好是在模型訓(xùn)練階段,基于此,提出一種基于實(shí)例匹配KMM的參數(shù)遷移方法,在參數(shù)遷移方法的模型訓(xùn)練之前先對(duì)實(shí)例進(jìn)行權(quán)重的重新估計(jì),在模型訓(xùn)練階段再采用基于參數(shù)的遷移方法,從而不僅能利用源領(lǐng)域數(shù)據(jù)還能利用模型訓(xùn)練階段因?yàn)閰?shù)而共享的信息.一般來說,如果能更多地利用兩個(gè)領(lǐng)域的共享信息,就能得到更好的遷移學(xué)習(xí)效果,本文提出的這種遷移學(xué)習(xí)方法,在重新估計(jì)實(shí)例的權(quán)重的同時(shí),也從它的模型參數(shù)出發(fā)進(jìn)行遷移.
參數(shù)遷移一般假設(shè)相關(guān)聯(lián)任務(wù)的模型共享一些參數(shù),它們都是在多任務(wù)學(xué)習(xí)框架下設(shè)計(jì)的,可以很容易地被修改成遷移學(xué)習(xí).在多任務(wù)學(xué)習(xí)中,源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的損失函數(shù)的權(quán)重是一樣的;相反,遷移學(xué)習(xí)中,不同領(lǐng)域的損失函數(shù)的權(quán)重是不一樣的,為了目標(biāo)領(lǐng)域能達(dá)到更好的性能,一般為目標(biāo)領(lǐng)域分配更大的權(quán)重.Law rence和Platt[9]提出了一個(gè)高效的算法M T-IVM,它基于高斯過程解決多任務(wù)學(xué)習(xí)問題.M T-IVM[10]通過共享相同的GP優(yōu)先在多任務(wù)學(xué)習(xí)中學(xué)習(xí)高斯過程的參數(shù).
Evgeniou和Pontil[7]為多任務(wù)學(xué)習(xí)借鑒了分層貝葉斯的思想并把它應(yīng)用到SVM s中.假設(shè)在SVM s中每項(xiàng)任務(wù)的參數(shù)ω可以被分成兩部分,一部分是任務(wù)間共有的,另外一個(gè)是每個(gè)任務(wù)特有的,這種方法是對(duì)傳統(tǒng)學(xué)習(xí)方法的自然擴(kuò)展.因此,在本文的遷移學(xué)習(xí)框架中采用這種基于參數(shù)的遷移方法.
式中:S表示源任務(wù);T表示目標(biāo)任務(wù);wS和w T分別為源任務(wù)和目標(biāo)任務(wù)學(xué)習(xí)中SVM s的參數(shù);w0為共有的參數(shù);vS和vT分別為源任務(wù)和目標(biāo)任務(wù)特有的參數(shù).假定每個(gè)任務(wù)t的超平面f t=w t?x, SVM s擴(kuò)充到多任務(wù)學(xué)習(xí)中可以表示為式(3):
通過最小化期望風(fēng)險(xiǎn)來學(xué)習(xí)模型優(yōu)化參數(shù)θ*.
式中:Θ為θ的取值范圍;l(x,y,θ)為取決于參數(shù)θ的損失函數(shù),由于估計(jì)概率分布P是一個(gè)很難的問題,因此選擇最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)來代替:
式中:n為訓(xùn)練數(shù)據(jù)的大小.
在直推式遷移學(xué)習(xí)環(huán)境下,通過最小化期望風(fēng)險(xiǎn)來學(xué)習(xí)一個(gè)優(yōu)化模型
但是由于在目標(biāo)領(lǐng)域沒有被標(biāo)記的數(shù)據(jù)在訓(xùn)練時(shí)可以被觀察到,因此需要從源領(lǐng)域數(shù)據(jù)學(xué)習(xí)一個(gè)模型來代替.如果P(DS)=P(DT),則可以簡單地通過求解式(7)的優(yōu)化問題來學(xué)習(xí)模型用于目標(biāo)領(lǐng)域.
通過為每一個(gè)具有相應(yīng)權(quán)重PT(xTI,yTi)/ PS(xSi,ySi)的實(shí)例(xSi,ySi)增加懲罰值,可以為目標(biāo)領(lǐng)域?qū)W到一個(gè)精確的模型.更進(jìn)一步地,既然P(YT|XT)=P(YS|XS),這樣P(DS)和P(DT)之間的差異由P(XS)和P(XT)引起,并且PT(xTi, yTi)/PS(xSi,ySi=P(xSi/P xTi).如果可以為每個(gè)實(shí)例估計(jì)P(xSi)/P(xTi),則可以解決直推式遷移學(xué)習(xí)問題.Zadrozny[11]通過構(gòu)造簡單的分類問題來分別估計(jì)P(xSi)和P(xTi).
本文采用Huang等人提出的核均值匹配算法(KMM),通過在核希爾伯特空間(RKHS)匹配源領(lǐng)域和目標(biāo)領(lǐng)域的平均值來直接學(xué)習(xí)P(xSi)/P(xTi). KMM可以表示為式(9)的二次規(guī)劃優(yōu)化問題.
式中:K S,S和K T,T分別為源領(lǐng)域數(shù)據(jù)和目標(biāo)領(lǐng)域數(shù)據(jù)的核矩陣,
xi∈XS∪XT,xTj∈XT.可以證明βi= P(xSi)/P(xTi)[3].采用KMM的優(yōu)點(diǎn)是它可以避免P(xSi)和P(xTi)的密度估計(jì),當(dāng)數(shù)據(jù)集很小的時(shí)候密度估計(jì)是很難的.
在軟邊緣支持向量回歸框架下,基于參數(shù)遷移的學(xué)習(xí)問題為式(10):
KMM的風(fēng)險(xiǎn)估計(jì)通過兩點(diǎn)來說明,一是對(duì)于期望風(fēng)險(xiǎn)l(x,θ):=Ey|x l(x,y,θ),利用系數(shù)βi得到一個(gè)低偏差的風(fēng)險(xiǎn)估計(jì);二是隨機(jī)變量∑iβi l(xi,yi,θ)集中于∑iβi l(xi,θ)附近.
不等式右邊具有上限Cε.
假設(shè)l(x,y,θ)也可以通過〈Φ(x,y),Θ〉來表示,其中‖Θ‖≤C,‖Φ(x,y)‖≤R.與M:= m2/‖β‖2,則可以得到式(16):
式(17)表明:最小化重新估計(jì)權(quán)重后的訓(xùn)練樣本集的經(jīng)驗(yàn)風(fēng)險(xiǎn)將以很大概率就是最小化測試樣本集上的期望風(fēng)險(xiǎn)的上限.由于核均值匹配KMM產(chǎn)生的風(fēng)險(xiǎn)存在一個(gè)上限,并且基于參數(shù)遷移的支持向量回歸問題通過上面的推導(dǎo)可以看出它最終還是一個(gè)普通的支持向量回歸問題,而支持向量回歸本身就是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的,它的經(jīng)驗(yàn)風(fēng)險(xiǎn)能夠趨向其期望風(fēng)險(xiǎn).從而在本文的遷移學(xué)習(xí)過程中,風(fēng)險(xiǎn)函數(shù)也能夠存在一個(gè)上界.
在室內(nèi)無線局域網(wǎng)定位問題中[12],它的目標(biāo)是基于以前收集到的無線局域網(wǎng)數(shù)據(jù)來檢測用戶的當(dāng)前位置.一個(gè)大規(guī)模的環(huán)境里校準(zhǔn)無線局域網(wǎng)數(shù)據(jù)建立定位模型是費(fèi)用非常昂貴的,因?yàn)橛脩粜枰诿恳粋€(gè)定位處標(biāo)記大量的無線網(wǎng)絡(luò)數(shù)據(jù),而一段時(shí)間或一種裝置訓(xùn)練好的模型將會(huì)引起另外一段時(shí)間或另外一種裝置的定位估計(jì)性能的下降.為了減少重新校準(zhǔn)的精力,希望能夠把一段時(shí)間訓(xùn)練好的模型用于另外一段時(shí)間,或一個(gè)移動(dòng)裝置訓(xùn)練好的模型用于另外一個(gè)裝置.
在實(shí)驗(yàn)中,將本文的遷移學(xué)習(xí)方法應(yīng)用到這種無線局域網(wǎng)定位問題中,當(dāng)對(duì)于兩種不同的裝置獲得的定位標(biāo)記數(shù)據(jù),需要利用A裝置的標(biāo)記數(shù)據(jù)來幫助B裝置所獲得的數(shù)據(jù)的標(biāo)記,這可以看成是兩個(gè)任務(wù)的學(xué)習(xí)或是不同領(lǐng)域之間的遷移學(xué)習(xí)問題.由于兩個(gè)設(shè)備不一樣,因此兩者所獲得的數(shù)據(jù)分布是不一樣的.這些數(shù)據(jù)是從64 m×50 m區(qū)域107個(gè)位置得到的訓(xùn)練測試數(shù)據(jù),在每個(gè)位置每個(gè)設(shè)備獲得20個(gè)樣本.對(duì)于每個(gè)設(shè)備,隨機(jī)地把數(shù)據(jù)一半用于訓(xùn)練,一半用于測試,實(shí)驗(yàn)的效果用平均錯(cuò)誤距離來衡量.
首先,在求β時(shí),在核分類或回歸中,要用到一個(gè)高斯核函數(shù),-‖xi-xj‖2/σ,σ取9,其他參數(shù).圖1和圖2為X軸和Y軸上的平均錯(cuò)誤距離與B裝置的訓(xùn)練數(shù)據(jù)量多少的關(guān)系,圖中縱坐標(biāo)單位為m,實(shí)線表示的是本文的遷移學(xué)習(xí)方法(KMM regularized),虛線為基于參數(shù)的遷移學(xué)習(xí)方法(regularized),點(diǎn)劃線為基于實(shí)例的遷移學(xué)習(xí)方法KMM.從圖中可以看出,當(dāng)只用到B裝置的很少一部分?jǐn)?shù)據(jù)即取全部數(shù)據(jù)的10%時(shí),用本文的遷移學(xué)習(xí)方法得到的X軸和Y軸上的平均錯(cuò)誤比原來兩種遷移學(xué)習(xí)方法都要小很多,隨著B裝置的訓(xùn)練樣本的增大,3種遷移學(xué)習(xí)方法的效果漸漸相差不大,當(dāng)B裝置的樣本達(dá)到30%時(shí),這3種遷移學(xué)習(xí)方法的結(jié)果都達(dá)到趨向最好的效果.可見,本文的遷移學(xué)習(xí)方法相對(duì)于原來單獨(dú)的遷移學(xué)習(xí)方法能取得更好的遷移效果,特別是當(dāng)目標(biāo)領(lǐng)域的樣本數(shù)比較少時(shí),效果更明顯.
圖1 X軸的平均錯(cuò)誤距離Fig.1 The average error distance of X-axis
圖2 Y軸的平均錯(cuò)誤距離Fig.2 The average error distance o f Y-axis
但是當(dāng)B裝置的樣本超過30%時(shí),本文的遷移學(xué)習(xí)方法與原來的單獨(dú)遷移學(xué)習(xí)方法的效果相差不大,這是因?yàn)楫?dāng)B裝置的樣本數(shù)量達(dá)到一定程度時(shí),即使不通過遷移學(xué)習(xí)僅僅利用B裝置的這些已標(biāo)記樣本也能獲得較好的學(xué)習(xí)效果.這時(shí),遷移也就沒必要了.
另外,本實(shí)驗(yàn)是在512M內(nèi)存的機(jī)器上采用MATLAB進(jìn)行仿真實(shí)驗(yàn).經(jīng)過10次運(yùn)行,本文的遷移學(xué)習(xí)方法的平均時(shí)間消耗為800 s左右,基于實(shí)例的遷移學(xué)習(xí)KMM方法的平均消耗時(shí)間為680 s左右,而基于參數(shù)的遷移學(xué)習(xí)方法所消耗的平均時(shí)間為1 800 s左右.因此,本文的算法在提高了學(xué)習(xí)性能的情況下并沒有付出相對(duì)過多的時(shí)間代價(jià).
本文提出了一種基于實(shí)例匹配KMM的參數(shù)遷移學(xué)習(xí)方法,該方法能夠在模型訓(xùn)練之前利用源領(lǐng)域?qū)嵗齺磉w移知識(shí),同時(shí)在模型訓(xùn)練階段利用參數(shù)來遷移共享的信息,從而能夠比較充分地利用兩個(gè)領(lǐng)域或是兩個(gè)任務(wù)之間的共同信息.通過對(duì)無線局域網(wǎng)定位實(shí)驗(yàn)可以看出,本文的遷移學(xué)習(xí)方法的定位準(zhǔn)確度要明顯高于單獨(dú)從實(shí)例或是從參數(shù)出發(fā)的遷移學(xué)習(xí)方法,尤其是當(dāng)目標(biāo)領(lǐng)域數(shù)據(jù)特別少時(shí).
在以后的工作中,可以把這種方法應(yīng)用到像文本分類,網(wǎng)頁自動(dòng)分類以及圖像識(shí)別等領(lǐng)域中.
[1] PAN S J,YANG Q.A su rvey on transfer learning[J].IEEE T ransactions on Know ledge and Data Engineering,2010,22 (10):1345-1359.
[2] DA IW,YANG Q,XUE G,et al.Boosting for transfer learning[C]//Proceedings of the 24 th International Conference on Machine Learning,Oregon:ACM,2007:193-200.
[3] HUANG J,SMOLA A,GRETTON A,eta l.Correcting sample selection bias by unlabeled data[C]//Proceedings of the 19th Annual Conference on Neu ral Information Processing Systems,San Jose,CA,DS:ACM,2007:1133-1138.
[4] DA IW,XUEG,YANG Q,eta l.Co-clustering based classification for out-of-domaindocumen ts[C]//Proceedings of the 13th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,California:ACM,2007:210-219.
[5] ARGYRIOU A,EVGENIOU T,PON TILM.M u lti-task feature learning[C]//Proceedingsof the 19th Annual Conference on Neu ral Information Processing Systems,Vancouver, British Columbia,Canada,M IT Press,2007:41-48.
[6] SCHWA IGHOFER A,TRESP V,YU K.Learning gaussian p rocesskernels via hierarchical bayes[C]//Proceedings of the 17th Annual Conference on Neural Information Processing Systems.Cambridge,M A:M IT Press,2005:1209-1216.
[7] EVGENIOU T,PONTIL M.Regularized multi-task learning [C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Seattle,W ashington:ACM,2004:109-117.
[8] M IHALKOVA L,MOONEY R J.T ransfer learning by mapping w ithm inimal targetdata[C]//Proceedingsof theAAA I-2008 Wo rkshop on Transfer Learning for Complex Tasks, Chicago,Illinois:AAA I,2008:31-36.
[9] LAWRENCE N D,PLATT JC.Learning to learn with the informative vectorm achine[C]//P roceedingsof the 21st International Conference on Machine Learning.Banff,A lberta: ACM,2004:512-519.
[10]BONILLA E,CHA I K M,WILLIAMSC.Multi-task gaussian process prediction[C]//Proceedings of the 20th Annual Conference on Neu ral Information Processing Sy stems.Cambridge,MA:M IT Press,2008:153-160.
[11]ZADROZNY B.Learning and evaluating classifiersunder sample selection bias[C]//Proceedings of the 21st International Conference on Machine Learning,A lberta:ACM,2004:903-910.
[12]ZHEN VW,PAN S J,YANG Q,etal.T ransferringmu ltidevice localization models using latent mu lti-task learning [C]//Proceedingsof the 23rd AAA IConference on A rtificial Intelligence,Chicago,Illinois:AAAI,2008:1427-1432.
KMM-based Learning A lgorithm for Parameter Transfer
ZHANG Han-ling1?,TANG Long-hui1,ZHOU M in2
(1.College of Computer and Communication,H unan Univ,Changsha,H unan 410082,China; 2.State Adim inistration o f Work Safety,Beijing 100713,China)
A majorassumption in many machine learning algorithm s is that the training dataand testing data have the same distribution.However,inmany real-world app lications,this assumptionmay nothold. T ransfer learning add resses this p rob lem and utilizes plenty of labeded data in a source domain to so lve related but differentproblem s in a targetdomain.This paper proposed a parameter-transfer learningmethod based on KMM(KernelMean M atching)algorithm.First,we weighed each source instance using KMM and then applied the rew eighted instances to the learningm ethod based on parameters.We app lied this method to the localization of w ireless network.Experiment results have dem onstrated that the proposed method outperform s themethods based on instances or param eters,especially when the target training data are relatively few.
transfer;instance;weighing;parameters
TP18
A
1674-2974(2011)04-0072-05 *
2010-08-18
國家林業(yè)公益性行業(yè)科研專項(xiàng)經(jīng)費(fèi)資助項(xiàng)目(201104090);長沙科技計(jì)劃項(xiàng)目(K 1003046-11)
張汗靈(1968-),男,湖南邵陽人,湖南大學(xué)副教授
?通訊聯(lián)系人,E-mail:zhang_hl2002@hotmail.com