顧 鑫,王士同
(1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇 無錫214122;2.江蘇北方湖光光電有限責(zé)任公司,江蘇 無錫 214035)
基于數(shù)據(jù)分類的領(lǐng)域自適應(yīng)新算法*
顧 鑫1,2,王士同1
(1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇 無錫214122;2.江蘇北方湖光光電有限責(zé)任公司,江蘇 無錫 214035)
一般的機(jī)器學(xué)習(xí)都假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)分布相同,而領(lǐng)域自適應(yīng)算法則是在不同數(shù)據(jù)分布條件下進(jìn)行知識(shí)傳遞和學(xué)習(xí),在數(shù)據(jù)挖掘、數(shù)據(jù)校正、數(shù)據(jù)預(yù)測(cè)等領(lǐng)域有著廣泛的應(yīng)用。支持向量機(jī)SVM的主要思想是針對(duì)二分類問題,在高維空間尋找一個(gè)最優(yōu)分類超平面,以保證最小的分類錯(cuò)誤率。CCMEB理論由Tsang I提出的,是一種改進(jìn)了核向量機(jī)CVM的最小包含球算法,在大樣本數(shù)據(jù)集處理上有著較快的速度。而CCMEB理論同樣適用于二分類的SVM數(shù)據(jù)集。將SVM理論、CCMEB理論與概率分布理論相結(jié)合,提出了一種全新的基于數(shù)據(jù)分類的領(lǐng)域自適應(yīng)算法CCMEB-SVMDA,該算法通過計(jì)算各自分類數(shù)據(jù)組的包含球球心,能夠有效地對(duì)不同領(lǐng)域數(shù)據(jù)進(jìn)行整體校正和相似度識(shí)別,具有較好的便捷性和自適應(yīng)性。在UCI數(shù)據(jù)、文本分類等數(shù)據(jù)上對(duì)該算法進(jìn)行了驗(yàn)證,取得了較好的效果。
支持向量機(jī);領(lǐng)域自適應(yīng);最小包含球;中心約束型最小包含球
傳統(tǒng)的知識(shí)學(xué)習(xí)一般假定訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來自同樣的數(shù)據(jù)分布。但是,在實(shí)際情況下由于多種原因這種假設(shè)并不成立,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)往往有不同的分布,當(dāng)分布發(fā)生變化時(shí),傳統(tǒng)的機(jī)器學(xué)習(xí)方法必須從頭開始,需要用戶重新收集大量的訓(xùn)練數(shù)據(jù)。重新收集訓(xùn)練數(shù)據(jù)和再次訓(xùn)練模型的代價(jià)是昂貴的,因此希望能夠運(yùn)用先前任務(wù)中所學(xué)到的知識(shí)來幫助學(xué)習(xí)新的任務(wù),減少對(duì)新的訓(xùn)練數(shù)據(jù)的需求。而領(lǐng)域自適應(yīng)[1,2]可以看做是一種特殊的遷移學(xué)習(xí),其任務(wù)是傳遞和共享不同任務(wù)和域之間的知識(shí)。領(lǐng)域適應(yīng)性的研究主要體現(xiàn)在兩個(gè)方面:一是特征表示,二是概率分布。特征表示重點(diǎn)研究如何對(duì)于目標(biāo)領(lǐng)域進(jìn)行特征選取[3~6]。概率分布則是通過計(jì)算不同領(lǐng)域之間的概率分布差異度來進(jìn)行領(lǐng)域自適應(yīng)的。文獻(xiàn)[1,7]從概率分布角度出發(fā)研究了領(lǐng)域適應(yīng)性方法。傳統(tǒng)的領(lǐng)域自適應(yīng)算法大都利用少量的目標(biāo)領(lǐng)域數(shù)據(jù)來判斷相關(guān)性,容易出現(xiàn)過度擬合,使泛化誤差較大、抗干擾性弱且不適用于大樣本運(yùn)算。
本文從大樣本、抗干擾出發(fā)提出了新的算法,其核心思想是首先將分類數(shù)據(jù)(SVM數(shù)據(jù))(Support Vector Machines)進(jìn)行最小包含球化,然后分別計(jì)算出源始領(lǐng)域、目標(biāo)領(lǐng)域相對(duì)于最小包含球球心的概率估計(jì)值,通過概率估計(jì)值之間的積分差判斷出源始領(lǐng)域與目標(biāo)領(lǐng)域數(shù)據(jù)分布的差異度。為了在不同領(lǐng)域之間完成大樣本學(xué)習(xí),參考中心約束型最小包含球CCMEB(Center Constrained Minimum Enclosing Ball)理論[8~11]提出了CCMEB-SVMDA (CCMEB ON Support Vector Machines Domain Adaptation)算法,該算法有如下特點(diǎn):(1)能將不同域或近似域進(jìn)行整體比較,判斷它們的相似度,從而快速判斷其數(shù)據(jù)分類屬性。(2)有較強(qiáng)的抗擾動(dòng)性,通過提高源始領(lǐng)域與目標(biāo)領(lǐng)域的相似度,消除有害樣本對(duì)分類器的誤導(dǎo),提高分類精度。(3)只需獲取部分目標(biāo)域數(shù)據(jù)就能完成領(lǐng)域自適應(yīng)學(xué)習(xí),而該特性對(duì)隱私保護(hù)、海量數(shù)據(jù)處理和局部數(shù)據(jù)分類等都有著較好的應(yīng)用,能在不重新搜集數(shù)據(jù)或者搜集少量數(shù)據(jù)的情況下,有效地提高分類效果。該算法對(duì)不同類型的領(lǐng)域數(shù)據(jù)有著較好的泛化能力,實(shí)驗(yàn)結(jié)果表明該算法具有較高的效率和準(zhǔn)確性。
本文在以下三個(gè)方面做出了貢獻(xiàn):
(1)將概率密度差理論與最小包含球理論相結(jié)合,提出了一種新的領(lǐng)域自適應(yīng)算法MEB-SVMDA,該算法可演化為面向大樣本的快速算法。
(2)提出了面向大樣本的快速算法CCMEB-SVMDA,該算法既適用于大樣本數(shù)據(jù),也適用于小樣本數(shù)據(jù)。
(3) CCMEB-SVMDA從抗擾動(dòng)性角度展示了較強(qiáng)的領(lǐng)域自適應(yīng)性。
2.1 傳統(tǒng)最小包含球MEB
MEB的主要思想是找到包含一類數(shù)據(jù)的超球,并且使球的半徑盡量小。其QP化、核化后的對(duì)偶問題為:
(1)
其中,ai為L(zhǎng)agrange乘子的子項(xiàng),N為樣本數(shù)量,k(xi,xj)為核函數(shù),diag(k(xi,xj))為提取矩陣k(xi,xj)主對(duì)角線元素,C′為懲罰系數(shù)。
通過公式(1)可求出半徑和球心:
(2)
(3)
該算法可等價(jià)為:
(4)
2.2SVM的最小包含球化[12,13](MEB-SVM)
支持向量機(jī)是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展出的一種性能優(yōu)良的學(xué)習(xí)機(jī)器。TsangI在文獻(xiàn)[8]中指出,SVM算法可以歸結(jié)為MEB問題求解,為后續(xù)的快速求解提供條件。其QP化、核化后的對(duì)偶問題為:
(5)
其中,N為樣本數(shù)量,xi為樣本數(shù)據(jù),yi為樣本標(biāo)簽,δij為附加的參數(shù)量。
當(dāng)i=j時(shí),δij=1,其他情況下δij=0,將公式(5)簡(jiǎn)化后為:
(6)
(7)
公式(7)中當(dāng)所采用的核函數(shù)滿足公式(3)時(shí)則:
(8)
(9)
其中,ei為一調(diào)節(jié)量,詳見文獻(xiàn)[1]。
2.3CCMEB理論
(10)
由公式(10)的最優(yōu)解可得該最小包含球的中心點(diǎn)c和半徑r:
(11)
由于αT1=1,故在公式(10)的目標(biāo)函數(shù)中增加一項(xiàng)-ηαT1(η∈R)將不會(huì)影響最優(yōu)解的值,于是得到下式:
(12)
(13)
通過不斷選擇樣本點(diǎn),迭代比較公式(11)與公式(13)的值,我們先求出樣本空間的核心點(diǎn)(Core-set),繼而可求出最小包含球球心c,具體過程見參考文獻(xiàn)[6]。
3.1MEB-SVMDA算法
(14)
證明
(15)
其中,Rd為d維實(shí)數(shù)集。
(2)等價(jià)MEB:
不失一般性,本文選高斯函數(shù)為核函數(shù),即Kh(x,xi)=Gh(x,xi),則:
(16)
(17)
得:
(18)
證畢。
□
我們需要判斷的是兩個(gè)樣本域之間是否相似或存在某種關(guān)聯(lián)性。根據(jù)ParzenWindows理論可知,利用有限的采樣樣本可以計(jì)算出對(duì)應(yīng)點(diǎn)的概率估計(jì)。這里設(shè)Zi相對(duì)于D1樣本空間概率估計(jì)為PD1(Zi),設(shè)Zi相對(duì)于D2樣本空間概率估計(jì)為PD2(Zi)。使用最小累積平方誤差,使PD2(Zi)最優(yōu)逼近源域概率密度PD1(Zi),即如下表示:
(19)
根據(jù)ParzenWindows概率公式:
(20)
將公式(20)代入到公式(19)中,展開如下:
(21)
則密度差估計(jì)公式可簡(jiǎn)化為:
(22)
所以得出結(jié)論,兩樣本是否相似與各自球的半徑無關(guān)而與球心相關(guān)。根據(jù)定理1可知公式(19)等價(jià)于最小包含球問題??偨Y(jié)后的公式為:
(23)
在得出公式(23)后,為了方便求解將此公式化解為一QP問題求解,化解后的公式如下:
(24)
因?yàn)閏為原樣本空間的最小包含球的球心,其公式為:
(25)
將公式(25)代入公式(24)得到求解公式如下:
(26)
將公式(7)~公式(9)代入公式(26),通過計(jì)算可得新的最小包含球映射在二維空間的球心公式:
(27)
3.2 CCMEB-SVMDA算法
在小樣本條件下MEB-SVMDA有著較好的運(yùn)算速度,但對(duì)大樣本數(shù)據(jù)的處理就顯得力不從心。在MEB-SVMDA的基礎(chǔ)上提出了CCMEB-SVMDA算法,實(shí)驗(yàn)發(fā)現(xiàn)其有著較好的運(yùn)行效率。算法表述如下:將公式(26)參考2.3節(jié)的CCMEB算法取:
(28)
此時(shí)只要選擇足夠大的η,使Δ≥0,此時(shí)公式(29)即是一個(gè)標(biāo)準(zhǔn)的CCMEB問題,于是結(jié)合Core-set技術(shù)就可得到本文的CCMEB-DA算法。其QP公式如下:
(29)
(30)
將公式(7)~公式(9)代入公式(30),計(jì)算可得球半徑和球心,分別為:
(31)
(32)
3.3 領(lǐng)域依賴系數(shù)參數(shù)選擇
公式(14)中定義了領(lǐng)域依賴系數(shù)μ,該系數(shù)越大,源始領(lǐng)域球心與目標(biāo)領(lǐng)域球心越接近,則領(lǐng)域校正能力越強(qiáng),但求得的目標(biāo)領(lǐng)域最小包含球識(shí)別精度就越低(球外點(diǎn)越多)。為了能盡可能多地將測(cè)試點(diǎn)用最小包含球包圍,同時(shí)又要盡可能靠近源始領(lǐng)域的球心,所以需要對(duì)μ進(jìn)行選擇。首先定義兩個(gè)概念:
(1)最小包含球識(shí)別精度RA(Recognition accuracy)定義如下:
RA=(SPI/TSP)*100%
其中,SPI(Sample Points Inside)表示最小包含球內(nèi)部樣本點(diǎn)個(gè)數(shù),TSP(Total Sample Points)表示總樣本點(diǎn)個(gè)數(shù)。
RA的值越大,則表明算法識(shí)別率越高。
(2)領(lǐng)域漂移度DDV(Domain Drift Volume)定義如下:
DDV= (Distance/R)*100%
其中,R為源始領(lǐng)域的最小包含球半徑,Distance為源始領(lǐng)域與目標(biāo)領(lǐng)域球心之間的距離。
DDV的值越小,則說明領(lǐng)域相似度越高,通常我們將設(shè)定一閾值來判別領(lǐng)域相似性。如DDV≤ 50%,兩個(gè)領(lǐng)域相似;DDV>50%,兩個(gè)領(lǐng)域無關(guān)。
在對(duì)μ進(jìn)行取值時(shí)要盡可能地提高“最小包含球識(shí)別精度RA”,同時(shí)也要盡量減小“領(lǐng)域漂移度DDV”。只有這樣才能實(shí)現(xiàn)最大限度地利用已有數(shù)據(jù)學(xué)習(xí)的同時(shí)不丟失現(xiàn)有數(shù)據(jù),從而達(dá)到領(lǐng)域自適應(yīng)性。
3.4 CCMEB-SVMDA求解過程
CCMEB-SVMDA解題步驟如下。
輸入:D1、D2,其中D1為原樣本空間,含有N個(gè)樣本點(diǎn)Zj,D2為目標(biāo)樣本空間,含有N個(gè)樣本點(diǎn)Zi;
步驟1利用CCMEB算法求出D1空間核心集的CORE-SET-1,并求出最小包含球的球心c和半徑R。
步驟2利用核心集CORE-SET-1求出公式(10)對(duì)應(yīng)D1空間的拉格朗日系數(shù)αj,最小包含球的球心c和半徑R:
步驟3利用CCMEB-SVMDA算法求出D2空間核心集的CORE-SET-2。
步驟5(測(cè)試):計(jì)算出不同領(lǐng)域之間的漂移度DDV,判斷領(lǐng)域的相似性。
3.5 CCMEB-SVMDA算法復(fù)雜度分析
標(biāo)準(zhǔn)最小包含球算法的時(shí)間復(fù)雜度為O(m2),空間復(fù)雜度為O(m2),其中m為樣本的規(guī)模。CCMEB利用基于MEB的核心集快速求解,時(shí)間復(fù)雜度和樣本規(guī)模m呈線性關(guān)系,空間復(fù)雜度不依賴于樣本規(guī)模,大大提高了運(yùn)算速度。3.4節(jié)步驟3在迭代求解核心集Qt(其中t表示核心點(diǎn)數(shù)目)時(shí),每作一次迭代運(yùn)算的時(shí)間復(fù)雜度為O(|Qt|2+|D2|· |Qt|),當(dāng)樣本D2規(guī)模較大時(shí)非常耗時(shí)。本文參考文獻(xiàn)[14]提出的加速方法,在樣本D2中隨機(jī)抽取一子集D21作為替代,尋找距離中心最遠(yuǎn)的點(diǎn)。文獻(xiàn)[15]證明了當(dāng)子集大小為59時(shí),最遠(yuǎn)點(diǎn)在D21中的概率為95%。時(shí)間復(fù)雜度則下降為O(|Qt|2+|D21|·|Qt|),其中|D21|為59。這時(shí)數(shù)據(jù)求解規(guī)模遠(yuǎn)遠(yuǎn)小于樣本總體規(guī)模,其時(shí)間復(fù)雜度也遠(yuǎn)遠(yuǎn)小于求解所有樣本的時(shí)間復(fù)雜度。CCMEB-SVMDA算法將CCMEB理論作用于大數(shù)據(jù)集快速運(yùn)算,因此算法復(fù)雜度可參考CVM[3,10],其時(shí)間復(fù)雜度上界為O(m/ε2+1/ε4),與樣本規(guī)模m呈線性關(guān)系,其空間復(fù)雜度上界為O(1/ε2),可使用存儲(chǔ)核心集代替所有樣本而不依賴于樣本規(guī)模(ε為Core-set逼近精度)。
本節(jié)實(shí)驗(yàn)分為三部分。第一部分為人工數(shù)據(jù),主要從抗擾動(dòng)、隱私保護(hù)和數(shù)據(jù)缺失兩方面驗(yàn)證算法的合理性和自適應(yīng)性。第二部分為UCI真實(shí)數(shù)據(jù)集,主要驗(yàn)證算法針對(duì)小樣本真實(shí)數(shù)據(jù)的領(lǐng)域自適應(yīng)性。第三部分為DatabaseonManhattantraffic數(shù)據(jù)集,用來進(jìn)行大樣本真實(shí)數(shù)據(jù)的算法驗(yàn)證。需要注意的是,本文研究方向?yàn)榭珙I(lǐng)域?qū)W習(xí),其源始域與目標(biāo)域數(shù)據(jù)分布不同但近似,源域與目標(biāo)域的分布差異可參考文獻(xiàn)[16,17]進(jìn)行量化。
4.1 人工生成數(shù)據(jù)
(1)數(shù)據(jù)生成與參數(shù)選擇。
人工數(shù)據(jù)實(shí)驗(yàn)主要驗(yàn)證算法原理的合理性。在自生成數(shù)據(jù)實(shí)驗(yàn)中,本文采用f(x)=ax2+bx+c作為二維數(shù)據(jù)的分割線來構(gòu)造SVM數(shù)據(jù)集。固定參數(shù)b,c的取值,通過改變參數(shù)a的值形成不同的二分類數(shù)據(jù)集合,然后選擇11組二維向量數(shù)據(jù),每一組數(shù)據(jù)均含60 000個(gè)隨機(jī)樣本點(diǎn),11組數(shù)據(jù)均為指定條件下的隨機(jī)分布。其中,Train數(shù)據(jù)集設(shè)定為源始領(lǐng)域,其余數(shù)據(jù)集為目標(biāo)領(lǐng)域,其分布情況如表1所示。
表1中的Train、Test1和Test2的數(shù)據(jù)分布相同,其余則不同。為了滿足算法抗干擾性測(cè)試,人為地對(duì)Test1、Test2加以擾動(dòng),加入了不超過10%的錯(cuò)誤分類樣本點(diǎn),錯(cuò)誤樣本點(diǎn)為Test3~Test10中的隨機(jī)抽取點(diǎn)。算法首先需要確定μ的取值,選擇相似的領(lǐng)域數(shù)據(jù)集(Train,Test1),通過反復(fù)實(shí)驗(yàn)比較得到圖1所示結(jié)果。
Table1 Artificially generated data set表1 人工生成數(shù)據(jù)分布設(shè)定
Figure 1 μ selection experiment(Artificial data)圖1 領(lǐng)域依賴系數(shù)選擇實(shí)驗(yàn)(人工數(shù)據(jù))
通過觀察圖1可以發(fā)現(xiàn),當(dāng)μ取值大于10時(shí),識(shí)別精度RA顯著下降,而當(dāng)μ小于10時(shí),漂移度DDV明顯增強(qiáng),算法的校正功能下降??芍硐氲那闆r應(yīng)該是最小包含球識(shí)別精度RA大于90%,領(lǐng)域漂移度DDV小于50%?;谶@種標(biāo)準(zhǔn)我們將參數(shù)μ設(shè)定為10。
(2)數(shù)據(jù)擾動(dòng)下的自適應(yīng)測(cè)試。
CCMEB算法只能求出各自領(lǐng)域數(shù)據(jù)集的球心而不具備抗擾動(dòng)性,在數(shù)據(jù)受到擾動(dòng)的情況下,我們通過CCMEB算法與CCMEB-SVMDA算法的比較測(cè)試本文算法的領(lǐng)域自適應(yīng)性。具體作法如下:首先通過CCMEB算法求出源始領(lǐng)域的球心坐標(biāo)、目標(biāo)領(lǐng)域的最小包含球球心坐標(biāo),以及各目標(biāo)領(lǐng)域與源始領(lǐng)域的球心間距離;然后通過CCMEB-SVMDA算法計(jì)算出目標(biāo)領(lǐng)域相對(duì)于源始領(lǐng)域的球心坐標(biāo)和目標(biāo)領(lǐng)域相對(duì)于源始領(lǐng)域的球心間距離。數(shù)據(jù)結(jié)果見表2。
Table 2 Artificial data’s distance表2 人工數(shù)據(jù)集的Distance統(tǒng)計(jì)
本文3.3節(jié)曾定義過領(lǐng)域漂移度DDV,本實(shí)驗(yàn)將在表2的基礎(chǔ)上分別計(jì)算出純粹采用CCMEB算法的DDV值與采用CCMEB-SVMDA算法的DDV值,計(jì)算結(jié)果如表3所示。
Table 3 DDV of two algorithms(Artificial data)表3 不同算法DDV對(duì)比(人工數(shù)據(jù)) %
對(duì)比觀察表3可以發(fā)現(xiàn),CCMEB-SVMDA算法的領(lǐng)域漂移度更小,目標(biāo)領(lǐng)域球心更加靠近源始領(lǐng)域,算法能夠較好地克服因擾動(dòng)數(shù)據(jù)帶來的領(lǐng)域漂移,從而完成數(shù)據(jù)校正功能。當(dāng)DDV閾值設(shè)為50%時(shí),CCMEB-SVMDA算法相對(duì)于CCMEB算法有著較好的領(lǐng)域自適應(yīng)性,能夠校正Test1與Test2中的擾動(dòng),判斷出Train、Test1和Test2之間的相似性。而對(duì)于數(shù)據(jù)分布明顯不同的數(shù)據(jù),如Test3~Test10也能夠通過球心之間的距離反映出不同領(lǐng)域之間的差異大小。
(3)隱私保護(hù)與數(shù)據(jù)缺失測(cè)試。
為了測(cè)試CCMEB-SVMDA算法是否具有隱私保護(hù)功能,我們按不同百分比抽取目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行測(cè)試,判斷該算法的領(lǐng)域漂移度DDV,實(shí)驗(yàn)結(jié)果如圖2所示。
Figure 2 DDV vs sampling percentage(Artificial Data)圖2 局部數(shù)據(jù)的領(lǐng)域漂移度分析(人工數(shù)據(jù))
通過圖2可以發(fā)現(xiàn),雖然當(dāng)取樣百分比變化時(shí)領(lǐng)域漂移度也有所波動(dòng),但總體來說波動(dòng)范圍不大,且領(lǐng)域?qū)傩耘袛喾指蠲黠@,說明CCMEB-SVMDA算法對(duì)目標(biāo)源數(shù)據(jù)完整性的依賴度不大,而該特性可應(yīng)用在“數(shù)據(jù)的隱私保護(hù)”、“海量數(shù)據(jù)處理”、“數(shù)據(jù)丟失、缺失處理”等領(lǐng)域。在此需要說明該特性不適用于小樣本數(shù)據(jù)。
4.2 UCI數(shù)據(jù)
(1)數(shù)據(jù)生成與參數(shù)選擇。
本文選用UCI數(shù)據(jù)庫的Car、Abalon 兩個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)樣本。具體數(shù)據(jù)如表4所示。
Table 4 Data characteristics description(UCI)表4 數(shù)據(jù)集數(shù)據(jù)特征(UCI)
在做Car數(shù)據(jù)庫實(shí)驗(yàn)時(shí),我們將四類樣本數(shù)據(jù)(unacc, acc, good,vgood) 兩兩配對(duì),組合成二分類的SVM數(shù)據(jù)集,并分別對(duì)應(yīng)CCMEB-SVMDA算法的源始領(lǐng)域與目標(biāo)領(lǐng)域。同理,選擇Abalon數(shù)據(jù)庫中的Abalon8~Abalon11四類數(shù)據(jù),將其兩兩配對(duì)形成CCMEB-SVMDA算法的源始領(lǐng)域與目標(biāo)領(lǐng)域,如表5所示。
Table 5 UCI data packet set表5 UCI數(shù)據(jù)分組設(shè)定
數(shù)據(jù)集生成后需確定μ的取值,選擇相似的領(lǐng)域數(shù)據(jù)集通過反復(fù)實(shí)驗(yàn)比較的結(jié)果如圖3和圖4所示。
Figure 3 μ selection experiment(Car data)圖3 領(lǐng)域依賴系數(shù)選擇實(shí)驗(yàn)(Car數(shù)據(jù))
Figure 4 μ selection experiment(Abalon data)圖4 領(lǐng)域依賴系數(shù)選擇實(shí)驗(yàn)(Abalon數(shù)據(jù))
參照4.1節(jié)方法,Car數(shù)據(jù)集的μ選擇為12,Abalon數(shù)據(jù)集的μ選擇為15。
(2)數(shù)據(jù)擾動(dòng)下的自適應(yīng)測(cè)試。
表6、表7中的第一、二組為同樣屬性的分類數(shù)據(jù),其余則不同。為了滿足算法抗干擾性測(cè)試,人為地對(duì)第一、二組數(shù)據(jù)加以擾動(dòng),加入了不超過10%的錯(cuò)誤分類樣本點(diǎn),錯(cuò)誤樣本點(diǎn)為其他分類數(shù)據(jù)的隨機(jī)抽取點(diǎn)。測(cè)試方法與4.1節(jié)相同。
Table 6 DDV of two algorithms(Car data)表6 不同算法DDV對(duì)比(Car數(shù)據(jù)) %
Table 7 DDV of two algorithms(Abalon data)表7 不同算法DDV對(duì)比(Abalon數(shù)據(jù)) %
對(duì)比表6和表7可以發(fā)現(xiàn),CCMEB-SVMDA算法的領(lǐng)域漂移度更小,更加靠近源始領(lǐng)域,相同分類問題的領(lǐng)域偏移度較小。該實(shí)驗(yàn)設(shè)定DDV閾值為50%,當(dāng)Distance較小時(shí),可以判別源始領(lǐng)域與目標(biāo)領(lǐng)域?yàn)橥籗VM二分類問題;當(dāng)Distance較大時(shí)源始領(lǐng)域與目標(biāo)領(lǐng)域?yàn)椴煌琒VM二分類問題,說明CCMEB-SVMDA算法通過遷移學(xué)習(xí)較好地克服了因擾動(dòng)數(shù)據(jù)帶來的領(lǐng)域漂移,盡量多地利用源有信息實(shí)現(xiàn)了領(lǐng)域自適應(yīng)。
4.3 Database on Manhattan traffic(曼哈頓交通數(shù)據(jù)集)
(1)數(shù)據(jù)生成與參數(shù)選擇。
曼哈頓交通數(shù)據(jù)集(下載自http://www.datatang.com/)為文本數(shù)據(jù),該數(shù)據(jù)的特征如表8所示。
Table 8 Data characteristics description (Manhattan)表8 數(shù)據(jù)集數(shù)據(jù)特征
本文從數(shù)據(jù)集中選擇四類數(shù)據(jù)(MT1~MT4)并隨機(jī)各抽取30 000個(gè)樣本點(diǎn),然后將四類數(shù)據(jù)兩兩配對(duì)分成源始領(lǐng)域數(shù)據(jù)集與目標(biāo)領(lǐng)域數(shù)據(jù)集。領(lǐng)域依賴系數(shù)選擇方法參照4.1節(jié),具體結(jié)果如圖5所示。
Figure 5 μ selection experiment(Manhattan data)圖5 領(lǐng)域依賴系數(shù)選擇實(shí)驗(yàn)(曼哈頓交通數(shù)據(jù))
觀察圖5可以發(fā)現(xiàn),當(dāng)μ取值大于9時(shí),識(shí)別精度RA顯著下降,而當(dāng)μ小于9時(shí),漂移度DDV明顯增強(qiáng),算法的校正功能下降??芍硐氲那闆r應(yīng)該是最小包含球識(shí)別精度RA大于90%,領(lǐng)域漂移度DDV小于50%?;谶@種標(biāo)準(zhǔn),我們將參數(shù)μ設(shè)定為10。
(2)數(shù)據(jù)集的領(lǐng)域自適應(yīng)測(cè)試。
在同一數(shù)據(jù)集的情況下,源始領(lǐng)域與目標(biāo)領(lǐng)域球心越接近,則領(lǐng)域分類屬性越相似,反之則為不同分類問題。在此設(shè)定Distance為源始領(lǐng)域與目標(biāo)領(lǐng)域球心之間距離,通過CCMEB-SVMDA算法計(jì)算出Distance數(shù)據(jù)結(jié)果,如表9所示。
觀察表9可以發(fā)現(xiàn),相同分類屬性的球間距明顯小于不同類子集之間的球心間距。結(jié)果顯示算法能較好地體現(xiàn)不同領(lǐng)域之間的相關(guān)性,具有較好的領(lǐng)域自適應(yīng)性。
(3)領(lǐng)域自適應(yīng)與數(shù)據(jù)缺失測(cè)試。
與上節(jié)相同,我們按不同百分比抽取目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行測(cè)試,判斷該算法的領(lǐng)域漂移度DDV,實(shí)驗(yàn)結(jié)果如圖6所示。
Figure 6 DDV vs sampling percentage(Manhattan data)圖6 局部數(shù)據(jù)的領(lǐng)域漂移度分析(曼哈頓交通數(shù)據(jù))
目標(biāo)領(lǐng)域源始領(lǐng)域MT1AMT2AMT1AMT3AMT1AMT4AMT2AMT3AMT2AMT4AMT3AMT4AMT4AMT4AMT1BMT2B0.36324.43934.93364.90355.99945.19025.0303MT1BMT3B5.24450.32114.67275.26255.03324.66494.6959MT1BMT4B4.93024.54080.48525.20355.35874.85674.3694MT2BMT3B4.91375.46895.20450.22335.21285.35825.7321MT2BMT4B4.56035.22335.34685.21570.37215.12425.4568MT3BMT4B5.13624.71254.49985.74325.68984.68294.6150MT4BMT4B5.72354.21384.26895.23895.76914.61110.3212
通過圖6依然可以發(fā)現(xiàn),在大樣本真實(shí)數(shù)據(jù)集情況下,CCMEB-SVMDA算法的領(lǐng)域漂移度對(duì)目標(biāo)源數(shù)據(jù)完整性的依賴度不大,且領(lǐng)域相關(guān)性分割清晰,該特性可應(yīng)用于數(shù)據(jù)的隱私保護(hù)和數(shù)據(jù)缺失處理。
本文將SVM、MEB、CCMEB理論應(yīng)用在領(lǐng)域自適應(yīng)研究上,提出了MEB-SVMDA、CCMEB-SVMDA算法。在求解目標(biāo)域球心位置時(shí)盡可能多地利用到源域數(shù)據(jù)完成知識(shí)傳遞,并發(fā)現(xiàn)不同域之間的內(nèi)部聯(lián)系。最后通過比較不同域球心位置實(shí)現(xiàn)數(shù)據(jù)的修正和校正。為了滿足大樣本數(shù)據(jù)集運(yùn)算要求,引入了CVM、CCMEB理論,大量的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性和快速性。
[1] Daumé III H, Marcu D. Domain adaptation for statistical classifiers[J ].Journal of Artificial Intelligence Research,2006, 26(1):101-126.
[2] Blitzer J, McDonald R, Percira F. Domain adaptation with structural correspondence learning[C]∥Proc of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006:120-128.
[3] Daumé III H. Frustratingly easy domain adaptation[C]∥Proc of the 45th Annual Meetingassociation of Computational Linguistics, 2007:1.
[4] Jiang Jin, Zhai Cheng-xiang. A two-stage approach to domain adaptation for statistical classifiers[C]∥Proc of CIKM’07, 2007:401-410.
[5] Blitzer J, Dredze M, Pereira F, et al. Biographies, bollywood, boom-boxes and blenders:Domain adaptation for sentiment classification[C]∥Proc of ACL’07, 2007:440-447.
[6] Satpal S, Sarawagi S. Domain adaptation of conditional probability models via feature subsetting[C]∥Proc of PKDD’07,2007:224-235.
[7] Jiang Jin, Zhai Cheng-xiang. Instance weighting for domain adaptation in NLP[C]∥Proc of ACL’07, 2007:264-271.
[8] Tsang I W, Kwok J T, Cheung P, et al. Core vector machines:Fast SVM training on very large data sets[J]. Journal of Machine Learning Research, 2005, 6(4):363-392.
[9] Qian Peng-jiang,Wang Shi-tong,Deng Zhao-hong.Fast mean shift spectral clustering on large data sets[J]. Control and Decision, 2010, 25(9):1307-1312.(in Chinese)
[10] Tsang I,Kwork J,Zurada J.Generlized core vector machines[J]. IEEE Transactions on Neural Networks,2006,17(5):1126-1139.
[11] Hu Wen-jun, Wang Shi-tong, Deng Zhao-hong. Maximum vector angular margin core vector machine suitable for fast training for large datasets[J]. Acta Electronica Sinica, 2011,39(5):1178-1184.(in Chinese)
[12] Guo Rui-hua, Cheng Guo-jiang. Pattern classification and experiment testing based on core vector machine[J]. Microelectronics & Computer, 2010,27(9):190-192.(in Chinese)
[13] Fan Long-feng.A boosting feature selection method for core vector machine[J]. Electronic Technology, 2010,37(10):17-21.(in Chinese)
[14] Smola A J, Scholkopf B. Sparse greedy matrix approximation for machine learning[C]∥Proc of the 17th International Conference on Machine Learning, 2000:911-918.
[15] Pan S J, Kwok J T, Yang Q. Transfer learning via dimensionality reduction[C]∥Proc of the 23rd Associate for the Advancement of Artificial Intelligence, 2008:677-682.
[16] Suzuki T. Mutual information approximation via maximum likelihood estimation of density ratio [C]∥Proc of IEEE International Symposium on Information Theory, 2009:463-467.
[17] Suzuki T, Sugiyama M,Kanamori T. Mutual information approximation via maximum likelihood density ratio estimation[C]∥Proc of IEEE International Symposium on Information Theory, 2009:5-20.
附中文參考文獻(xiàn):
[9] 錢鵬江,王士同,鄧趙紅. 大數(shù)據(jù)集快速均值漂移譜聚類算法[J].控制與決策, 2010, 25(9):1307-1312.
[11] 胡文軍,王士同,鄧趙紅. 適合大樣本快速訓(xùn)練的最大夾角間隔核心集向量機(jī)[J]. 電子學(xué)報(bào),2011,39(5):1178-1184.
[12] 郭瑞華,程國(guó)建. 基于核向量機(jī)的模式分類及其實(shí)驗(yàn)測(cè)試[J].微電子學(xué)與計(jì)算機(jī),2010,27(9):190-192.
[13] 樊龍夫.一種面向核支持向量機(jī)的boosting特征選擇方法[J]. 電子技術(shù), 2010,37(10):17-21.
GUXin,born in 1979,PhD candidate,engineer,his research interests include artifical intelligence, pattern recognition,and image processing.
王士同(1964-),男,江蘇揚(yáng)州人,教授,博士生導(dǎo)師,研究方向?yàn)槿斯ぶ悄堋⒛J阶R(shí)別、數(shù)據(jù)挖掘、神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、醫(yī)學(xué)圖像處理和生物信息學(xué)。E-mail:wxwangst@yahoo.com.cn
WANGShi-tong,born in 1964,professor,PhD supervisor,his research interests include artifical intelligence, pattern recognition, data mining, neural networks, fuzzy system, medical image processing, and bioinformation.
Anoveldomainadaptationapproachbasedondataclassification
GU Xin1,2,WANG Shi-tong1
(1.School of Digital Media,Jiangnan University,Wuxi 214122;2.Jangsu North Huguang Opto-Electronics Co.Ltd., Wuxi 214035,China)
General machine learning assumes that the distribution of training data and test data are same, but the domain adaptation algorithms aims at handling different but similar distributions among training sets, which have a wide range of applications such as transfer learning, data mining, data correction, data projections. Support vector machine (SVM) attempts to find an optimal separating hyperplane for binary-classification problems in high-dimensional space, in order to ensure the minimum classification error rate. CCMEB proposed by I Tsang, as an improvement of the CVM, is particularly suitable for training on large datasets. In this article SVM and CCMEB are combined with probability distribution theory to formulate a novel domain adaptation approach (CCMEB-SVMDA). By calculating the center of each dataset, we can correct the dataset or identify the similarity of data between different domains.This fast algorithm has a good adaptability. As a validation we test it on the fields of “UCI data” and “text classification data” and the obtained experimental results indicate the effectiveness of the proposed algorithm.
SVM;domain adaptation;minimum enclosing ball;CCMEB
2012-09-20;
:2012-11-30
國(guó)家自然科學(xué)基金資助項(xiàng)目(61170122,60975027);江蘇省研究生創(chuàng)新工程項(xiàng)目(CXZZ11-0483)
1007-130X(2014)02-0275-11
TP391.4
:A
10.3969/j.issn.1007-130X.2014.02.015
顧鑫(1979-),男,江蘇張家港人,博士生,工程師,研究方向?yàn)槿斯ぶ悄?、模式識(shí)別和圖像處理。E-mail:guxinbest@sina.com
通信地址:214000 江蘇省無錫市鳳賓家園92號(hào)401室Address:Room 401,92 Fengbin Jiayuan,Wuxi 214000,Jiangsu,P.R.China