程 旸,王士同,杭文龍
江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122
區(qū)別性知識利用的遷移分類學(xué)習(xí)*
程 旸+,王士同,杭文龍
江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122
目前的遷移學(xué)習(xí)模型旨在利用事先準(zhǔn)備好的源域數(shù)據(jù)為目標(biāo)域?qū)W習(xí)提供輔助知識,即從源域抽象出與目標(biāo)域共享的知識結(jié)構(gòu)時,使用所有的源域數(shù)據(jù)。然而,由于人力資源的限制,收集真實(shí)場景下整體與目標(biāo)域相關(guān)的源域數(shù)據(jù)并不現(xiàn)實(shí)。提出了一種泛化的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化選擇性知識利用模型,并給出了該模型的理論風(fēng)險(xiǎn)上界。所提模型能夠自動篩選出與目標(biāo)域相關(guān)的源域數(shù)據(jù)子集,解決了源域只有部分知識可用的問題,進(jìn)而避免了在真實(shí)場景下使用整個源域數(shù)據(jù)集帶來的負(fù)遷移效應(yīng)。在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行了仿真實(shí)驗(yàn),結(jié)果顯示所提算法較之傳統(tǒng)遷移學(xué)習(xí)算法性能更佳。
遷移學(xué)習(xí);經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM);泛化的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(GERM);區(qū)別性知識利用;負(fù)遷移
美國心理學(xué)家Anderson提出了自適應(yīng)思維控制理論(adaptive control of thought,ACT)[1],把人類認(rèn)知分為過程性認(rèn)知和陳述性認(rèn)知,并把認(rèn)知過程分為兩個階段:首先是過程性認(rèn)知上升為陳述性認(rèn)知,然后陳述性認(rèn)知在任務(wù)間遷移,并在新任務(wù)中產(chǎn)生新的過程性認(rèn)知。由于過程性認(rèn)知的不足,對于某些新任務(wù),即使人們只學(xué)習(xí)到其某些特征,陳述性認(rèn)知會選擇性地利用大腦中的舊任務(wù)知識對該新任務(wù)進(jìn)行識別、學(xué)習(xí)并轉(zhuǎn)化為過程性認(rèn)知的新任務(wù)。在陳述性認(rèn)知過程中,大腦會根據(jù)新任務(wù)的某些特征檢索與其相關(guān)的舊任務(wù),以便推理得到更多、更具體的認(rèn)知[1]。如圖1所示的例子,若在過程性認(rèn)知中已掌握了源域中的任務(wù),當(dāng)接觸到識別雞的新任務(wù)時,會根據(jù)雞的外形等特征迅速檢索到同屬鳥綱類的鳥類動物。同樣的情形也適用于貓科類動物的識別。
Fig.1 Two examples of using related knowledge on birds and dogs while learning target objects chicken and cats圖1 使用相關(guān)鳥類和狗類知識幫助目標(biāo)域雞類和貓類對象學(xué)習(xí)示例
機(jī)器學(xué)習(xí)自從誕生起,一直在模仿人類的認(rèn)知學(xué)習(xí)過程。毫無疑問,認(rèn)知心理學(xué)的發(fā)展促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。然而,區(qū)別性知識利用是人類所特有的,傳統(tǒng)的機(jī)器學(xué)習(xí)并無此認(rèn)知能力,即傳統(tǒng)的機(jī)器學(xué)習(xí)算法在輔助學(xué)習(xí)時沒有考慮如何檢索僅與當(dāng)前任務(wù)相關(guān)的經(jīng)驗(yàn)知識。目前,模仿人類的學(xué)習(xí)方式,利用先前知識輔助當(dāng)前任務(wù)學(xué)習(xí)的遷移學(xué)習(xí)[2-3]吸引了越來越多人的關(guān)注,但絕大多數(shù)遷移學(xué)習(xí)算法都是在事先準(zhǔn)備好的源域數(shù)據(jù)上獲得較高的識別度??紤]到人工成本的攀升,在現(xiàn)實(shí)場景中篩選出同一分布的源域數(shù)據(jù)并不現(xiàn)實(shí)。并且由于常規(guī)遷移學(xué)習(xí)模型并沒有考慮如何從源域中抽選出與目標(biāo)域相關(guān)的源域子集,使得在常規(guī)場景下的遷移學(xué)習(xí)知識利用并不可靠,極有可能出現(xiàn)負(fù)遷移的情況。本文給出一種泛化的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化模型,在此基礎(chǔ)上提出了區(qū)別性遷移學(xué)習(xí)框架,并給出了風(fēng)險(xiǎn)上界。與當(dāng)前遷移學(xué)習(xí)算法相比,本文所提算法具有以下特性:
(1)提出了一種基于泛化的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化區(qū)別性知識利用遷移學(xué)習(xí)模型,更有效地利用了源域知識,其中心思想是利用與目標(biāo)域相關(guān)的源域子集數(shù)據(jù)輔助目標(biāo)域?qū)W習(xí)。
(2)提出了一種源域相關(guān)數(shù)據(jù)選擇算法,通過保持源域與目標(biāo)域數(shù)據(jù)分布一致的原則,篩選出部分相關(guān)數(shù)據(jù),進(jìn)而避免了負(fù)遷移。
美國國防部DARPA機(jī)器人大賽文檔系列在2005年給出了遷移學(xué)習(xí)的基本定義:利用事先學(xué)習(xí)的知識和技能來識別新任務(wù)的學(xué)習(xí)能力。根據(jù)此定義,遷移學(xué)習(xí)旨在抽取有用的歷史知識,并用此類知識來幫助新任務(wù)的學(xué)習(xí)。根據(jù)所抽取的知識,遷移學(xué)習(xí)方法所使用的技術(shù)大概可分為三大類:
(1)實(shí)例遷移方法。實(shí)例遷移的主要思想是假設(shè)源域中有部分?jǐn)?shù)據(jù)可以直接用來輔助目標(biāo)域的學(xué)習(xí)[3-4],通過諸如聚類等方法,挑選出一些最具代表性的源域數(shù)據(jù)用于幫助目標(biāo)域建模。其中,比較著名的是Liao等人在文獻(xiàn)[4]中展示了一種利用自主學(xué)習(xí)推斷出目標(biāo)域數(shù)據(jù)標(biāo)簽的方法;Dai等人提出了基于Adaptive Boosting(AdaBoost)[5]算法的遷移學(xué)習(xí)算法;Wu等人在文獻(xiàn)[6]中提出了一種基于支持向量機(jī)的框架,通過整合源域數(shù)據(jù)提高分類精度。
(2)特征遷移方法。特征遷移學(xué)習(xí)方法旨在獲得一個理想的特征表示,并通過將該特征表示嵌入到某個知識共享框架中來降低源域和目標(biāo)域的差異,以此提高目標(biāo)域的學(xué)習(xí)效果[7-8]。典型的有Bart和Ullman[8]提出用新類別中的單個實(shí)例特征來自適應(yīng)目標(biāo)域的特征,以達(dá)到提高精度的效果。
(3)參數(shù)模型遷移方法。大部分基于參數(shù)模型遷移的方法都基于一個假設(shè),即源域和目標(biāo)域共享某些參數(shù)或者先驗(yàn)分布[9-11]。Tommasi等人在文獻(xiàn)[9]中提出了一種基于最小二乘支持向量機(jī)的有區(qū)別的遷移學(xué)習(xí)策略,通過留一法自適應(yīng)源域和目標(biāo)域的學(xué)習(xí)程度。Li等人在文獻(xiàn)[10]中提出了一種基于貝葉斯先驗(yàn)?zāi)P偷膮?shù)遷移方法,使用源域獲得的參數(shù)模型知識輔助目標(biāo)域的學(xué)習(xí)。
從以上分析可以看出,目前大多數(shù)遷移學(xué)習(xí)建模方法旨在一系列事先準(zhǔn)備好的源域數(shù)據(jù)集上取得最優(yōu)的知識遷移效果。但實(shí)際情況下,篩選出來自同一領(lǐng)域的數(shù)據(jù)涉及大量的人力物力,已不現(xiàn)實(shí)。在這種情況下,如何高效地選出僅和目標(biāo)域相關(guān)的源域數(shù)據(jù)來輔助目標(biāo)域?qū)W習(xí)是關(guān)系遷移學(xué)習(xí)成敗的關(guān)鍵。目前,這方面的相關(guān)工作較少,較著名的有ASVM(adaptive support vector machine)[12]和CD-SVM(cross-domain support vector machine)[13]。在文獻(xiàn)[12]中,提出了自適應(yīng)支持向量機(jī)A-SVM,即在SVM(support vector machine)的目標(biāo)函數(shù)中引入一個新的規(guī)則化項(xiàng),旨在同時最小化源域數(shù)據(jù)和目標(biāo)域有標(biāo)簽數(shù)據(jù)的分類誤差以及目標(biāo)和原始分類器之間差異。但是由于其樣本選擇策略是基于最小化期望誤差,這需要在上一次迭代更新得到的樣本集上重新訓(xùn)練并更新,這種策略某種程度上會導(dǎo)致A-SVM效率較低且精度受限。文獻(xiàn)[13]中提出了一種基于源域支撐向量的方法,其旨在約束目標(biāo)域數(shù)據(jù)與源域數(shù)據(jù)支撐向量保持流型一致,即目標(biāo)域數(shù)據(jù)落在源域支撐向量近鄰范圍內(nèi)的應(yīng)當(dāng)保持標(biāo)簽一致。CDSVM的缺點(diǎn)在于其在選擇源域支撐向量時,沒有充分考慮領(lǐng)域間的差異性。其選擇的源域支撐向量對源域數(shù)據(jù)具有較低的實(shí)際風(fēng)險(xiǎn),卻不能夠較好地自適應(yīng)目標(biāo)域數(shù)據(jù)學(xué)習(xí),極端情況下,甚至?xí)档湍繕?biāo)域的學(xué)習(xí)效率和精度。
不同于A-SVM和CD-SVM的樣本選擇策略,本文提出了一種新的方法,通過一般化的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化驗(yàn)證了僅僅和目標(biāo)域相關(guān)的源域數(shù)據(jù)才能保證知識遷移的風(fēng)險(xiǎn)上界,并提出了一種選擇方法,用于篩選出源域與目標(biāo)域分布一致的數(shù)據(jù)。
3.1 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化
在傳統(tǒng)的半監(jiān)督學(xué)習(xí)框架中,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minization,ERM)準(zhǔn)則被成功地應(yīng)用于解決許多機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘問題[14]。給定一個數(shù)據(jù)集H服從分布p(z),從中隨機(jī)選取n個獨(dú)立同分布的數(shù)據(jù)。若使用Rademacher復(fù)雜度指標(biāo)測量目標(biāo)函數(shù)的復(fù)雜性,真實(shí)風(fēng)險(xiǎn)和經(jīng)驗(yàn)風(fēng)險(xiǎn)之間滿足如下不等式:
3.2 一般化經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化
ERM準(zhǔn)則的主要問題在于其要求H中的數(shù)據(jù)獨(dú)立同分布且符合同一分布p(z),也就是說測試數(shù)據(jù)必須與訓(xùn)練數(shù)據(jù)分布一致,這極大限制了在真實(shí)環(huán)境中的應(yīng)用。在遷移學(xué)習(xí)中,如何選出與目標(biāo)域分布最接近的源域數(shù)據(jù),即去除干擾數(shù)據(jù)是保證正遷移的首要條件。
在遷移學(xué)習(xí)中,源域數(shù)據(jù)分布q(z)通常與目標(biāo)域不同,即p(z)≠q(z)。則一般化的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(generalized empirical risk minimization,GERM)準(zhǔn)則上界可以表示為:
在遷移學(xué)習(xí)中,若源域和目標(biāo)域數(shù)據(jù)分布不一致,但有著相同的條件分布[2],即p(x,y)=p(x)p(y|x),q(x,y)=q(x)p(y|x),可以得到:
式(6)中,g(x)=∫yL(f(x),y)p(y|x)dy。函數(shù)g有界并且可測,可以得到一個實(shí)際的有界且連續(xù)的函數(shù)。最終,通過函數(shù)和不等式的性質(zhì),可以得到:
這里是關(guān)于變量x且屬于有界連續(xù)函數(shù)類?(x)。
3.3 基于一般化經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化模型的區(qū)別性知識利用遷移學(xué)習(xí)方法
由于真實(shí)場景下收集的歷史數(shù)據(jù)不可能完全和目標(biāo)域相關(guān),僅篩選出部分相關(guān)的數(shù)據(jù)來輔助目標(biāo)域的學(xué)習(xí)是關(guān)系知識遷移成功的關(guān)鍵。因此如何篩選出這些數(shù)據(jù),最小化源域和目標(biāo)域之間的分布差異是保證正遷移的關(guān)鍵。首先定義區(qū)別性最大均值差異(discriminativemaximum meandiscrepancy,DMMD)。
定義1(區(qū)別性最大均值差異)用NS個變量ρ=表示源域的每一個數(shù)據(jù)指示器。ρi=1表示該數(shù)據(jù)可以被用來輔助目標(biāo)域?qū)W習(xí),則DMMD可以定義如下:
定理1考慮一組確定的變量ρ={ρi},指示相關(guān)的源域數(shù)據(jù),則僅對于相關(guān)的源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)而言,式(8)等價(jià)于最大均值差異(maximum mean discrepancy,MMD)[16]。
證明假設(shè)表示源域中與目標(biāo)域相關(guān)的數(shù)據(jù)的個數(shù),則這些相關(guān)源域數(shù)據(jù)構(gòu)成的子集和目標(biāo)域DT之間的MMD可以表示為:
用Kij=K(xi,xj)=?(xi)T?(xj)表示核矩陣,可以把DMMD拓展到再生核希爾伯特空間(reproducing kernel Hilbert space,RKHS)。則基于GERM的遷移學(xué)習(xí)的風(fēng)險(xiǎn)上界可以用下面的定理描述,即式(12)同樣至少以概率1-δ成立。由于在絕大多數(shù)實(shí)際情況中,源域數(shù)據(jù)較充足,本文僅僅考慮源域數(shù)據(jù)量大于目標(biāo)域數(shù)據(jù)的情況。 □定理2令zi=(xi,yi),這里xi∈?d并且yi∈{- 1,+1}。假設(shè)核函數(shù)有上界C,即0≤Kij≤C,?xi,xj。在遷移學(xué)習(xí)的框架內(nèi),如下的GERM不等式至少以概率1-δ成立。
這里DMMD和函數(shù)復(fù)雜度項(xiàng)表示如下:
這里,τ為一個常量;為相關(guān)的源域數(shù)據(jù)子集。
證明文獻(xiàn)[17]給出了真實(shí)MMD和經(jīng)驗(yàn)MMD間的關(guān)系,由定理1可知,真實(shí)DMMD和經(jīng)驗(yàn)DMMD之間同樣滿足:
3.4 區(qū)別性源域樣本選擇
本文用NS個指示器表示源域中的每個數(shù)據(jù)點(diǎn)。如果ρi=1,對應(yīng)的源域數(shù)據(jù)點(diǎn)被認(rèn)為是可以安全使用的。通過最小化如下DMMD可以得到ρ:
這里1為|DN|維單位向量。上述最優(yōu)化問題是一個凸二次規(guī)劃問題,有全局最有解。得到的不為0的α所對應(yīng)的源域數(shù)據(jù)即為源域和目標(biāo)域相關(guān)的源域數(shù)據(jù)子集。
3.5 問題求解
根據(jù)上一節(jié)源域相關(guān)數(shù)據(jù)求解,可以得到和目標(biāo)域分布最接近的數(shù)據(jù),此部分?jǐn)?shù)據(jù)可以被用來進(jìn)行知識遷移。此節(jié),結(jié)合最小二次支持向量機(jī)和源域相關(guān)數(shù)據(jù),提出區(qū)別性知識利用的遷移學(xué)習(xí)目標(biāo)表達(dá)式:
在核理論的基礎(chǔ)上,通過表示定理,可以得到最終的決策函數(shù)如下:
算法的時間復(fù)雜度分析如下:式(29)和式(31)的時間復(fù)雜度均為n3,因此總的時間復(fù)雜度為2n3。此外本文算法僅僅選出與目標(biāo)域相關(guān)的源域數(shù)據(jù),因此其在目標(biāo)域的決策函數(shù)中可能會包含更少的支持向量。實(shí)驗(yàn)表明本文算法的實(shí)際時間對比傳統(tǒng)的遷移學(xué)習(xí)算法具有明顯優(yōu)勢。
此部分,在人造數(shù)據(jù)集和真實(shí)圖像、文本數(shù)據(jù)集上驗(yàn)證所提算法的有效性。
在人造數(shù)據(jù)集部分,使用雙月數(shù)據(jù)集,其中目標(biāo)域由300個數(shù)據(jù)樣本構(gòu)成(正、負(fù)類各150個)。源域數(shù)據(jù)集構(gòu)造如下:將目標(biāo)域數(shù)據(jù)集逆時針旋轉(zhuǎn)10°、20°、30°和40°,并對每個數(shù)據(jù)點(diǎn)增加均值為0,方差為2的高斯噪聲。由于旋轉(zhuǎn)和噪聲,目標(biāo)域數(shù)據(jù)已和源域數(shù)據(jù)產(chǎn)生了分布差異,且一些隨機(jī)噪聲導(dǎo)致了源域部分?jǐn)?shù)據(jù)無法用來輔助目標(biāo)域?qū)W習(xí)。表1給出了人工數(shù)據(jù)集更詳細(xì)的說明。
Table 1 Synthetic dataset表1 人造數(shù)據(jù)集
在真實(shí)數(shù)據(jù)集部分,使用了圖像公共數(shù)據(jù)集Caltech-256[18]。Caltech-256包含了30 607張圖片,共有256類。使用其中的車輛數(shù)據(jù)集,包含5個子類:fire-truck、school-bus、car-side、moto-bike和snow-mobile。本文使用了PHOG(pyramid histogram of oriented gradients)特征描述方法對圖片進(jìn)行特征提取,并構(gòu)造moto-bike和snow-mobile為負(fù)類,其他均為正類。表2給出了數(shù)據(jù)集設(shè)置的更多細(xì)節(jié)。
在文本數(shù)據(jù)集方面,使用了公共垃圾郵件數(shù)據(jù)集email spam filtering[19],包括一個公共郵件集(Public)和3個用戶郵件集(User1、User2和User3)。其中,每個用戶郵件集有2 500份郵件,公共郵件集有4 000份郵件。每一份郵件都是一個字符集合,共有206 908維。按文獻(xiàn)[20]中所提方法對所有郵件進(jìn)行降維。具體關(guān)于源域和目標(biāo)域的設(shè)置如表3。
本文采用如下對比算法:
(1)最小二乘SVM(LS-SVM)。
(2)歸納式最小二乘SVM(ILS-SVM)。
(3)自適應(yīng)SVM(A-SVM)[12]。
(4)交叉SVM(CD-SVM)[13]。
Table 2 Image dataset表2 圖像數(shù)據(jù)集
Table 3 Text dataset表3 文本數(shù)據(jù)集
Table 4 Classification accuracy obtained by different inductive transfer learning algorithms on synthetic dataset表4 不同的歸納式遷移學(xué)習(xí)算法在人造數(shù)據(jù)集上的分類精度對比
(5)本文算法DLS-SVM。
從目標(biāo)域中隨機(jī)抽出一些數(shù)據(jù)點(diǎn),用作目標(biāo)域的標(biāo)注數(shù)據(jù)。所有實(shí)驗(yàn)均運(yùn)行10次,給出均值和方差。表4給出了在人造數(shù)據(jù)集上5種方法的運(yùn)行效果。由表4中可以看出,DLS-SVM明顯優(yōu)于直接利用源域數(shù)據(jù)集的對比算法,進(jìn)一步說明了所提算法的有效性。接下來將進(jìn)一步對比所提算法與傳統(tǒng)算法在真實(shí)圖像和文本數(shù)據(jù)集上的效果。圖2給出了各個對比算法在圖像數(shù)據(jù)集上的對比效果,表5和表6給出了在文本數(shù)據(jù)集上的分類效果。隨著已標(biāo)注目標(biāo)域數(shù)據(jù)的增加,各個分類算法的效果趨于平穩(wěn)??梢钥闯觯鄬τ谄渌麑Ρ人惴?,所提算法具有明顯的優(yōu)勢。另外,還能得到如下觀察結(jié)論:
Fig.2 Classification accuracy obtained by 5 algorithms on image dataset圖2 5種對比算法在圖片數(shù)據(jù)集上的分類精度
(1)根據(jù)數(shù)據(jù)集Caltech-256[18]中源域和目標(biāo)域數(shù)據(jù)集的產(chǎn)生方式以及表2中的設(shè)置,并非所有的源域圖片都適合用于知識遷移。因此,本文算法理論上比其他歸納式遷移學(xué)習(xí)算法更適用于此類真實(shí)場景。從圖2(a)~(f)可以看出,DLS-SVM算法可以有效地檢索出和目標(biāo)域相關(guān)的源域數(shù)據(jù)子集來提高目標(biāo)域的分類效果。
(2)在人造數(shù)據(jù)集上對本文實(shí)驗(yàn)的中間過程做了進(jìn)一步的觀察,得到如下結(jié)論:表4中,對源域1、源域2、源域3和源域4進(jìn)行分布一致性求解時,分別得到了152、128、89和52個源域數(shù)據(jù)子集,進(jìn)一步驗(yàn)證了本文所提分布一致性策略的有效性。僅僅參考部分相關(guān)源域數(shù)據(jù)子集,對目標(biāo)域數(shù)據(jù)的學(xué)習(xí),無論在精度還是時間上都將得到提升。
(3)從表4和圖2可以看出,本文算法在人造數(shù)據(jù)集和圖片數(shù)據(jù)集中的大多數(shù)情況下都取得了顯著的結(jié)果。由于CD-SVM和ILS-SVM算法最主要的局限性在于它們雖然考慮了所有源域數(shù)據(jù),但是并沒有考慮與目標(biāo)域不相關(guān)的數(shù)據(jù)對目標(biāo)分類器造成的干擾,因此這些算法所生成的目標(biāo)模型并不完善。對于A-SVM而言,在部分情況下取得了較好的結(jié)果,如圖2(c),但是其樣本選擇策略是基于最小化期望誤差,這需要在上一次迭代更新得到的樣本集上重新訓(xùn)練并更新,這種策略導(dǎo)致了大部分情況下ASVM的精度受到影響。
(4)表5和表6展示了各種對比算法在文本數(shù)據(jù)集上的分類對比效果。隨機(jī)抽取了目標(biāo)域2%和4%的數(shù)據(jù)作為目標(biāo)域有標(biāo)注數(shù)據(jù)。與傳統(tǒng)歸納式遷移學(xué)習(xí)算法對比可以發(fā)現(xiàn),本文算法在目標(biāo)域已標(biāo)注數(shù)據(jù)匱乏的情況下明顯優(yōu)于傳統(tǒng)方法。隨著目標(biāo)域已標(biāo)注數(shù)據(jù)的增多,傳統(tǒng)半監(jiān)督方法LS-SVM同樣得到了很好的分類效果,這與實(shí)際相吻合。
(5)圖3顯示的是5種對比算法在圖片數(shù)據(jù)集中的平均總運(yùn)行時間,即訓(xùn)練時間與測試時間之和。從圖3中可以看出,LS-SVM算法的運(yùn)行時間相對于其他算法較短,這是因?yàn)槠溆?xùn)練樣本較少。相對于ILS-SVM、A-SVM和CD-SVM,本文算法的運(yùn)行時間具有明顯優(yōu)勢。由于A-SVM需要不斷迭代選擇與目標(biāo)域數(shù)據(jù)分布一致的源域數(shù)據(jù)子集,且在迭代過程中得到目標(biāo)域分類精度,花費(fèi)較多時間在迭代計(jì)算過程且不能保證收斂于全局最優(yōu)值。對于CD-SVM而言,其增加流型約束項(xiàng)增加了核函數(shù)計(jì)算成本,導(dǎo)致目標(biāo)域分類器的學(xué)習(xí)效率降低。且流型約束項(xiàng)中的近鄰個數(shù)的選擇對目標(biāo)域分類器的學(xué)習(xí)影響較大。也就是說,盡管DLS-SVM需要使用額外的時間計(jì)算源域的相關(guān)數(shù)據(jù),但是僅有部分源域相關(guān)數(shù)據(jù)被用于知識的遷移,因此通常決策函數(shù)包含了較少的支撐向量,從而使得本文算法具有更短的測試時間,總運(yùn)行時間具有優(yōu)勢,如圖3所示。
Table 5 Classification accuracy obtained by different inductive transfer learning algorithms on email dataset with 2%training samples and 98%testing samples表5 不同的歸納式遷移學(xué)習(xí)算法在已標(biāo)注2%的垃圾郵件數(shù)據(jù)集上的分類精度對比
Table 6 Classification accuracy obtained by different inductive transfer learning algorithms on email dataset with 4%training samples and 96%testing samples表6 不同的歸納式遷移學(xué)習(xí)算法在已標(biāo)注4%的垃圾郵件數(shù)據(jù)集上的分類精度對比
Fig.3 Total running time obtained by 5 algorithms on image dataset圖3 5種對比算法在圖片數(shù)據(jù)集上的總運(yùn)行時間對比
(6)綜合在圖片數(shù)據(jù)集和文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文算法明顯優(yōu)于傳統(tǒng)的歸納式遷移學(xué)習(xí)算法,即本文算法是一種有效的數(shù)據(jù)選擇、合理利用歷史數(shù)據(jù)的方法。這表明應(yīng)該篩選出僅和目標(biāo)域相關(guān)的源域數(shù)據(jù)子集并加以利用,可以更好地避免負(fù)遷移。
本文針對現(xiàn)實(shí)情況中源域存在干擾樣本導(dǎo)致傳統(tǒng)數(shù)據(jù)分析任務(wù)失效的問題,拓展了經(jīng)典的ERM,使其適用于遷移學(xué)習(xí)機(jī)制,利用部分相關(guān)源域知識輔助目標(biāo)域?qū)W習(xí),提出了一種新的基于泛化的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化區(qū)別性知識利用遷移學(xué)習(xí)算法。本文算法是一種基于數(shù)據(jù)分布一致性的知識遷移聚類算法,其只利用了源域數(shù)據(jù)的部分相關(guān)數(shù)據(jù)子集,得到了更具指導(dǎo)意義的有效知識,進(jìn)而確保了利用的源域知識不會對源域造成負(fù)遷移。最后,結(jié)合最小二乘支持向量機(jī),進(jìn)一步提出了DLS-SVM算法。在人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果反映了DLSSVM算法對于領(lǐng)域間知識遷移學(xué)習(xí)的有效性。
[1]Anderson J R.Cognitive psychology and its applications [M].7th ed.New York:Freeman,2010.
[2]Mao Fagui,Li Biwen,Shen Beijun.Cross-project software defect prediction based on instance transfer[J].Journal of Frontiers of Computer Science and Technology,2016,10 (1):43-55.
[3]Hang Wenlong,Jiang Yizhang,Qian Pengjiang,et al.Transfer affinity propagation clustering algorithm[J/OL].Journal of Software(2015-11-26)[2015-12-05].doi:10.13328/j. cnki.jos.004921.
[4]Liao Xuejun,Xue Ya,Carin L.Logistic regression with an auxiliary data source[C]//Proceedings of the 22nd International Conference on Machine Learning,Bonn,Germany, Aug 7-11,2005.New York:ACM,2005:505-512.
[5]Dai Wenyuan,Xue Guirong,Yang Qiang,et al.Transferring naive Bayes classifiers for text classification[C]//Proceedings of the 22nd National Conference on Artificial Intelligence, Vancouver,Canada,Jul 22-26,2007.Menlo Park,USA: AAAI Press,2007:540-545.
[6]Wu Pengcheng,Dietterich T G.Improving SVM accuracy by training on auxiliary data sources[C]//Proceedings of the 21st International Conference on Machine Learning,Banff, Canada,2004.New York:ACM,2004:110.
[7]Daume III H,Marcu D.Domain adaptation for statistical classifiers[J].Journal of Artificial Intelligence Research, 2006,26(1):101-126.
[8]Bart E,Ullman S.Cross-generalization:learning novel classes from a single example by feature replacement[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,San Diego,USA, Jun 20-25,2005.Washington:IEEE Computer Society,2005: 672-679.
[9]Tommasi T,Orabona F,Caputo B.Learning categories from few examples with multi model knowledge transfer[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(5):928-941.
[10]Li Feifei,Fergus R,Perona P.One-shot learning of object categories[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(4):594-611.
[11]Yang Changjiang,Deng Zhaohong,Jiang Yizhang,et al. Adaptive recognition of epileptic EEG signals based on transfer learning[J].Journal of Frontiers of Computer Science and Technology,2014,8(3):329-337.
[12]Jun Yang,Rong Yan,Hauptmann A G.Adapting SVM classifiers to data with shifted distributions[C]//Proceedings of the 7th IEEE International Conference on Data Mining Workshops,Omaha,USA,Oct 28-31,2007.Washington: IEEE Computer Society,2007:69-76.
[13]Jiang Wei,Zavesky E,Chang S F,et al.Cross-domain learning methods for high-level visual concept classification[C]// Proceedings of the 15th IEEE International Conference on Image Processing,San Diego,USA.Oct 12-15,2008.Piscataway,USA:IEEE,2008:161-164.
[14]Burges C J C.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery, 1998,2(2):121-167.
[15]Dudley R M.Real analysis and probability[M].Cambridge, UK:Cambridge University Press,2002.
[16]Borgwardt K M,Gretton A,Rasch M J,et al.Integrating structured biological data by kernel maximum mean discrepancy[J].Bioinformatics,2006,22(14):e49-e57.
[17]Gretton A,Borgwardt K M,Rasch M J,et al.A kernel twosample test[J].The Journal of Machine Learning Research, 2012,13(1):723-773.
[18]Gehler P,Nowozin S.On feature combination for multiclass object classification[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision,Kyoto, Sep 29-Oct 2,2009.Piscataway,USA:IEEE,2009:221-228.
[19]Bickel S.ECML-PKDD discovery challenge 2006 overview [C]//ECML-PKDD Discovery Challenge Workshop,Antwerp,Belgium.Piscataway,USA:IEEE,2006:1-9.
[20]Deng Zhaohong,Choi K S,Jiang Yizhang,et al.Generalized hidden-mapping ridge regression,knowledge-leveraged inductive transfer learning for neural networks,fuzzy systems and kernel methods[J].IEEE Transactions on Cybernetics, 2014,44(12):2585-2599.
附中文參考文獻(xiàn):
[2]毛發(fā)貴,李碧雯,沈備軍.基于實(shí)例遷移的跨項(xiàng)目軟件缺陷預(yù)測[J].計(jì)算機(jī)科學(xué)與探索,2016,10(1):43-55.
[3]杭文龍,蔣亦樟,劉解放,等.遷移近鄰傳播聚類算法[J/OL].軟件學(xué)報(bào)(2015-11-26)[2015-12-05].doi:10.13328/j. cnki.jos.004921.
[11]楊昌健,鄧趙紅,蔣亦樟,等.基于遷移學(xué)習(xí)的癲癇EEG信號自適應(yīng)識別[J].計(jì)算機(jī)科學(xué)與探索,2014,8(3):329-337.
CHENG Yang was born in 1991.He is an M.S.candidate at Jiangnan University,and the student member of CCF. His research interests include artificial intelligence and pattern recognition,etc.
程旸(1991—),男,江蘇蘇州人,江南大學(xué)碩士研究生,CCF學(xué)生會員,主要研究領(lǐng)域?yàn)槿斯ぶ悄?,模式識別等。
WANG Shitong was born in 1964.He received the M.S.degree in computer science from Nanjing University of Aeronautics and Astronautics in 1987.Now he is a professor and Ph.D.supervisor at School of Digital Media,Jiangnan University.His research interests include artificial intelligence,pattern recognition and image processing,etc.
王士同(1964—),男,江蘇揚(yáng)州人,1987年于南京航空航天大學(xué)獲得碩士學(xué)位,現(xiàn)為江南大學(xué)數(shù)字媒體學(xué)院教授、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)槿斯ぶ悄埽J阶R別,圖像處理等。在國內(nèi)外重要核心期刊上發(fā)表論文近百篇,其中SCI、EI收錄50余篇,主持或參加過6項(xiàng)國家自然科學(xué)基金項(xiàng)目,1項(xiàng)國家教委優(yōu)秀青年教師基金項(xiàng)目,其他省部級科研項(xiàng)目10多項(xiàng),先后獲國家教委、中船總公司和江蘇省省部級科技進(jìn)步獎5項(xiàng)。
HANG Wenlong was born in 1988.He is a Ph.D.candidate at Jiangnan University,and the student member of CCF.His research interests include artificial intelligence and pattern recognition,etc.
杭文龍(1988—),男,江蘇南通人,江南大學(xué)博士研究生,CCF學(xué)生會員,主要研究領(lǐng)域?yàn)槿斯ぶ悄埽J阶R別等。
Discriminative Knowledge-Leverage-Based Transfer Classification Learning*
CHENG Yang+,WANG Shitong,HANG Wenlong
School of Digital Media,Jiangnan University,Wuxi,Jiangsu 214122,China
+Corresponding author:E-mail:szhchengyang@163.com
Current transfer learning model studies the source data for future target inferences within a major view that the whole source data should be used to explore the shared knowledge structure.However,due to the limited availability of human ranked source domain,this assumption may not hold due to the fact that not all prior knowledge in the source domain is correlative to the target domain in most real-world applications.This paper proposes a general framework referred to discriminative knowledge-leverage(KL)based on generalized empirical risk minimization(GERM) transfer learning,where the empirical risk minimization(ERM)principle is generalized to the transfer learning setting. Additionally,this paper theoretically shows the upper bound of generalized ERM(GERM)for the practical discriminative transfer learning.The proposed method can alleviate negative transfer by automatically discovering useful objects from source domain.Extensive experiments verify that the proposed method can significantly outperform the state-ofthe-art transfer learning methods on several artificial/public datasets.
transfer learning;empirical risk minimization(ERM);generalized empirical risk minimization(GERM); discriminative knowledge-leverage;negative transfer
10.3778/j.issn.1673-9418.1512014
A
:TP181
*The National Natural Science Foundation of China under Grant No.61272210(國家自然科學(xué)基金).
Received 2015-12,Accepted 2016-04.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-04-08,http://www.cnki.net/kcms/detail/11.5602.TP.20160408.1642.002.html
CHENG Yang,WANG Shitong,HANG Wenlong.Discriminative knowledge-leverage-based transfer classification learning.Journal of Frontiers of Computer Science and Technology,2017,11(3):427-437.