周晶雨,王士同
江南大學 人工智能與計算機學院,江蘇 無錫214122
在機器學習領域中,遷移學習作為一項重要的技術,多年來進行了廣泛的研究[1-2]。許多應用中的模型是根據(jù)大量訓練數(shù)據(jù)構建的,然而收集和標記足夠的數(shù)據(jù)是困難且昂貴的[3-4]。遷移學習的主要目的是利用從一個或多個源域中提取的有用信息來提高目標域的學習性能。一個典型的例子是,收集足夠的老虎數(shù)據(jù)是困難的,但貓的數(shù)據(jù)是豐富的,遷移學習可以用來建立一個利用貓數(shù)據(jù)的老虎分類模型。因此遷移學習顯著的好處就是,利用源域中的有用知識提高整體函數(shù)預測性能,并減少昂貴的數(shù)據(jù)標記工作。因此,遷移學習已經(jīng)被應用到各個領域,趙鵬飛等人[5]闡述了不同的遷移學習方法在人機對話系統(tǒng)的意識識別任務中的應用。任豪等人[6]介紹了遷移學習在跨領域的推薦算法上的應用。
遷移學習研究之初僅從一個源域遷移知識到目標域[1,7-8],但在某些實際應用的情況中,可以輕松地從多個源域中將學習到的知識遷移到目標域[9]。以五種語言文檔分類應用為例,為了對英文編寫的文檔進行分類,可以利用從法語翻譯成英語的文檔、德語翻譯成英語的文檔、西班牙語和意大利語翻譯成英語的文檔中學習知識,每個翻譯文檔都可以被作為源域[10]。然而,不同的源域對于目標域的貢獻也是不相同的,為了克服此限制,可以采用基于Boosting[9,11]的方法來設計更復雜的多源遷移學習算法。
大多數(shù)多源遷移學習是在離線環(huán)境下進行的[12-14]。在某些實際應用中,目標域的訓練數(shù)據(jù)并不是事先提供的,而是在目標域函數(shù)學習的過程中以順序的方式接受的,稱為在線遷移學習[1-2,15]。在大數(shù)據(jù)時代,在線學習能夠處理傳統(tǒng)批處理算法無法勝任的大量的且快速增長的數(shù)據(jù)任務。在線學習中,目標域函數(shù)每輪接受一個樣本及其對應標簽,然后使用目標函數(shù)對當前樣本進行預測,得到預測結果。然后根據(jù)當前樣本的真實標簽和預測結果之間的損失信息更新目標函數(shù)。孫勇等人[16]將在線學習應用到大規(guī)模服務計算中,改善了預測的時間效率,同時也滿足了計算的實時性要求。對于多源在線遷移學習,每輪到達樣本的最終預測結果通過組合多個源分類器和目標分類器的預測結果得到。
目前,大多數(shù)的遷移學習算法都沒有關注不平衡的數(shù)據(jù)集,而是默認數(shù)據(jù)的類別分布是平衡的,但是不平衡數(shù)據(jù)往往存在于許多現(xiàn)實世界的分類問題中。對于不平衡的數(shù)據(jù)集,傳統(tǒng)的分類器對不同類別假設相同的誤分類代價,雖然可以給出較高的分類精度,但算法的性能會受到不平衡數(shù)據(jù)的嚴重影響,因為將一個少數(shù)類樣本錯分為多數(shù)類樣本的代價是極其昂貴的。以前的文章提出了多種方法來處理類別不平衡的數(shù)據(jù)集,大致可以分為以數(shù)據(jù)為基礎的采樣方法、成本敏感方法和算法級的方法[17]。以數(shù)據(jù)驅動的采樣方法在訓練分類器之前對數(shù)據(jù)集進行預處理,通過分布均衡的數(shù)據(jù)來解決不平衡的問題。成本敏感的方法對錯誤分類少數(shù)類樣本的決策函數(shù)施加更高的懲罰。而算法級的方法則是修改像支持向量機[18-19]這樣的分類器來解決類別不平衡的問題。
多源在線遷移學習中,目標域從多個源域提取有用的知識來幫助目標函數(shù)分類。Wu 等人[20]提出了一種可以利用多個與目標域相關的源域來進行在線遷移學習的算法。Kang 等人[21]提出一種多源在線遷移學習的多類分類算法,通過兩階段集成策略進行多類分類。周晶雨等人[22]提出一種多源在線遷移學習方法,在線訓練的過程中對目標域的少數(shù)類樣本進行擴增,從而提高整體分類性能。然而在現(xiàn)實環(huán)中,大多數(shù)分類任務中的數(shù)據(jù)通常是類別分布不平衡的。不平衡數(shù)據(jù)分類是機器學習領域的一個重要的研究課題,它在多源在線遷移學習中也很重要。在多源在線遷移學習中,源域和目標域的數(shù)據(jù)類別都有可能是不平衡的。當目標域數(shù)據(jù)不平衡時,目標域函數(shù)的預測結果偏向于多數(shù)類;當源域數(shù)據(jù)不平衡時,組合多個源分類器和目標分類器的結果極有可能偏向于多數(shù)類;當源域和目標域的數(shù)據(jù)都不平衡時,會產(chǎn)生更加復雜的情況。顯然,針對不平衡數(shù)據(jù)集的多源在線遷移學習是一個重要而富有挑戰(zhàn)性的課題,值得廣泛研究。
本文提出了一種稱為OTLMS_STO(multi-source online migration learning based on oversampling in source and target domain feature space)的多源在線遷移學習算法,該算法主要研究不平衡數(shù)據(jù)的二分類問題。現(xiàn)有的方法將源域和目標域函數(shù)通過權重向量在在線學習的過程中動態(tài)地組合起來,但是并未考慮源域數(shù)據(jù)和目標域數(shù)據(jù)類別分布同時不平衡的情況,而本文提出的OTLMS_STO 算法分別在源域和目標域的特征空間中對少數(shù)類樣本進行過采樣,使用平衡的數(shù)據(jù)訓練源函數(shù),并在在線預測的過程中改進目標函數(shù),有效解決了類別分布不平衡的問題。在對源域過采樣階段,每個源域都使用SVM 作為分類器,在源域的特征空間中合成少數(shù)類樣本,通過平衡數(shù)據(jù)生成的Gram 矩陣來訓練各個源域的SVM 分類器。對在線的目標域過采樣階段,采用被動攻擊算法(passive-aggressive,PA)[23]構建目標域的決策函數(shù)。目標域每輪到達一批數(shù)據(jù),從前面已經(jīng)達到批次的少數(shù)類樣本中尋找k近鄰。然后在種子和鄰居樣本對之間的線段上合成少數(shù)類新樣本,使用生成的新樣本和當前批次中原始樣本去訓練目標域的決策函數(shù)。最后通過權重向量組合改進后的源和目標函數(shù)。源和目標域中生成的樣本具有線性可分的性質,可以克服SMOTE(synthetic minority oversampling technique)[24]方法在過采樣過程中對于非線性問題的局限性。并且在多個文本和圖像數(shù)據(jù)集上進行了實驗,結果表明提出的算法與在線遷移學習的基線算法相比具有更好的性能。
在本章中,主要介紹多源在線遷移學習算法HomOTLMS[20]。HomOTLMS 將在多個源域和目標域上構建的分類器結合在一起,實現(xiàn)有效的集成分類器。通過利用多個源域的有用信息,解決目標域樣本數(shù)據(jù)不足的問題,最終提升目標域的性能。
HomOTLMS 首先根據(jù)預先給出的m個源域的訓練數(shù)據(jù),在離線批處理學習范式中構建它們的決策函數(shù)。而對于目標域,采用在線被動攻擊算法構建一個以在線的方式更新的決策函數(shù)gT(x)。目標域每輪接受一個樣本,在第i輪,目標域接受到實例(xi,yi),然后使用函數(shù)對給定的實例xi進行預測,并根據(jù)真實標簽yi計算目標域決策函數(shù)的鉸鏈損失:
如果決策函數(shù)在實例xj上遭受非零損失,那么就將其作為支持向量添加到支持向量集中來更新目標域的決策函數(shù):
其中,τi=min{C,Li/k(xi,xi)},k(·,·)是核函數(shù)。
HomOTLMS 通過每輪目標域的樣本來訓練目標域決策函數(shù),并同時調整各分類器權重來更新最終的集成決策函數(shù),從而進行有效的多源在線遷移學習。但是HomOTLMS 算法并不能有效地應對源域或者目標域數(shù)據(jù)類別分布不均勻的情況。下面介紹了一種新的多源在線遷移學習方法,可以通過人工平衡源域和目標域類別的分布,降低總體分類誤差。
本節(jié)正式介紹多源在線遷移學習中數(shù)據(jù)類別分布不均的問題。對于給定的m個源域,使用DS=來表示,目標域使用DT表示。使用表示第j個源域的數(shù)據(jù)空間,其中該源域的特征空間是。對于目標域,其數(shù)據(jù)空間使用X×Y 表示,其中特征空間是X=Rd。并且這里的源域和目標域共享相同的標簽空間=Y={+1,-1},也同時共享相同的特征空間,即對?j=1,2,…,m,=Rd。
與HomOTLMS 不同的是,提出的算法主要應用于目標域每次以在線的方式到達一批數(shù)據(jù)的問題。對于目標域,第t個批次的數(shù)據(jù)是。當一個批次的樣本到達時,目標域的決策函數(shù)依次預測每個樣本并更新自身,而m個源域則直接預測本批次的樣本,得到m組預測結果。最后遍歷m個源域和目標域的預測結果來調整集成決策函數(shù)的各項權重,并得到當前批次的最終預測結果。
源域采用SVM 訓練分類器,目標域采用在線被動攻擊算法(PA)訓練分類器,源域和目標域都是在特征空間通過訓練得到一個最佳的分離超平面來預測樣本。當類別不平衡時,這個超平面可能會對多數(shù)類樣本更加敏感,預測結果偏向多數(shù)類。對于源域和目標域的數(shù)據(jù),它們的類別分布都可能是不均勻的,假設類別為+1 的樣本是少數(shù)類,類別為-1 的樣本是多數(shù)類。使用不平衡的源域數(shù)據(jù)訓練出來多個源分類器,這時目標域從源域遷移的知識可能會偏向多數(shù)類,會對目標域的數(shù)據(jù)造成負面的影響。如果目標域數(shù)據(jù)本身就是不平衡的,那么有極大的可能會使目標決策函數(shù)向多數(shù)類偏斜,從而影響最終的集成決策函數(shù)的結果。當源域和目標域的數(shù)據(jù)都不平衡時,往往會產(chǎn)生更加復雜的情況。本文提出的OTLMS_STO 算法通過在源域和目標域的樣本特征空間中進行過采樣,提高集成決策函數(shù)的整體分類性能,更好地實現(xiàn)知識遷移。
提出的OTLMS_STO 算法首先在源域的特征空間中過采樣,利用采樣后平衡的數(shù)據(jù)集改進源域的分類器。在多個源域中使用SVM 這樣的基本分類器,SVM 在高維隱式特征空間中識別分離超平面來對樣本進行分類。對于不平衡的數(shù)據(jù)集,SMOTE[24]是一種優(yōu)秀的采樣方法,利用領域的信息來綜合生成少數(shù)類樣本點,它在兩個相鄰的樣本之間的線段上生成新樣本。但是對于高維的文本和圖像數(shù)據(jù),SMOTE 局限于這樣的非線性可分的問題。
由于多個源域的SVM 分類器是在特征空間中運行的,可以在同一個特征空間中生成合成樣本來處理類不平衡的問題。圖1 展示了提出的OTLMS_STO算法在改進多個源域階段時的結構,主要分為兩個關鍵步驟:第一步,在源域的特征空間中生成合成的少數(shù)類新樣本,使得源域的數(shù)據(jù)集變平衡;第二步,使用修改后的平衡數(shù)據(jù)集訓練得到多個源域的分類器。下面詳細描述各個步驟。
圖1 OTLMS_STO 算法在處理源域階段的結構Fig.1 Structure of OTLMS_STO algorithm in process of source domain
其中,k(·,·)是核函數(shù),通過核函數(shù)計算種子和鄰居之間的距離而不需要知道φ(x)函數(shù)的具體形式。
當求得了源域中所有少數(shù)類樣本的k近鄰后,會得到許多組種子和鄰居對,從中選擇適量組數(shù)的樣本對并在它們之間的線段上生成一個新的樣本。生成的新的少數(shù)類樣本的數(shù)量Lt_new要使當前源域的類別分布相對平均,并且為每個新樣本分配一個標簽。根據(jù)下面公式在特征空間中合成新樣本:
其中,αmn是一個0 到1 之間的隨機數(shù),在公式使用的過程隨機生成,參照文獻[25]中的設置。
注意,當目標域中+1 標簽的樣本是少數(shù)類時,并不能肯定在每個源域中+1 標簽的也是少數(shù)類,因此在平衡源域數(shù)據(jù)時需要根據(jù)兩種類別具體的樣本數(shù)確定少數(shù)類。
通過Gram 矩陣K1可以訓練源域的SVM 分類器,K1是由源域中每對樣本的內積組成的:
將生成的Lt_new個新樣本添加到Gram 矩陣K1中訓練源域的SVM 分類器,新的Gram 矩陣表示為:
根據(jù)式(9)和式(10)可知,增廣核矩陣K僅由源域中的訓練樣本和核函數(shù)k(·,·)構成,而不需要知道映射函數(shù)φ(x)的具體形式。因此,任何一個有效的核函數(shù)都可以用來訓練源域的SVM,而提出的OTLMS_STO 算法使用高斯核函數(shù)來訓練SVM。
本節(jié)主要介紹提出的OTLMS_STO 算法對不平衡目標域的處理步驟。目標域使用PA 算法進行訓練,PA 算法也出現(xiàn)類似于SVM 的優(yōu)化問題,預測機制基于一個超平面,該超平面將實例空間分成兩個半空間。在對目標域函數(shù)改進的階段中,目標決策函數(shù)能夠利用與SVM 分類器相同的核技巧,合成樣本利用特征空間中的點積生成而不需要知道特征映射函數(shù)φ(x)。因此可以通過相同的核函數(shù)和帶寬來控制源域和目標域生成的新樣本處于相同的特征空間。目標域生成的數(shù)據(jù)點在高維的空間具有更好的線性可分性,可以用來改進目標決策函數(shù)。
圖2 展示了提出的OTLMS_STO 算法在改進目標域階段的結構,目標域的樣本分成多個批次到達,目標域到達一批數(shù)據(jù)時的處理過程分為三步:第一步,對當前批次中的少數(shù)類樣本過采樣,使類別分布相對均衡。圖2中是原始樣本,表示合成的新樣本。第二步,遍歷生成的新樣本,依次訓練目標決策函數(shù)gT(x)。第三步,使用當前批次中的原始樣本進行多源在線遷移學習。對所有的批次采用相同的三個步驟處理就可得到最后訓練好的集成函數(shù),下面詳細描述各個步驟。
圖2 OTLMS_STO 算法在處理目標域階段的結構Fig.2 Structure of OTLMS_STO algorithm in process of target domain
在目標域第t個批次的樣本到達時,OTLMS_STO 算法會從中挑選出所有的少數(shù)類樣本。然后從前面已經(jīng)到達的多個批次中尋找當前到達批次中每個少數(shù)類樣本的k近鄰。對于當前批次中少數(shù)類種子φ(xm) 和前面批次中的少數(shù)類鄰居φ(xn),使用式(5)計算兩者在特征空間的距離。并且用表示種子和鄰居組成的樣本對的集合,一共對,同時給每對樣本分配+1 的標簽。然后從集合中隨機選取min_num個少數(shù)類的樣本對,根據(jù)式(6)在特征空間中合成新的樣本。其中,min_num的大小要使當前批次中的少數(shù)類和多數(shù)類樣本的數(shù)量近似,即數(shù)據(jù)類別平衡。
在對當前批次的樣本進行多源在線遷移學習之前,先用生成的新樣本改進目標決策函數(shù)gT(x)。然而,根據(jù)式(6)生成的新少數(shù)類樣本利用通常未知的特征映射函數(shù)φ(x),因此新的合成樣本φ(xmn)并不能具體得到。目標決策函數(shù)采用PA 算法,每次通過核函數(shù)計算兩個樣本的內積來添加支持向量,從而改進目標函數(shù)。因此當目標函數(shù)接收到在特征空間生成的新樣本時,可以根據(jù)式(9)計算普通樣本和合成樣本的內積,根據(jù)式(10)計算合成樣本和合成樣本的內積,從而利用新樣本訓練目標決策函數(shù)。與改進源域階段類似,只需知道訓練樣本和核函數(shù)k(·,·),而不需要知道映射函數(shù)φ(x)的具體形式。
使用合成實例改進目標域決策函數(shù),當鉸鏈損失大于0 時,將合成實例作為支持向量添加到支持向量集,并且也能保持特征空間的可分性,即:
定理1在目標域的特征空間中生成合成的少數(shù)類樣本同樣能保證類別可分。
證明目標域函數(shù)由支持向量組成,可以表示為:
將式(6)生成少數(shù)類樣本φ(xpq))代入目標函數(shù):
其中,gT(xm),gT(xn)≥0,xm,xn都屬于少數(shù)類,αmn∈[0,1]。
因此在目標域的特征空間中生成的樣本同樣可以保證類別可分。每批次生成的新樣本都會優(yōu)化目標函數(shù)在特征空間中的超平面,提高目標函數(shù)的性能。然后對當前批次中的所有樣本進行多源在線遷移學習,得到本批次的最終結果。
提出的OTLMS_STO 算法總共分為兩個階段:(1)改進多個源域的分類器;(2)改進目標域的分類器,使用改進的源分類器進行多源在線遷移學習。
第一階段的算法描述和復雜度分析:
上述算法中,步驟2.1 尋找所有的少數(shù)類樣本的時間復雜度為O(N),N是當前源域的樣本總數(shù)。步驟2.2 尋找所有少數(shù)類樣本的k近鄰的時間復雜度是O(n_min2),n_num是當前源域中少數(shù)類樣本的個數(shù)。步驟2.4 中計算Gram 矩陣的時間復雜度是O((N+n_num)2d),其中d是樣本的維度。因此總的時間復雜度是O(n(N+n_min2+(N+n_num)2d)),n是源域的個數(shù),可以近似為O(nd(N+n_num)2)。
第二階段的算法描述和復雜度分析:
上述算法中,步驟1.1 尋找k近鄰的時間復雜度是O(3m1m2d),其中m1和m2分別是當前批次和前面批次中的少數(shù)類和多數(shù)類,d是樣本的維數(shù)。步驟1.3 利用合成樣本改進目標決策函數(shù)的時間復雜度是O(4svd),s是新樣本的總數(shù),v是支持向量的個數(shù)。步驟1.4 訓練當前批次原始樣本的時間復雜度是O(2nvd),一共n個樣本。整個目標域共有N個批次,總的時間復雜度是O(N(3m1m2d+4svd+2nvd)),可以近似為O(N(m1m2d+svd+nvd))。
本章將提出的OTLMS_STO 算法與多個在線學習的基線算法進行了比較,并在真實世界的數(shù)據(jù)集上進行了實驗:20Newsgroups 數(shù)據(jù)集、Office-Home數(shù)據(jù)集、Modern Office-31 數(shù)據(jù)集和DomainNet 數(shù)據(jù)集。為了獲得可靠的結果,在相同參數(shù)設置的前提下,將多個源域的數(shù)據(jù)作為訓練數(shù)據(jù),將目標域的數(shù)據(jù)作為測試數(shù)據(jù),通過更改測試實例的到達順序來將每個實驗重復10 次。結果表明,提出的算法比基線算法獲得了更好的性能。
(1)20Newsgroups
20 個新聞組數(shù)據(jù)集(http://qwone.com/~jason/20Newsgroups/)是機器學習技術中進行文本應用的流行數(shù)據(jù)集,該數(shù)據(jù)集收集了大約20 000 個新聞組文檔,平均分成20 個不同主題的新聞組。其中,每個新聞組都對應一個不同的主題,一些新聞組彼此之間有著非常緊密的聯(lián)系,而其他新聞組則高度不相關。高度相關的構成5 個大的主題,如os、ibm、mac和x 是comp 主題的新聞組,crypt、electronics、med 和space 是sci 主題的新聞組。在實驗中,將comp 主題中的新聞組標記為正例,sci 主題的新聞組標記為負例。從而可以構建4 個相關的學習域:os_vs_crypt、ibm_vs_electronics、mac_vs_med 和x_vs_space。從中隨機選擇1 個域作為目標域,其余3 個域作為源域,可以生成4 個遷移學習任務。每組任務的不平衡率都為0.3。
(2)Office-Home
Office-Home[26]數(shù)據(jù)集包含來自4 個不同鄰域的圖像藝術圖像(Art)、剪貼畫(Clipart)、產(chǎn)品圖像(Product)和現(xiàn)實世界圖像(Real World),共有15 500張左右的圖像。其中每個域都包含65 個類別的圖像。在實驗設置中,將Real World 領域的圖像作為目標域,Art、Clipart 和Product 這3 個域作為源域。在Real World 域的65 個類別中選擇1 個樣本數(shù)少的和1個樣本數(shù)多的構成二分類任務的目標域,3 個源域也選取相同的類別,形成一個遷移學習的任務。在實驗之前,對任務中的原始圖片進行簡單的預處理,將每張圖片都處理成一個1×10 000 的向量。實驗一共生成了33 組遷移學習任務。在33 組任務中,Real World 域有1 組任務不平衡率在[0.1,0.2)之間,不平衡率在[0.2,0.3)之間的有14 組任務,不平衡率在[0.3,0.4)之間的有18 組任務。
(3)DomainNet
DomainNet 數(shù)據(jù)集[13]是迄今為止最大的域適應數(shù)據(jù)集,該數(shù)據(jù)集由6 個不同的域、345 個類別和約60 萬張圖片組成。6 個域分別是Clipart、Infograph、Painting、Quickdraw、Real 和Sketch,而類別則是從家具、布料、電子到哺乳動物、建筑等。在實驗中,從Real照片和真實世界圖像域中選取1 個樣本少的和1個樣本多的類構成目標域,其余5 個域作為源域,構成一個遷移學習任務。實驗中一共生成了45 組遷移學習任務。在45 組任務中,Real域有5 組任務不平衡率在[0,0.1)之間,不平衡率在[0.1,0.2)之間的有7組任務,不平衡率在[0.2,0.3)之間的有33 組任務。
自2012年全面啟動新型職業(yè)農民培育工作以來,農業(yè)農村部制定了一系列支持新型職業(yè)農民培育和發(fā)展的文件,明確了新型職業(yè)農民的培育原則,細分了培育類型和標準。尤其在“十三五”中,把習總書記提出的“堅持把科教興農、人才強農、新型職業(yè)農民固農”作為農業(yè)農村發(fā)展的重大戰(zhàn)略,也為新型職業(yè)農民培育工作指出了方向。
(4)Modern Office-31
Modern Office-31 數(shù)據(jù)集[27]是一個用于圖像分類的遷移學習數(shù)據(jù)集。其包含4 個領域的子集:Amazon(A)、Webcam(W)、Synthetic、Dslr(D),分為31 個類別,共有7 210 張圖片。在Modern Office-31 數(shù)據(jù)集中,不僅各個領域的樣本總數(shù)不同,而且各個域內部類別分布也不平衡,可以通過不平衡方法處理Modern Office-31 數(shù)據(jù)集,促使遷移學習效果提升。實驗中,預處理數(shù)據(jù)集,每個圖片都是1×10 000 的向量。將Webcam 作為目標域,其余3 個域作為源域。然后選取Webcam 中的一個樣本數(shù)多的和一個樣本數(shù)少的類別構成一組遷移學習任務,一共生成了20 組任務。在20組任務中,Webcam域有5組任務不平衡率在[0.2,0.3)之間,不平衡率在[0.3,0.4)之間的有9 組任務,不平衡率在[0.4,0.5)之間的有6 組任務。
為了評估提出的OTLMS_STO 算法的性能,將該算法與最新的幾種在線學習方法進行了對比實驗。PA 算法[23]是一種經(jīng)典的在線學習算法,使用PA作為對比算法并不需要進行知識遷移。使用各個源域的數(shù)據(jù)先對PA 進行初始化來實現(xiàn)PA 算法的一種變體“PAIO”。同時還與一種著名的多源在線遷移學習算法HomOTLMS[20]進行了對比,該算法可以利用多個源域的有用知識來提高目標域的分類性能。另外將提出的算法與OTLMS_IO[22]以及OTLMS_FO[22]進行了比較,兩種算法都是通過對不平衡的目標域過采樣提升性能,前者在輸入空間采樣,后者在特征空間采樣。所有算法均由Python 語言實現(xiàn)。
對不平衡數(shù)據(jù)集上的分類器進行性能評價,如果使用準確率或者錯誤率這樣單一的評價標準通常是無效的。本文實驗采用準確度和G-mean 來評估數(shù)據(jù)集的性能,G-mean 可以評價不平衡數(shù)據(jù)的模型表現(xiàn)。當樣本都被劃分到同一個類時,G-mean 的值是0,表1 是二分類混淆矩陣,G-mean 的計算公式是:
表1 二分類混淆矩陣Table 1 Two-classification confusion matrix
3.3.1 參數(shù)設置
在20Newsgroups、Office-Home、DomainNet和Modern Office-31 數(shù)據(jù)集上,將提出的OTLMS_STO 算法與4 種遷移學習的基線算法進行了對比實驗。為了使比較更加公平,所有算法都采用了盡可能相似的實驗設置。對于每批次少數(shù)類樣本的k近鄰,OTLMS_STO 會自動設置k值,保證生成的少數(shù)類新樣本能夠使當前批次的類別分布相對均衡。由于高斯核函數(shù)的廣泛應用,本文采用高斯核訓練函數(shù),本文提出的算法也可以使用其他的核函數(shù),并且在[10-2,102]范圍中搜索最優(yōu)的帶寬σ。在3.3.7 小節(jié)的實驗中分析了不同折衷參數(shù)C值帶來的實驗性能的影響,并設置所有算法在全部數(shù)據(jù)集上的折衷參數(shù)C為5。根據(jù)文獻[20]對算法錯誤界的分析,可以得到權重折扣參數(shù)β=,其中m是算法所犯的錯誤數(shù),n是源分類器的個數(shù)。
3.3.2 20Newsgroups數(shù)據(jù)集上的實驗結果
表2 列出了20Newsgroups 數(shù)據(jù)集上多種比較算法的性能,評價指標包括準確率和G-mean。從實驗結果可以觀察到,提出的OTLMS_STO 算法在4組學習任務中取得了比所有基線算法更好的性能。OTLMS_STO 算法的性能優(yōu)于PA 和PAIO,這表明提出的算法能有效地從多個源域中提取知識。在4 組任務中,提出的OTLMS_STO 算法比HomOTLMS 的結果更好,這是因為HomOTLMS算法忽略了源域和目標域數(shù)據(jù)類別不平衡的問題。比較算法OTLMS_IO 和OTLMS_FO 的性能要優(yōu)于HomOTLMS,但是兩個比較算法都只考慮了在目標域中擴增樣本,而提出的OTLMS_STO 算法在源域和目標域的特征空間中擴增少數(shù)類的樣本。圖3 給出了4 組任務中不同算法的錯誤率隨著樣本數(shù)增加而變化的折線圖。從圖3可以看出,隨著訓練樣本數(shù)的增加,6種算法的錯誤率也顯著降低。并且OTLMS_STO 算法在os_vs_crypt、mac_vs_med 和x_vs_space 的任務中始終比對比方法的錯誤率低。其中,HomOTLMS、OTLMS_IO、OTLMS_FO和OTLMS_STO 算法在開始樣本數(shù)少的時候有著更好的結果,這證明上述算法都可以有效地從多個源域提取知識。本文提出的OTLMS_STO 算法的錯誤率在大多數(shù)任務上比其他算法更低,證明了提出的算法能有效改進不平衡源域和目標域。
圖3 20Newsgroups數(shù)據(jù)集上各算法隨樣本數(shù)增加的錯誤率Fig.3 Error rate of each algorithm on 20Newsgroups dataset with increase of the number of samples
表2 在20Newsgroups數(shù)據(jù)集上應用不同學習算法的結果(平均±標準差)Table 2 Results of different learning algorithms on 20Newsgroups dataset(mean±standard deviations) 單位:%
在圖像數(shù)據(jù)集Office-Home上進行了33組實驗任務,表3 給出了所有對比算法在兩種指標上的數(shù)值結果。其中,HomOTLMS、OTLMS_IO、OTLMS_FO和OTLMS_STO算法比普通的在線學習算法有著更好的性能,這表明從多個源域遷移知識有助于目標域的預測。而OTLMS_STO、OTLMS_IO 和OTLMS_FO 比HomOTLMS 的評價更好,因為前面三種算法都考慮到目標域類別不平衡的情況。
表3 在Office-Home數(shù)據(jù)集上應用不同學習算法的結果(平均±標準差)Table 3 Results of different learning algorithms on Office-Home dataset(mean±standard deviations) 單位:%
但是OTLMS_STO 算法的性能更優(yōu),該算法可以同時從源域和目標域的核空間中擴增少數(shù)類的樣本,有效修正特征空間中的超平面,從G-mean 指標能夠清晰看到分類器的變化。圖4 展示三種主要算法在33 組任務上準確率的柱狀圖,圖5 展示了33 組任務G-mean 指標的折線圖。在絕大多數(shù)任務上,OTLMS_STO 算法的性能都要更優(yōu),并且對少數(shù)類有著更好的效果。這表明提出的算法不僅能從多個源域遷移知識,還能很好地應對不平衡的數(shù)據(jù)集。
圖4 Office-Home數(shù)據(jù)集的33 組任務的準確率Fig.4 Accuracy of 33 groups of tasks on Office-Home dataset
圖5 Office-Home數(shù)據(jù)集上各組任務的G-meanFig.5 G-mean of each group of tasks on Office-Home
3.3.4 DomainNet數(shù)據(jù)集上的實驗結果
為了更好地驗證OTLMS_STO 算法的性能,在圖像數(shù)據(jù)集DomainNet 上一共進行了60 組實驗任務。表4 給出了4 組任務的數(shù)值結果,實驗結果中的數(shù)據(jù)顯然是支持提出的方法,并在所有任務中都獲得了超越對比算法的最優(yōu)性能。這表明提出的OTLMS_STO 算法能夠從多個源域提取有效知識,并對于源域和目標域不平衡的情況也有很好的效果。DomainNet 數(shù)據(jù)集一共包含5 個源域,組合源域和目標域時,目標域所占的比重只有1/6,因此OTLMS_FO通過擴增目標域的樣本改進目標決策函數(shù)的性能一般。而提出的OTLMS_STO 算法可以在源域的核空間中合成少數(shù)類樣本,然后使用增廣的核矩陣訓練源域分類器,通過組合多個源分類器和目標分類器就能實現(xiàn)更好的性能。受空間性和可觀測性的影響,圖6 展示了PA、HomOTLMS 和OTLMS_STO 算法在45 組任務中的結果,而忽略了其他算法的結果。在大多數(shù)任務中,提出的算法都要優(yōu)于兩種比較算法。圖7展示了3種主要算法的G-mean值,結果表明提出的OTLMS_STO 算法能夠應對不平衡的數(shù)據(jù),尤其對源域數(shù)量較多的數(shù)據(jù)集有著更好的性能。
圖6 DomainNet數(shù)據(jù)集的45 組任務的準確率Fig.6 Accuracy of 45 groups of tasks on DomainNet dataset
圖7 DomainNet數(shù)據(jù)集上各組任務的G-meanFig.7 G-mean of each group of tasks on DomainNet dataset
表4 在DomainNet數(shù)據(jù)集上應用不同學習算法的結果(平均±標準差)Table 4 Results of different learning algorithms on DomainNet dataset(mean±standard deviations) 單位:%
3.3.5 Modern Office-31 數(shù)據(jù)集上的實驗結果
在Modern Office-31 圖像數(shù)據(jù)集上一共進行了20 組實驗任務。表5 給出了在幾個隨機選擇的任務上使用所有算法的準確率和G-mean 的數(shù)值結果。本文提出的OTLMS_STO 算法通過利用多個源域的有用信息來增強目標域的分類性能,因此在準確率指標上,OTLMS_STO 實現(xiàn)了具有競爭力的性能。與此同時,OTLMS_STO 在源域和目標域的特征空間上對少數(shù)類樣本進行擴增,同時改進源域和目標域的函數(shù),避免最終的集成決策函數(shù)偏向于多數(shù)類別。從表5中觀察到,OTLMS_STO算法在G-mean指標上達到了最優(yōu)的性能。
表5 在Modern Office-31 數(shù)據(jù)集上應用不同學習算法的結果(平均±標準差)Table 5 Results of different learning algorithms on Modern Office-31 dataset(mean±standard deviations) 單位:%
圖8 展示了Modern Office-31 數(shù)據(jù)集上20 組實驗任務在PA、HomOTLMS和OTLMS_STO算法上的平均準確率結果。從圖中可以看到提出的OTLMS_STO算法在絕大多數(shù)的任務上都有著最優(yōu)的性能,這證明了提出的算法可以有效利用源域的知識來提高性能,并且證明了同時在源域和目標域的特征空間中擴增樣本對函數(shù)性能的有效性。圖9給出了20組實驗任務在PA、HomOTLMS和OTLMS_STO算法上的G-mean結果,證明了OTLMS_STO應對不平衡數(shù)據(jù)的有效性。
圖8 Modern Office-31 數(shù)據(jù)集的20 組任務的準確率Fig.8 Accuracy of 20 groups of tasks on Modern Office-31 dataset
圖9 Modern Office-31 數(shù)據(jù)集上各組任務的G-meanFig.9 G-mean of each group of tasks on Modern Office-31 dataset
3.3.6 在全部數(shù)據(jù)集上準確率的rank值
表6 給出了在3 種數(shù)據(jù)集上一共102 組實驗任務準確率的rank 值結果以及每個數(shù)據(jù)集上的平均rank值。在5 種算法的準確率排名中,排名第一的rank 值為1,排名第二的rank 值為2,后面的以此類推。對于20Newsgroups 數(shù)據(jù)集,task1~4 表示任務1、任務2、任務3和任務4,后面的1 1 1 1是task1~4 的rank值結果。從表格中可以看出,在絕大多數(shù)的任務中,提出的OTLMS_STO 算法的實驗結果排名都處于第一名的位置,并且平均rank 值也有很好的表現(xiàn)。
表6 每組任務準確率的rank 值以及平均rank值Table 6 Rank value and average rank value of task accuracy in each group
3.3.7 參數(shù)調整
本文提出的方法涉及一些可調參數(shù),包括折衷參數(shù)C。圖10展示了不同C值對20Newsgroups數(shù)據(jù)集的潛在影響。從圖中可以觀察到,OTLMS_STO 和其他方法的精度隨著不同的C而顯著變化。對于同一任務,不同的算法在不同的C值上獲得最佳性能。從圖10 中可以得出結論,在不同的C值下,OTLMS_STO 算法比其他遷移學習算法更準確且更加穩(wěn)定,這驗證了所提出算法的有效性。在實驗中,將所有算法的C值設為5。
圖10 20Newsgroups數(shù)據(jù)集上不同C 值的全部算法評價Fig.10 Evaluation of all algorithms with different C values on 20Newsgroups dataset
為了評估提出算法隨著訓練樣本增加的時間效率,本文在多個任務上測試了所有的算法。實驗使用python 實現(xiàn),運行在一臺6×2.6 GHz CPU 處理器和16 GB 內存的Windows 機器上。本文算法的平均運行時間記錄并總結在圖11 中。從圖中可以發(fā)現(xiàn),隨著樣本數(shù)量的增加,本文算法的平均運行時間比其他算法花費得更多。然而,考慮到更好的性能,增加的時間成本是可以接受的。
圖11 隨著樣本數(shù)增加的各個算法的時間成本Fig.11 Time cost of each algorithm with increase of the number of samples
本文考慮了不平衡數(shù)據(jù)的在線遷移學習問題,其中目標域的數(shù)據(jù)分批次到達,并從多個離線源域中遷移知識。針對不平衡的源域,本文算法在源域的特征空間中擴增少數(shù)類樣本至源域類別平衡,然后使用增廣的核矩陣訓練源域,形成多個改進后的離線源域分類器。針對不平衡的目標域,該算法從前面到達批次中的少數(shù)類樣本中尋找當前批次樣本中少數(shù)類的k近鄰,然后使用合成的新樣本改進目標函數(shù)。最后組合多個改進后的源分類器和目標分類器進行多源在線遷移學習,并在文本和圖像數(shù)據(jù)集上進行了廣泛的實驗。實驗結果表明,提出的算法不僅能夠有效地從多個源域遷移知識,而且能夠很好地應對源域和目標域的數(shù)據(jù)類別分布不均衡的情況。本文研究了不平衡源域和目標域的二值分類問題,多類分類問題更具有挑戰(zhàn)性,離線函數(shù)和在線目標函數(shù)要同時考慮多個類以及其中類別不平衡的情況。未來會繼續(xù)研究不平衡源域和目標域的多分類多源在線遷移學習問題。