亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多源域分布下優(yōu)化權重的遷移學習Boosting方法

        2023-06-07 08:30:44李赟波王士同
        計算機與生活 2023年6期
        關鍵詞:分類

        李赟波,王士同

        1.江南大學 人工智能與計算機學院,江蘇 無錫214122

        2.江南大學 江蘇省物聯(lián)網(wǎng)應用技術重點建設實驗室,江蘇 無錫214122

        遷移學習是為了解決源域與目標域數(shù)據(jù)空間分布不一致情況下,從源域中抽取有用的知識訓練模型。因其可以在目標域訓練數(shù)據(jù)不完備的情況下從源域遷移獲取知識,減少了獲取標注目標域數(shù)據(jù)的成本。近年來,遷移學習在各個領域都有著高度的關注與廣泛的應用[1]。當一組數(shù)據(jù)很容易過時,可能會出現(xiàn)遷移學習的需求。在這種情況下,在一個時間段內(nèi)獲得的標記數(shù)據(jù)在以后的時間段內(nèi)可能不會遵循相同的分布[2]。此外,在目標域沒有標注或者標注目標域數(shù)據(jù)代價高昂的情況下,遷移學習可以節(jié)省大量的標記工作[3]。

        在遷移學習中,Liu等人[4]提出了一種Butterfly學習框架,該框架同時使用四個深度學習網(wǎng)絡,其中兩個負責所有域的適應工作,剩下的兩個專門負責目標域的分類。Wang 等人[5]給出了負遷移的定義,并提出了一種形式化的避免負遷移的方法。Scott[6]提出了一種新的可以強化領域適配表現(xiàn)的度量方法。Tokuoka 等人[7]提出了一種歸納遷移學習方法,通過基于Cycle-GAN(cycle-consistent generative adversarial networks)的無監(jiān)督域適應使源域樣本的注釋標簽應用于目標域數(shù)據(jù)樣例上。Bucci等人[8]提出了一種以監(jiān)督方式學習語義標簽的模型,并使用相同圖像自監(jiān)督信號拓寬對數(shù)據(jù)的理解。Moreno-Mu?oz 等人[9]提出了一個基于模塊化變分高斯過程遷移學習框架,可以在不重新訪問任何數(shù)據(jù)的情況下,構建集成變分高斯GP(Gaussian processes)模型。

        Boosting方法在遷移學習中較為常見,通過多次迭代訓練多個弱分類器從而集成輸出為一個強分類器[10]。Zhang等人[11]提出了一種新的加權技術,生成具有加權源域和目標域?qū)嵗募訖嗪铣蓪嵗?。Schapire等人[12]提出了經(jīng)典的AdaBoost(adaptive Boost)算法,在每一次迭代訓練過程中,分類錯誤的樣本權重或提高。更新權重過后的樣本會用于下一個基分類器的訓練。Cortes 等人[13]提出了一種新的集成學習算法DeepBoost,它可以使用包含深度決策樹或其他豐富或復雜的家族成員的假設集作為基分類器,并在不過度擬合數(shù)據(jù)的情況下獲得較高的精度。Dai 等人[14]提出了TrAdaBoost(adaptive Boosting for transfer learning)算法,該算法對于分布不一致的訓練數(shù)據(jù)做了優(yōu)化,可以自動調(diào)整訓練樣本的權重,利用Boosting來區(qū)分分布不一致的訓練數(shù)據(jù)。但由于假設的固定性和高復雜度,TrAdaBoost 存在過擬合的問題,在遷移學習的場景下可能擬合與目標域分布不一致的源域數(shù)據(jù)。為了彌補這一缺陷,Jiang 等人[15]提出了DTrBoost(deep decision tree transfer Boosting)算法,該方法根據(jù)Rademacher復雜度最小化源域和目標域的數(shù)據(jù)依賴學習邊界來學習并分配給基礎學習者,這保證了該算法可以在不過度擬合的情況下學習深度決策樹。周晶雨等人[16]提出了一種可以在源域和目標域的特征空間中過采樣的多源在線遷移學習算法,使用類別分布較為平衡的源域數(shù)據(jù)訓練分類器,從而提升精度。徐光生等人[17]提出了一種借助具有完整模態(tài)的輔助數(shù)據(jù)集,通過跨模態(tài)或跨數(shù)據(jù)集方向的遷移學習來幫助模態(tài)或數(shù)據(jù)集之間的數(shù)據(jù)對齊,從而實現(xiàn)更好的分類效果。林佳偉等人[18]提出一種對抗域適應深度對抗重構分類網(wǎng)絡的遷移學習模型(deep adversarial reconstruction classification networks,DARCN)。DARCN 借鑒了自動編碼器的思想,在對抗域適應的基礎上,增加了自動解碼器的解碼部分,因此可以提高從低維度特征重建原數(shù)據(jù)的效率。在實踐中,對于某數(shù)據(jù)集的數(shù)據(jù)按照某一或某些特征劃分出來的數(shù)據(jù)往往分布不一致。并且這些不同分布的數(shù)據(jù)對于最終模型的重要性也不一致,知識遷移的權重也因此不平等。這就導致了學習的模型收斂速度的下降,同時也導致了學習過程中的振蕩。并且DtrBoost 算法對多源域遷移學習情況適應性不強,在多源域數(shù)據(jù)情況下不能很好地完成分類任務。

        因此,本文提出了一種針對多源域不同分布數(shù)據(jù)的優(yōu)化樣本權重遷移學習算法。該算法使用KL距離(Kullback-Leibler divergence)[19]衡量源域與目標域的距離計算目標函數(shù)的源域權重,從而增強相似的源域目標函數(shù)權重,減少分布距離較大的源域目標函數(shù)權重,將源域分配不同的學習權重可以減小梯度方向的振蕩,加快收斂速度。同時將不同的學習權重賦予不同的源域,使算法適應多源域遷移學習。之后,由目標函數(shù)導出梯度函數(shù),根據(jù)梯度下降最快的方向確定本批次的最佳梯度,并與之前的學習梯度進行對比確定最優(yōu)基分類器,并更新最優(yōu)基分類器權重。完成了最優(yōu)基分類器后按照源域與目標域不同的分布特點,對所有的訓練樣本進行權重更新。

        1 遷移學習簡介

        本章簡要介紹單源域遷移學習算法DtrBoost,DeepBoost 提出了基于Rademacher 復雜度[20]的基分類器集的凸集學習邊界。DTrBoost在不同迭代時從源域數(shù)據(jù)和目標域數(shù)據(jù)中學習不同復雜度的假設族,并對較低復雜度的假設族分配更多的權值,以避免過擬合。

        對于不同的假設集合hj,j∈[1,2,…,N]。{h1,h2,…,hj,…,hN}是一組不同的假設,F(xiàn)W是源域和目標域中數(shù)據(jù)梯度的損失函數(shù),F(xiàn)S為目標域內(nèi)數(shù)據(jù)梯度的損失函數(shù)。具體計算如下:

        其中,αt,j為假設j在第t次迭代中的基分類器權重,Φ是一個非遞增的凸函數(shù)。式(1)、式(2)中的第二部分是假設Rademacher 復雜度的正則化,其中λ和β為參數(shù)。是標準的Rademacher 復雜度。d(ht)表示ht所屬的假設集的索引,即接下來就是訓練的目標函數(shù),目的是最小化FW與FS在ej方向上的梯度差值。

        在第t次迭代中,通過式(4)梯度增強函數(shù)選擇一個新的函數(shù)ht(xi,at)作為當前最優(yōu)的假設。

        其中,ft←ft-1+αtht(x,at)。分別是FW與FS在ej方向上的導數(shù)。然后開始迭代訓練,在每一個迭代次序內(nèi)計算目標域的梯度值為:

        上述算法只能從一個源域中學習知識轉(zhuǎn)移到目標域中,在多個源域的情況下缺乏適應性。下面介紹一種新的多源遷移算法,可以從不同分布的多個源域中按分布相似程度確定知識重要性,增加相似源域樣本權重,減少其余樣本權重,從而減少分類的錯誤率。

        2 多源域分布下的遷移學習

        2.1 問題描述

        在具有多個源域的遷移學習場景中,設X=XS?Xd1?Xd2?…?Xdp為實例空間,其中XS為目標域?qū)嵗臻g,Xdp為p個分布不同的源域?qū)嵗臻g。源域的數(shù)據(jù)空間為Xdk×Ydk,其中1 ≤k≤p。目標域的數(shù)據(jù)空間為Xs×Ys,其中,源域與目標域使用相同的數(shù)據(jù)標簽空間Ydk=Ys=Y={-1,+1}。測試數(shù)據(jù)是與目標域同分布的數(shù)據(jù),記為Q。設q是將X映射到Y的布爾函數(shù),將訓練數(shù)據(jù)L={X×Y} 分成,Ldk為不同源域上的訓練數(shù)據(jù)空間,Ls為目標域的訓練數(shù)據(jù)空間。

        因此,在給定少量帶標記的目標域訓練數(shù)據(jù)Ls和大量帶標記的p個源域訓練數(shù)據(jù)Ld1,Ld2,…,Ldp的情況下,本文的目標是學習一個布爾函數(shù)q從X到Y,使測試集數(shù)據(jù)的預測誤差值最小化。

        源域的訓練數(shù)據(jù)來自p個不同的分布,如果將p個源域數(shù)據(jù)合并視為一個源域,在計算全局梯度的時候,不同源域上的知識重要程度是同等的。然而實際的數(shù)據(jù)相似程度并不一致,會導致相似程度較小的源域知識也同等學習??紤]到源域的相似程度,按照相應的權重學習不同源域的知識,提高相似源域的學習權重,減少相似程度較小源域的學習權重,從而獲得更高的測試精度。

        2.2 多源域分配權重的Boosting遷移學習

        本節(jié)提出一種稱為MtrBoost(multi-source decision tree transfer Boosting)的算法,該算法通過賦予不同源域不同的學習權重計算全局梯度從而提升目標域決策函數(shù)的精確度。

        首先計算KL距離式(7),根據(jù)源域的KL距離確定兩個源域的相似程度。計算距離的統(tǒng)計函數(shù)還有很多,例如Jen-sen Shannon 距離、Hellinger 等距離。只要計算距離的統(tǒng)計函數(shù)是凸函數(shù)且是一個閉函數(shù),都可以用來衡量數(shù)據(jù)分布情況[21]。但這兩種距離都具有上界,KL距離沒有上界,在數(shù)值上可以更為直觀地表達數(shù)據(jù)分布情況。通常情況下[13-15],遷移學習中較為普遍地使用KL距離衡量數(shù)據(jù)分布情況,因此本文也選擇KL距離確定源域與目標域的相似程度。

        其中,Ld(x)是源域上的樣本,Ls(x)是目標域樣本。分別計算出源域Ld1,Ld2,…,Ldp到目標域?qū)腒L距離為KLd1,KLd2,…,KLdp,之后根據(jù)式(8)計算出對應的學習權重ω1,ω2,…,ωp。式(8)可以根據(jù)這p個源域KL距離的大小分配對應的權重,并且滿足ω1+ω2+…+ωp=1的約束。

        其中,1 ≤j≤p,ωj表示第j個源域的學習權重。H={h1,h2,…,hj,…,hN}是N個不同的假設的集合。Qdk是第k個源域上的損失函數(shù),Qta是目標域上的損失函數(shù)。

        其中,n為目標域訓練集Ls上的實例數(shù)目,mk為源域訓練集上第k個源域的實例數(shù)目,w(k)=n+m1+m2+…+mk-1為第k個源域樣本起始位置的映射函數(shù)。xi是輸入的實例,且i∈{1,2,…,n,…,n+m1,…,n+m1+…+mp},yi是xi真實類別。t∈{1,2,…,T}是迭代訓練的次數(shù)。ht(xi,bt)是在第t次迭代時的假設,bt是假設的參數(shù),包括最佳分割特征、剪枝節(jié)點位置。τt是假設ht的權重。ψ是非增凸函數(shù),與DtrBoost一致,這里選擇指數(shù)函數(shù)。式(9)、式(10)的第二部分是正則化后的Rademacher復雜度,rt=,其中f(ht)是將假設ht映射到該假設下標,σ、γ是參數(shù)。

        在得到了源域與目標域的損失函數(shù)后,在源域與目標域總體上的全局損失函數(shù)如下:

        式(11)中,在源域與目標域的損失函數(shù)上增加了對應的權重,從而強調(diào)了目標域的損失。通常情況下目標域的樣本重要程度大于各個源域,各源域的樣本重要程度相對一致。因此本文對于源域分配一定系數(shù)后,各源域平均分配剩下的系數(shù),使得各源域與目標域系數(shù)和為1。本文參考DtrBoost算法,為了保持計算量綱的一致且便于后續(xù)的收斂性分析,對目標域賦予0.5 的系數(shù),剩下的多個源域平均分配0.5 的系數(shù)。對于各個不同的源域也按照KL 距離分別賦予權重,由此可以得到目標函數(shù)。

        對于全部的樣本,使用式(11)進行學習,在方向μj上的導數(shù)可以通過式(13)計算得到。

        至此,在經(jīng)過了t次迭代后,假設集合更新為H={h1,h2,…,hj,…,hN},其中N≤t≤T。之后,計算目標域的梯度導數(shù),在每次的迭代計算過程中,計算在μj方向上的導數(shù),計算步驟與計算全局樣本上的梯度大小一致。

        在搜索到最佳學習者hl后,對hl的權重進行更新。基本的更新學習者權重思路是每次迭代僅更新當前搜索到的最佳學習者hl,并增加hl的權重,其他學習者的權重保持不變,更新公式如下:

        式中,ηt是DtrBoost中提出的步長,可用線性方法計算[15]。在迭代過程的最后階段,對所有的樣本權重進行更新,更新公式與DtrBoost 一致[15],增加目標域中相同分布的樣本權重,減少源域中不同分布的樣本權重。目標域樣本權重更新公式如下:

        各源域樣本的更新公式如下:

        決策函數(shù)只使用了T/2 次迭代之后的分類器權重,在T/2 次迭代之前,源域中不同分布的數(shù)據(jù)的權重沒有減少到非常小的數(shù)量。與目標域?qū)W習梯度方向相比,它將在很大程度上阻礙學習相同的梯度方向。因此,使用T/2 次迭代后的分類器權重可以提高決策函數(shù)輸出的準確性。多源域優(yōu)化權重的遷移學習框架如圖1所示,在這里展示的是兩個源域遷移情況下前4 個迭代過程,分類器數(shù)目為3。三角形樣本為目標域樣本,菱形與正方形表示兩個源域的樣本,樣本的大小表示權重的大小。每次迭代后,都會增加錯誤分類的目標域數(shù)據(jù)的權重,降低錯誤分類的源域數(shù)據(jù)的權重。在下一輪迭代學習時,目標域的錯誤分類的樣本權重增加會使得分類器的權重錯誤率增加,模型在選擇最佳分類器的時候會選擇對該樣本分類情況更好的分類器。相反的,降低錯誤分類的源域數(shù)據(jù)的權重,使得模型選擇最佳分類器的時候降低對于源域分類錯誤的情況的考察,從而變相地提高了目標域分類情況的重要性?;谶@兩個樣本權重更新策略,MtrBoost算法可以逐步地提高目標域的分類準確性。

        圖1 多源域優(yōu)化權重的遷移學習框架Fig. 1 Multi-source weight optimization transfer learning framework

        下面論證本文提出的MtrBoost 算法的收斂性,DtrBoost算法是個單源域的遷移學習框架,而MtrBoost算法是一個多源域的遷移學習模型。

        2.3 MtrBoost算法描述

        算法1MtrBoost算法

        算法的過程可以分為兩部分:第一部分是步驟1處的基分類器的迭代訓練過程,該部分算法時間復雜度記為T1(n)。第二部分是步驟2 處的決策函數(shù)的集成輸出過程,該部分算法時間復雜度記為T2(n)。在第一個訓練過程中又可以分為分類器訓練和訓練樣本權重更新兩個小的步驟,分別位于步驟1.1至步驟1.3,步驟1.4 至步驟1.6。這兩個步驟時間復雜度分別記為T1.1(n)、T1.2(n)。設目標域訓練集Ls的樣本數(shù)目為n,源域訓練集Ld1,Ld2,…,Ldp的樣本數(shù)目分別為m1,m2,…,mp,訓練批次數(shù)目為M,分類器集合數(shù)目為N。

        3 實驗及數(shù)據(jù)分析

        本章對本文提出的算法與基線算法進行性能比較,在多個數(shù)據(jù)集上進行實驗。為了使實驗結果客觀公正,本章實驗評價指標均為進行10 次實驗后的平均值。結果表明,本文算法性能優(yōu)于對比算法。

        3.1 數(shù)據(jù)集簡介

        本文在9個數(shù)據(jù)集上進行了測試,前4個數(shù)據(jù)集來自UCI 數(shù)據(jù)集網(wǎng)站(https://archive.ics.uci.edu/ml/datasets),后5個數(shù)據(jù)集來自Kaggle數(shù)據(jù)網(wǎng)站(https://www.kaggle.com/datasets)。如表1 所示,表中涵蓋了數(shù)據(jù)集特征數(shù)、訓練樣本數(shù)、測試樣本數(shù)。因每個數(shù)據(jù)集按照類別分類下來的數(shù)據(jù)樣本數(shù)目各不相同,為保證從各個類別抽取的總體數(shù)據(jù)樣本數(shù)目大體一致,針對不同數(shù)據(jù)集不同類別設計了不同的抽取比例。

        表1 UCI和Kaggle的9個數(shù)據(jù)集Table 1 Details of 9 datasets for UCI and Kaggle

        Mammographic是一個多元多變量乳腺X射線數(shù)據(jù)集,由埃爾蘭根紐倫堡大學放射性研究中心在2003 年至2008 年間采集。該數(shù)據(jù)集包含了兩類標簽,將惡性腫瘤樣本設置為陽性標簽,良性腫瘤設置為陰性標簽。每一個特征域都包含多個離散類別信息。根據(jù)腫塊的形狀特征的類別情況分為3類,依次分別從3類里抽取50%、25%、15%的樣本,抽取25%、50%、15%的樣本,抽取25%、25%、70%的樣本構成1個目標域與2個源域。

        OCR是一個0到9手寫數(shù)字的圖片數(shù)據(jù)集,原圖像大小尺寸為32×32像素,通過劃分為64個4×4像素的圖像塊進行降維得到8×8 像素的圖像。每個像素特征是0到16的整型灰度信息。根據(jù)手寫數(shù)字的形狀特征,抽取50%的數(shù)字8樣本與20%的數(shù)字6、25%的數(shù)字9樣本作為目標域。抽取60%的數(shù)字6樣本與數(shù)字8、9 各25%的樣本作為第一個源域。抽取50%的數(shù)字9樣本與20%的數(shù)字6、25%的數(shù)字8樣本作為第二個源域。

        BreastCancer 數(shù)據(jù)集的特征是根據(jù)乳房腫塊的細針穿刺(fine needle aspiration,F(xiàn)NA)的數(shù)字化圖像計算得出的,它們描述了圖像中存在的細胞核的特征,從而使得圖片信息降維成12 個維度的多變量分類信息。將每個樣本的灰度值的標準偏差作為特征域紋理特征,從低到高分為3個等級。根據(jù)這3個等級,分別從3 類里抽取50%、25%、25%的樣本,抽取25%、50%、25%的樣本,抽取25%、25%、50%的樣本構成1個目標域與2個源域。

        Wine 數(shù)據(jù)集是紅酒品質(zhì)的分類數(shù)據(jù)集,包括紅酒的固定酸度、殘?zhí)?、酒精度等信息。根?jù)酒精度的高低,依次設置3 個分界點9.5、10.2、11.2,將紅酒分為4 個等級。紅酒的評分以6 為界線,大于6 分為陽性樣例,反之為陰性樣例。根據(jù)這4個等級,分別從4類里抽取55%、15%、15%、20%的樣本,抽取15%、55%、15%、20%的樣本,抽取15%、15%、55%、20%的樣本,抽取15%、15%、15%、40%的樣本構成1個目標域與3個源域。

        Satisfaction 是一個部門員工對職業(yè)滿意度的調(diào)查統(tǒng)計數(shù)據(jù)集。該數(shù)據(jù)集包含員工薪資、部門、學歷、是否對工作滿意等信息。根據(jù)職工的部門不同劃分為4類。根據(jù)這4個類別,分別從4類里抽取46%、13%、18%、18%的樣本,抽取18%、61%、18%、18%的樣本,抽取18%、13%、46%、18%的樣本,抽取18%、13%、18%、46%的樣本構成1個目標域與3個源域。

        TelecomChurn 是一個電信用戶流失信息數(shù)據(jù)集。該數(shù)據(jù)集包含客戶地區(qū)、客戶通話時間、電話推銷次數(shù)等信息。選擇累計通話1、2、6、7 次的客戶作為4 個類別。根據(jù)這4 個類別,分別從4 類里抽取40%、20%、20%、20%的樣本,抽取20%、40%、20%、20%的樣本,抽取20%、20%、40%、20%的樣本,抽取20%、20%、20%、40%的樣本構成1 個目標域與3 個源域。

        Loan數(shù)據(jù)集是一個銀行對于客戶貸款業(yè)務信息的記錄,這些詳細信息包括性別、工作類別、婚姻狀況、教育、家屬人數(shù)、收入、貸款金額、信用記錄、是否通過貸款申請等。將通過貸款申請作為陽性標簽,未通過貸款申請記為陰性。根據(jù)家屬人數(shù)情況,將數(shù)據(jù)集按照家屬人數(shù)遞減順序依次劃分為3類,依次分別從3類里抽取40%、30%、20%的樣本,抽取30%、40%、20%的樣本,抽取30%、30%、60%的樣本構成1個目標域與2個源域。

        HeartAttack 數(shù)據(jù)集記錄了患者的身體狀況信息,包括年齡、性別、最大心率、血壓、胸痛類型,并記錄了患者心臟發(fā)作次數(shù)情況。將發(fā)作高頻度記為陽性標簽,低頻段記為陰性。根據(jù)胸痛類型劃分為典型心絞痛、非典型心絞痛、非心絞痛3 個樣本類別。依次分別從3 類里抽取50%、25%、25%的樣本,抽取25%、50%、25%的樣本,抽取25%、25%、50%的樣本構成1個目標域與2個源域。

        Marketing 是一個營銷情況數(shù)據(jù)集,記錄了客戶年齡、婚姻、職業(yè)、教育程度、是否參與過營銷活動等信息。將客戶成功訂購業(yè)務記為陽性標簽,未成功訂購記為陰性標簽??蛻袈殬I(yè)特征域有多種類別,從中選取藍領職業(yè)、學生、退休人員3 個類別。依次分別從3類里抽取60%、20%、20%的樣本,抽取20%、60%、20%的樣本,抽取20%、20%、60%的樣本構成1個目標域與2個源域。

        本文實驗基于Visual Studio 2019完成,操作系統(tǒng)為Windows 7 64 位,計算機處理器為Intel?CoreTMi7 4710MQ CPU@2.50 GHz,內(nèi)存16 GB。

        3.2 實驗設置

        針對本文實驗的9個不同數(shù)據(jù)集,分別按照各自特征的類別信息特點進行了目標域與源域的劃分,由于數(shù)據(jù)的分布的差異性,源域數(shù)據(jù)與目標域數(shù)據(jù)相似性也不一致。本文使用式(7)對多個源域到目標域的KL距離進行了計算。KL距離計算結果具體情況如表2所示。

        表2 UCI和Kaggle的數(shù)據(jù)集KL距離Table 2 KL divergence of datasets for UCI and Kaggle

        對于算法的樣本權重初始值設定,考慮到普遍通用性[13-15],對于重要性未知的所有訓練樣本應當使用平均權重初始化。本文與DtrBoost算法一致,使用平均權重初始化方法初始化樣本權重。由于各個數(shù)據(jù)的特征類別、特征數(shù)目、樣本分布情況的不一致,模型達到最優(yōu)情況的參數(shù)σ、γ的值也不同,這兩項參數(shù)共同決定了懲罰項的大小與振幅。由于多源域相對于單源域遷移學習而言,知識的遷移從不同分布的數(shù)據(jù)域向目標域遷移,迭代學習過程更為復雜,更容易出現(xiàn)振蕩,為確保梯度計算的量綱一致,懲罰項的大小與Dtrboost算法的懲罰項參數(shù)相比,應當相對變小,從而避免權重更新可能出現(xiàn)的振蕩。因此σ的搜索空間為{10-16,10-17,…,10-20},參數(shù)γ的搜索空間為{2-17,2-18,…,2-20},均小于Dtrboost 算法的搜索空間。本文采用10 次實驗的平均結果,逐步遍歷搜索空間,找到各數(shù)據(jù)集的最佳參數(shù)。以Marketing 數(shù)據(jù)集為例,圖2展示了參數(shù)搜索過程中不同參數(shù)設置對模型平均分類錯誤率的影響。選擇恰當?shù)膮?shù)σ、γ可以使得懲罰項大小與振幅更為合理,使模型更好地選擇最佳的基分類器并增加權重,最終降低集成模型的分類錯誤率。

        圖2 Marketing數(shù)據(jù)集上參數(shù)設置對平均分類錯誤率的影響Fig. 2 Influence of parameter setting on average classification error rate on Marketing dataset

        參數(shù)設置具體情況如表3 所示。實驗的前6 個數(shù)據(jù)集設置了2個源域的遷移學習,后3個數(shù)據(jù)集則設置為3個源域的遷移學習。

        表3 UCI和Kaggle的數(shù)據(jù)集參數(shù)設置Table 3 Parameter setting of datasets for UCI and Kaggle

        本文采用EasyTL、TrAdaBoost、Dtrboost、Dynamic-TrAdaBoost(adaptive Boosting for transfer learning using dynamic updates)[23]這4個主流遷移學習算法作為對比算法。EasyTL算法是一種無需超參數(shù)的遷移學習算法,該算法時間復雜度低,分類精度高。TrAdaBoost 算法是遷移學習中最具有代表性的算法,該算法將AdaBoost算法進行了拓展,使其能夠在遷移學習的場景中使用。Dynamic-TrAdaBoost 算法通過引入動態(tài)因子擴展了算法,使得該算法滿足加權多數(shù)算法的設計預期。由于TrAdaBoost 與Dynamic-TrAdaBoost 算法決策樹深度可調(diào),為了更好地比較算法,將決策樹最大深度為1 的算法記為H1,最大深度為2 的算法記為H2。DTrBoost 算法根據(jù)Rademacher復雜度最小化源域和目標域的數(shù)據(jù)依賴學習邊界來學習并分配給基礎學習者,這保證了該算法可以在不過度擬合的情況下學習深度決策樹。為公平起見,本文所有算法的迭代訓練次數(shù)均為100次。

        3.3 實驗結果

        本文在2 個源域與3 個源域數(shù)據(jù)集上的分類結果分別如表4、表5 所示。加粗數(shù)據(jù)表示在該數(shù)據(jù)集上最低的分類錯誤率,下劃線數(shù)據(jù)表示該組數(shù)據(jù)分類錯誤率的次小值。各個數(shù)據(jù)集上的實驗結果顯示,MtrBoost算法均優(yōu)于各對比方法。對于特征維度較大的OCR 數(shù)據(jù)集,MtrBoost 算法分類錯誤率明顯低于DtrBoost 算法,這是因為MtrBoost 算法具有兩個獨立更新訓練樣本權重的源域,對于不同分布的源域數(shù)據(jù)可以根據(jù)相似性大小區(qū)別地將源域中的知識遷移至目標域。DtrBoost算法只有一個源域,對于源域的訓練樣本權重更新只通過一個更新公式進行更新,導致源域樣本權重的更新不夠準確,從而影響最終的分類精度。對于其余5 個二源域數(shù)據(jù)集,MtrBoost 算法提升的幅度并不是很大。主要是由于劃分的源域到目標域的KL距離不是很大,這就說明源域數(shù)據(jù)分布相對于目標域數(shù)據(jù)分布具有一定的相似度,MtrBoost算法的雙源域樣本權重獨立更新的優(yōu)勢相對被削弱。DtrBoost 算法在這幾個數(shù)據(jù)集上的分類錯誤率并沒有比MtrBoost 算法高出很多,這是因為兩個源域數(shù)據(jù)與目標域數(shù)據(jù)均存在相似度,相對于MtrBoost算法,雙源域獨立更新權重,不同源域的樣本權重在每次更新迭代后差別并不是很大。因此,源域與目標域KL距離的分布情況對于最終的分類錯誤率有一定影響,較大的KL距離可以突出各源域樣本權重獨立更新的優(yōu)勢。對于3 個源域的數(shù)據(jù)集,MtrBoost 算法均比基線對比算法分類效果更好。這說明MtrBoost 算法在3 個源域分布情況的數(shù)據(jù)集上也能很好地完成分類任務。TrAdaBoost、Dynamic-TrAdaBoost 算法每次迭代會更新訓練樣本權重,每次使用新的樣本權重訓練基分類器,在100次迭代后模型節(jié)點數(shù)目均為固定的100個。圖3展示的是100次迭代訓練后的MtrBoost算法模型平均節(jié)點數(shù)目與平均節(jié)點深度。與TrAdaBoost、Dynamic-TrAdaBoost算法對比,所有的模型節(jié)點數(shù)目都沒有達到迭代訓練次數(shù),這說明MtrBoost算法具有自適應能力,每一次迭代訓練并不都是將新訓練的基分類器加入模型中,也可能是選擇已經(jīng)存在的當前梯度最大的基分類器作為最佳分類器并按照分類器權重式(16)增加基分類器的權重。節(jié)點的平均深度說明訓練完的模型中有深度為1和2的兩種基分類器,在不同數(shù)據(jù)集上平均深度并不相同,這也體現(xiàn)了MtrBoost 算法對于不同訓練數(shù)據(jù)的自適應性。這種自適應性使得模型可以增加當前最優(yōu)的基分類器的權重,從而提高最終集成函數(shù)輸出結果中的比重,提高分類的準確性。

        表4 各種算法對于二源域數(shù)據(jù)集的分類錯誤率Table 4 Classification error rates of various algorithms on 2-source domain datasets

        表5 各種算法對于三源域數(shù)據(jù)集的分類錯誤率Table 5 Classification error rates of various algorithms on 3-source domain datasets

        圖3 MtrBoost模型平均節(jié)點數(shù)目與平均節(jié)點深度Fig. 3 MtrBoost model average number of nodes and average depth of nodes

        總的來說,本文提出的MtrBoost 算法分類準確率均高于對比算法。在樣本特征數(shù)目較多、源域到目標域KL 距離較大時性能提升較為明顯。在源域與目標域KL距離不大、樣本維度不多的情況下也有小幅的性能提升。

        4 結束語

        本文提出了一種多源域分布下優(yōu)化權重的遷移學習Boosting方法。同時,根據(jù)不同源域到目標域的KL距離設計了梯度學習函數(shù)。與單源域遷移學習的DtrBoost算法相比,本文算法在每一次迭代訓練后可以獨立更新不同源域的樣本權重,增加誤分類的目標域樣本權重,降低誤分類的源域樣本權重。實驗證明,本文算法較對比算法在整體精確度上實現(xiàn)了更好的性能并且對于不同的訓練數(shù)據(jù)能夠?qū)崿F(xiàn)自適應效果。在將來的改進中,可以使用部分數(shù)據(jù)訓練給目標域數(shù)據(jù)打標簽,從而實現(xiàn)無標簽的目標域訓練數(shù)據(jù)遷移學習。此外,可以根據(jù)源域的KL距離相似程度分別設計源域樣本權重的更新公式,使得模型更快收斂。

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準備好了嗎
        學生天地(2019年32期)2019-08-25 08:55:22
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        国产色a在线观看| 亚洲女同系列在线观看| 久久人妻av无码中文专区| 国产免费人成视频在线观看| 视频一区欧美| 日本韩国黄色三级三级| 成熟妇女毛茸茸性视频| 精品久久久无码人妻中文字幕豆芽 | 最新中文字幕亚洲一区| 人人摸人人搞人人透| 中文字幕无码精品亚洲资源网久久| 中文字幕av无码一区二区三区电影 | 国产在线播放网址| 在线观看免费人成视频国产| 久久er这里都是精品23| 国产人妻久久精品二区三区老狼| 国产激情一区二区三区| 少妇白浆高潮无码免费区| 久久99亚洲综合精品首页| 亚洲一区二区三区成人网| 国产精品毛片无遮挡| 亚洲综合色丁香婷婷六月图片| 亚洲高清一区二区三区在线观看| 青青草中文字幕在线播放| 妺妺窝人体色www看美女| 日韩亚洲欧美中文高清在线| 国产99视频一区二区三区| 国产一区高清在线观看| 激情综合一区二区三区| 精品国产AⅤ一区二区三区V免费| 日本岛国一区二区三区四区| 亚洲中文字幕久久精品无码a| 乱子真实露脸刺激对白| 蜜桃视频中文字幕一区二区三区| 亚洲乱码中文字幕在线播放| 亚洲伊人成综合网| 中出高潮了中文字幕| 久久亚洲免费精品视频| 免费看黑人男阳茎进女阳道视频| 在线视频 亚洲精品| 国产av一区二区日夜精品剧情|