亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于小樣本SVR的遷移學(xué)習(xí)及其應(yīng)用

2020-04-15 02:58:36鄭沫利趙艷軻

計(jì)算機(jī)技術(shù)與發(fā)展 2020年2期

易未，鄭沫利，趙艷軻，毛力，孫俊

(1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院，江蘇無錫 214122；2.國貿(mào)工程設(shè)計(jì)院，北京 100037)

0 引言

數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)在許多知識工程(例如分類、回歸和聚類)等領(lǐng)域取得了有意義的成就[1]。但是，很多機(jī)器學(xué)習(xí)算法只有在訓(xùn)練集與測試集數(shù)據(jù)來源于單一場景、具有相同的特征空間和數(shù)據(jù)分布以及樣本數(shù)量充足時，才能取得讓人滿意的實(shí)驗(yàn)結(jié)果。特別地，當(dāng)樣本數(shù)量不足時，容易出現(xiàn)過擬合現(xiàn)象，會顯著地降低學(xué)習(xí)算法的效果[2]。然而在現(xiàn)實(shí)生活中，得到目標(biāo)場景中的大量樣本數(shù)據(jù)是很困難的，例如待觀測的目標(biāo)本身數(shù)量較少且不支持多次觀測；或者是觀測一次成本過高，只能使用現(xiàn)有的少量數(shù)據(jù)。

加權(quán)ε支持向量回歸(ε-WSVR)算法具有扎實(shí)的理論基礎(chǔ)和較好的泛化能力，應(yīng)用在眾多領(lǐng)域[3-5]。該算法為不同的樣本設(shè)置不同的權(quán)值，給予樣本不同的精度要求和偏離精度要求的懲罰參數(shù)，減輕標(biāo)準(zhǔn)支持向量機(jī)對孤立點(diǎn)或噪聲數(shù)據(jù)的敏感性，抑制過擬合現(xiàn)象的產(chǎn)生。

Bagging算法通過對目標(biāo)數(shù)據(jù)集進(jìn)行數(shù)次有放回地抽樣，形成多個不同的子數(shù)據(jù)集。然后在各個子數(shù)據(jù)集上使用基學(xué)習(xí)器，再將這些基學(xué)習(xí)器進(jìn)行結(jié)合。對于分類任務(wù)采用簡單投票法，對回歸任務(wù)采用簡單平均法，產(chǎn)生一個具有較強(qiáng)泛化能力的模型[6]。

遷移學(xué)習(xí)技術(shù)把目標(biāo)任務(wù)稱為目標(biāo)域(target)，與目標(biāo)任務(wù)相關(guān)聯(lián)的其他任務(wù)稱為源域(domain)，通過使用源域的數(shù)據(jù)或者知識來輔助建立目標(biāo)域模型，提高模型的泛化能力[7]。針對分類任務(wù)，目前已經(jīng)提出了很多基于遷移學(xué)習(xí)的研究成果，例如Dai等人借用AdaBoosting算法的思想提出了TrAdaBoosting算法，將源域中適合目標(biāo)域模型訓(xùn)練的樣本權(quán)重增加、其他樣本權(quán)重減少[8]；Liu等人借用Bagging算法的思想提出了BETL算法，在自助采樣后的子數(shù)據(jù)集上訓(xùn)練的初始分類器對未標(biāo)示數(shù)據(jù)進(jìn)行標(biāo)示，然后用擴(kuò)充了的標(biāo)示數(shù)據(jù)訓(xùn)練未標(biāo)示數(shù)據(jù)[9]；Lin等人提出Double-bootstrapping算法，在訓(xùn)練集上使用自助采樣之后又再測試集上使用自助采樣，兩次自助采樣提升模型分類精度[10]。針對回歸任務(wù)，史熒中等人使用支持向量回歸機(jī)(SVR)在歷史數(shù)據(jù)和目標(biāo)數(shù)據(jù)上構(gòu)建兩個盡可能相似的回歸超平面，但該方法一旦運(yùn)用到源域數(shù)據(jù)不為目標(biāo)域的歷史數(shù)據(jù)場景時，會給生成模型帶來一定干擾[11]；Yu等人提出了改進(jìn)的RMTL算法，使用SVR在源域與目標(biāo)域數(shù)據(jù)上建立兩個回歸超平面模型，組合使用這兩個模型提升泛化能力[12]。

但以上研究并沒有對小樣本(樣本數(shù)小于30)情況下的遷移回歸進(jìn)行研究。文中針對小樣本數(shù)據(jù)情況下的回歸系統(tǒng)建模問題，提出了一種小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸機(jī)方法，以加權(quán)ε支持向量回歸機(jī)為Bagging算法的基學(xué)習(xí)器，使用與目標(biāo)任務(wù)相關(guān)聯(lián)的源域數(shù)據(jù)來彌補(bǔ)當(dāng)前場景數(shù)據(jù)不足的問題。實(shí)驗(yàn)證明，該方法減少了回歸誤差，提高了目標(biāo)模型的泛化能力。

1 相關(guān)知識

1.1 加權(quán)ε支持向量回歸(ε-WSVR)算法

對于ε支持向量回歸(ε-SVR)算法來說，設(shè)給定的訓(xùn)練樣本集合為D={(x1,y1),…,(xi,yj),…,(xm,ym)},xi∈RN,yi∈R,ε-SVR算法的基本思想是得到一個形如式(1)的回歸模型：

f(x)=ωT·Φ(x)+b

(1)

其中，ω與b是模型的參數(shù)，Φ是一個非線性映射，將有限維x映射到一個高維特征空間使訓(xùn)練樣本線性可分，Φ(x)為將x映射后的特征向量。可以使用適當(dāng)?shù)暮撕瘮?shù)κ(xi,xj)，使xi與xj在高維特征空間的內(nèi)積等于其在原始樣本空間上內(nèi)積的結(jié)果。

傳統(tǒng)回歸模型通常當(dāng)且僅當(dāng)模型的輸出f(x)與真實(shí)值y相等時，損失才為零，但是ε-SVR僅當(dāng)|f(x)-y|<ε時，損失才為零。于是ε-SVR可形式化為式(2)：

(2)

約束條件為：

f(xi)-yi≤ε+ξi

(3)

加權(quán)ε支持向量回歸(ε-WSVR)算法[13]在式(2)的基礎(chǔ)上添加權(quán)值μ，得到式(4)：

(4)

式(4)可以使用SMO(sequential minimal optimization)算法求解，算法的時間復(fù)雜度為Ο(n2.3)[14]。

1.1 ε-WSVR算法權(quán)值的確定

源域中的樣本數(shù)據(jù)與目標(biāo)域中的樣本數(shù)據(jù)越相似，則輔助建立的目標(biāo)域模型泛化能力越好[8]。文中使用樣本間的標(biāo)準(zhǔn)化歐氏距離來定義樣本數(shù)據(jù)的相似情況，則ε-WSVR算法權(quán)值μ按照式(5)來計(jì)算：

(5)

其中，l為源域中樣本xi到目標(biāo)域中樣本標(biāo)準(zhǔn)化歐氏距離的列向量，min(l)為該列向量中的距離最小值。所以權(quán)值μ的取值范圍是(0,1]。

1.3 改進(jìn)的RMTL算法

設(shè)源域樣本集合為s，目標(biāo)域樣本集合為t，改進(jìn)的RMTL問題可形式化為：

(6)

約束條件為：

fs(xs,i)-ys,i≤εs+ξs,i

ft(xt,i)-yt,i≤εt+ξt,i

(7)

其中λ>0為常數(shù)，當(dāng)λ較大時，將會導(dǎo)致源域與目標(biāo)域的回歸向量ω相似；當(dāng)λ較小時，將會導(dǎo)致源域與目標(biāo)域的回歸向量ω不同。

求解式(6)與式(7)的對偶問題，可得該算法模型為：

(8)

2 小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法

2.1 算法的基本思想

小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的主要思想是將ε-WSVR算法作為Bagging算法的基學(xué)習(xí)器，使用自助采樣(bootstrap)方法從源域和目標(biāo)域數(shù)據(jù)集中進(jìn)行采樣，得到一系列子數(shù)據(jù)集。然后計(jì)算子數(shù)據(jù)集各個樣本到目標(biāo)域數(shù)據(jù)集中的標(biāo)準(zhǔn)化歐氏距離，得到子數(shù)據(jù)集到目標(biāo)域數(shù)據(jù)集的最小距離，并把這個距離加一的倒數(shù)作為ε-WSVR算法的權(quán)值。最后使用這一系列子學(xué)習(xí)器對測試數(shù)據(jù)進(jìn)行計(jì)算，把子學(xué)習(xí)器結(jié)果的簡單平均值作為小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的結(jié)果。

2.2 算法流程

輸入：源域數(shù)據(jù)集source，目標(biāo)域數(shù)據(jù)集target，Bagging算法的基學(xué)習(xí)器個數(shù)T，ε-WSVR算法ζ。

過程：

1:fort=1,2,…,Tdo

2:C=standardizedEuclideanDist(Dbs,target)

Dbs是source與target上自助采樣產(chǎn)生的樣本集合

3:C'=min(C)

C'是Dbs到target數(shù)據(jù)集距離的最小值

4:ht=ζ(Dbs,target,C')

5:end forhi

2.3 算法的時間復(fù)雜度分析

假設(shè)source數(shù)據(jù)集大小為n，target數(shù)據(jù)集大小為m。Bagging算法的基學(xué)習(xí)器ε-WSVR算法的復(fù)雜度為O((m+n)2.3)，自助采樣過程的復(fù)雜度為O(m+n)，計(jì)算到target數(shù)據(jù)集距離復(fù)雜度為O(mn)，計(jì)算權(quán)值復(fù)雜度為O(m+n)。小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的復(fù)雜度為T*(2*O(m+n)+O(mn)+O((m+n)2.3))，考慮到T通常是一個不太大的常數(shù)，因此，小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的時間復(fù)雜度為O((m+n)2.3)，與直接使用ε-WSVR算法的復(fù)雜度同階。

3 實(shí) 驗(yàn)

文中實(shí)驗(yàn)將使用遼寧、陜西、山西、安徽、江蘇、湖北、湖南、四川和廣東一共九個省份的大米與玉米儲藏環(huán)節(jié)損失情況調(diào)查數(shù)據(jù)，以及三個UCI Machine Learning Repository數(shù)據(jù)集(分別是Wine Quality、Student Performance、PM2.5 Data of Five Chinese Cities)對提出的小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法進(jìn)行實(shí)驗(yàn)，其中將四個目標(biāo)域數(shù)據(jù)集按照2∶1的比例劃分為訓(xùn)練集與測試集。將分別構(gòu)建以下回歸模型進(jìn)行對比：(1)只使用目標(biāo)域數(shù)據(jù)和標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型(SVR-t)；(2)利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)與標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型(SVR-s,t)；(3)使用改進(jìn)的RMTL算法基于源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)建立的回歸模型(RMTL-s,t)；(4)使用文中方法基于源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)建立的回歸模型(bagg-WSVR)。以上四種回歸模型采用式(9)均方誤差[15]進(jìn)行比較：

(9)

實(shí)驗(yàn)環(huán)境：實(shí)驗(yàn)硬件為Intel Core i5-2430M CPU，主頻2.40 GHz，內(nèi)存8 GB，編程環(huán)境為Matlab R2016b與MyEclipse2015。

3.1 四個數(shù)據(jù)集描述

Wine Quality數(shù)據(jù)集使用白葡萄酒當(dāng)作源域數(shù)據(jù)集，從紅葡萄酒數(shù)據(jù)集中隨機(jī)選擇30條樣本數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集，quality屬性作為輸出變量；Student Performance數(shù)據(jù)集使用GP學(xué)校的Math當(dāng)作源域數(shù)據(jù)集，從MS學(xué)校的Math數(shù)據(jù)集中隨機(jī)選擇30條樣本數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集，G1、G2與G3屬性的數(shù)值之和作為輸出變量；PM2.5 Data of Five Chinese Cities數(shù)據(jù)集使用北京2014年8月刪除時間屬性當(dāng)作源域數(shù)據(jù)集，從沈陽2014年8月刪除時間屬性數(shù)據(jù)集中隨機(jī)選擇30條樣本數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集，PM_USPost屬性作為輸出變量；糧食儲藏?cái)?shù)據(jù)集使用大米數(shù)據(jù)當(dāng)作源域數(shù)據(jù)集，玉米數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集，儲藏環(huán)節(jié)損失率作為輸出變量。四個數(shù)據(jù)集描述如表1所示。

表1 四個數(shù)據(jù)集描述

3.2 四個數(shù)據(jù)集上各個模型的回歸結(jié)果與分析

wine數(shù)據(jù)集上各個模型的性能比較如表2所示。

student數(shù)據(jù)集上各個模型的性能比較如表3所示，

pm2.5數(shù)據(jù)集上各個模型的性能比較如表4所示。

糧食儲藏?cái)?shù)據(jù)集上各個模型的性能比較如表5所示。

表2 wine數(shù)據(jù)集上各個模型的性能比較

表3 student數(shù)據(jù)集上各個模型的性能比較

表5 糧食儲藏?cái)?shù)據(jù)集上各個模型的性能比較

由表2到表5可以看出：(1)當(dāng)源域與目標(biāo)域數(shù)據(jù)關(guān)聯(lián)程度很大時，利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)與標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型較只使用目標(biāo)域數(shù)據(jù)和標(biāo)準(zhǔn)ε-SVR算法泛化性能好；當(dāng)源域與目標(biāo)域數(shù)據(jù)有關(guān)聯(lián)，但是關(guān)聯(lián)程度不太大時，利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)與標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型較只使用目標(biāo)域數(shù)據(jù)和標(biāo)準(zhǔn)ε-SVR算法泛化性能差，出現(xiàn)了“負(fù)遷移”現(xiàn)象。(2)改進(jìn)的RMTL算法在小樣本數(shù)據(jù)情況下的算法性能很不穩(wěn)定，原因是目標(biāo)域樣本較少，導(dǎo)致標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型過擬合。(3)文中提出的算法在四個數(shù)據(jù)集上有著更好的泛化性能，因?yàn)槲闹兴惴ǜ鶕?jù)源域中與目標(biāo)域樣本的相似程度，給相似樣本賦予更大的權(quán)重?cái)?shù)值；同時訓(xùn)練樣本數(shù)目較大，防止生成模型過擬合現(xiàn)象產(chǎn)生，從而提高了泛化性能。

4 結(jié)束語

針對小樣本數(shù)據(jù)情況下的回歸系統(tǒng)建模問題，提出了一種小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸機(jī)建模方法。以加權(quán)ε支持向量回歸機(jī)為Bagging算法的基學(xué)習(xí)器，使用與目標(biāo)任務(wù)相關(guān)聯(lián)的源域數(shù)據(jù)，通過自助采樣生成多個子回歸模型，采用簡單平均法合成一個總回歸模型。通過UCI數(shù)據(jù)集與現(xiàn)實(shí)數(shù)據(jù)集——玉米棒與花生粒儲藏環(huán)節(jié)損失數(shù)據(jù)集的驗(yàn)證，結(jié)果表明該算法較標(biāo)準(zhǔn)ε-SVR算法與改進(jìn)的RMTL算法在小數(shù)據(jù)樣本上有更好的表現(xiàn)。但該算法也有一些不足之處：由于采用Bagging算法思想，有放回的抽樣產(chǎn)生子數(shù)據(jù)集造成算法回歸結(jié)果不穩(wěn)定。下一階段將改進(jìn)子數(shù)據(jù)集產(chǎn)生的抽取方法，使源域中與目標(biāo)域相似的樣本更容易被選取，降低結(jié)果的不穩(wěn)定性。