亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于小樣本SVR的遷移學(xué)習(xí)及其應(yīng)用

        2020-04-15 02:58:36鄭沫利趙艷軻
        關(guān)鍵詞:源域集上權(quán)值

        易 未,鄭沫利,趙艷軻,毛 力,孫 俊

        (1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122;2.國貿(mào)工程設(shè)計(jì)院,北京 100037)

        0 引 言

        數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)在許多知識工程(例如分類、回歸和聚類)等領(lǐng)域取得了有意義的成就[1]。但是,很多機(jī)器學(xué)習(xí)算法只有在訓(xùn)練集與測試集數(shù)據(jù)來源于單一場景、具有相同的特征空間和數(shù)據(jù)分布以及樣本數(shù)量充足時,才能取得讓人滿意的實(shí)驗(yàn)結(jié)果。特別地,當(dāng)樣本數(shù)量不足時,容易出現(xiàn)過擬合現(xiàn)象,會顯著地降低學(xué)習(xí)算法的效果[2]。然而在現(xiàn)實(shí)生活中,得到目標(biāo)場景中的大量樣本數(shù)據(jù)是很困難的,例如待觀測的目標(biāo)本身數(shù)量較少且不支持多次觀測;或者是觀測一次成本過高,只能使用現(xiàn)有的少量數(shù)據(jù)。

        加權(quán)ε支持向量回歸(ε-WSVR)算法具有扎實(shí)的理論基礎(chǔ)和較好的泛化能力,應(yīng)用在眾多領(lǐng)域[3-5]。該算法為不同的樣本設(shè)置不同的權(quán)值,給予樣本不同的精度要求和偏離精度要求的懲罰參數(shù),減輕標(biāo)準(zhǔn)支持向量機(jī)對孤立點(diǎn)或噪聲數(shù)據(jù)的敏感性,抑制過擬合現(xiàn)象的產(chǎn)生。

        Bagging算法通過對目標(biāo)數(shù)據(jù)集進(jìn)行數(shù)次有放回地抽樣,形成多個不同的子數(shù)據(jù)集。然后在各個子數(shù)據(jù)集上使用基學(xué)習(xí)器,再將這些基學(xué)習(xí)器進(jìn)行結(jié)合。對于分類任務(wù)采用簡單投票法,對回歸任務(wù)采用簡單平均法,產(chǎn)生一個具有較強(qiáng)泛化能力的模型[6]。

        遷移學(xué)習(xí)技術(shù)把目標(biāo)任務(wù)稱為目標(biāo)域(target),與目標(biāo)任務(wù)相關(guān)聯(lián)的其他任務(wù)稱為源域(domain),通過使用源域的數(shù)據(jù)或者知識來輔助建立目標(biāo)域模型,提高模型的泛化能力[7]。針對分類任務(wù),目前已經(jīng)提出了很多基于遷移學(xué)習(xí)的研究成果,例如Dai等人借用AdaBoosting算法的思想提出了TrAdaBoosting算法,將源域中適合目標(biāo)域模型訓(xùn)練的樣本權(quán)重增加、其他樣本權(quán)重減少[8];Liu等人借用Bagging算法的思想提出了BETL算法,在自助采樣后的子數(shù)據(jù)集上訓(xùn)練的初始分類器對未標(biāo)示數(shù)據(jù)進(jìn)行標(biāo)示,然后用擴(kuò)充了的標(biāo)示數(shù)據(jù)訓(xùn)練未標(biāo)示數(shù)據(jù)[9];Lin等人提出Double-bootstrapping算法,在訓(xùn)練集上使用自助采樣之后又再測試集上使用自助采樣,兩次自助采樣提升模型分類精度[10]。針對回歸任務(wù),史熒中等人使用支持向量回歸機(jī)(SVR)在歷史數(shù)據(jù)和目標(biāo)數(shù)據(jù)上構(gòu)建兩個盡可能相似的回歸超平面,但該方法一旦運(yùn)用到源域數(shù)據(jù)不為目標(biāo)域的歷史數(shù)據(jù)場景時,會給生成模型帶來一定干擾[11];Yu等人提出了改進(jìn)的RMTL算法,使用SVR在源域與目標(biāo)域數(shù)據(jù)上建立兩個回歸超平面模型,組合使用這兩個模型提升泛化能力[12]。

        但以上研究并沒有對小樣本(樣本數(shù)小于30)情況下的遷移回歸進(jìn)行研究。文中針對小樣本數(shù)據(jù)情況下的回歸系統(tǒng)建模問題,提出了一種小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸機(jī)方法,以加權(quán)ε支持向量回歸機(jī)為Bagging算法的基學(xué)習(xí)器,使用與目標(biāo)任務(wù)相關(guān)聯(lián)的源域數(shù)據(jù)來彌補(bǔ)當(dāng)前場景數(shù)據(jù)不足的問題。實(shí)驗(yàn)證明,該方法減少了回歸誤差,提高了目標(biāo)模型的泛化能力。

        1 相關(guān)知識

        1.1 加權(quán)ε支持向量回歸(ε-WSVR)算法

        對于ε支持向量回歸(ε-SVR)算法來說,設(shè)給定的訓(xùn)練樣本集合為D={(x1,y1),…,(xi,yj),…,(xm,ym)},xi∈RN,yi∈R,ε-SVR算法的基本思想是得到一個形如式(1)的回歸模型:

        f(x)=ωT·Φ(x)+b

        (1)

        其中,ω與b是模型的參數(shù),Φ是一個非線性映射,將有限維x映射到一個高維特征空間使訓(xùn)練樣本線性可分,Φ(x)為將x映射后的特征向量。可以使用適當(dāng)?shù)暮撕瘮?shù)κ(xi,xj),使xi與xj在高維特征空間的內(nèi)積等于其在原始樣本空間上內(nèi)積的結(jié)果。

        傳統(tǒng)回歸模型通常當(dāng)且僅當(dāng)模型的輸出f(x)與真實(shí)值y相等時,損失才為零,但是ε-SVR僅當(dāng)|f(x)-y|<ε時,損失才為零。于是ε-SVR可形式化為式(2):

        (2)

        約束條件為:

        f(xi)-yi≤ε+ξi

        (3)

        加權(quán)ε支持向量回歸(ε-WSVR)算法[13]在式(2)的基礎(chǔ)上添加權(quán)值μ,得到式(4):

        (4)

        式(4)可以使用SMO(sequential minimal optimization)算法求解,算法的時間復(fù)雜度為Ο(n2.3)[14]。

        1.1 ε-WSVR算法權(quán)值的確定

        源域中的樣本數(shù)據(jù)與目標(biāo)域中的樣本數(shù)據(jù)越相似,則輔助建立的目標(biāo)域模型泛化能力越好[8]。文中使用樣本間的標(biāo)準(zhǔn)化歐氏距離來定義樣本數(shù)據(jù)的相似情況,則ε-WSVR算法權(quán)值μ按照式(5)來計(jì)算:

        (5)

        其中,l為源域中樣本xi到目標(biāo)域中樣本標(biāo)準(zhǔn)化歐氏距離的列向量,min(l)為該列向量中的距離最小值。所以權(quán)值μ的取值范圍是(0,1]。

        1.3 改進(jìn)的RMTL算法

        設(shè)源域樣本集合為s,目標(biāo)域樣本集合為t,改進(jìn)的RMTL問題可形式化為:

        (6)

        約束條件為:

        fs(xs,i)-ys,i≤εs+ξs,i

        ft(xt,i)-yt,i≤εt+ξt,i

        (7)

        其中λ>0為常數(shù),當(dāng)λ較大時,將會導(dǎo)致源域與目標(biāo)域的回歸向量ω相似;當(dāng)λ較小時,將會導(dǎo)致源域與目標(biāo)域的回歸向量ω不同。

        求解式(6)與式(7)的對偶問題,可得該算法模型為:

        (8)

        2 小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法

        2.1 算法的基本思想

        小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的主要思想是將ε-WSVR算法作為Bagging算法的基學(xué)習(xí)器,使用自助采樣(bootstrap)方法從源域和目標(biāo)域數(shù)據(jù)集中進(jìn)行采樣,得到一系列子數(shù)據(jù)集。然后計(jì)算子數(shù)據(jù)集各個樣本到目標(biāo)域數(shù)據(jù)集中的標(biāo)準(zhǔn)化歐氏距離,得到子數(shù)據(jù)集到目標(biāo)域數(shù)據(jù)集的最小距離,并把這個距離加一的倒數(shù)作為ε-WSVR算法的權(quán)值。最后使用這一系列子學(xué)習(xí)器對測試數(shù)據(jù)進(jìn)行計(jì)算,把子學(xué)習(xí)器結(jié)果的簡單平均值作為小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的結(jié)果。

        2.2 算法流程

        輸入:源域數(shù)據(jù)集source,目標(biāo)域數(shù)據(jù)集target,Bagging算法的基學(xué)習(xí)器個數(shù)T,ε-WSVR算法ζ。

        過程:

        1:fort=1,2,…,Tdo

        2:C=standardizedEuclideanDist(Dbs,target)

        Dbs是source與target上自助采樣產(chǎn)生的樣本集合

        3:C'=min(C)

        C'是Dbs到target數(shù)據(jù)集距離的最小值

        4:ht=ζ(Dbs,target,C')

        5:end forhi

        2.3 算法的時間復(fù)雜度分析

        假設(shè)source數(shù)據(jù)集大小為n,target數(shù)據(jù)集大小為m。Bagging算法的基學(xué)習(xí)器ε-WSVR算法的復(fù)雜度為O((m+n)2.3),自助采樣過程的復(fù)雜度為O(m+n),計(jì)算到target數(shù)據(jù)集距離復(fù)雜度為O(mn),計(jì)算權(quán)值復(fù)雜度為O(m+n)。小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的復(fù)雜度為T*(2*O(m+n)+O(mn)+O((m+n)2.3)),考慮到T通常是一個不太大的常數(shù),因此,小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的時間復(fù)雜度為O((m+n)2.3),與直接使用ε-WSVR算法的復(fù)雜度同階。

        3 實(shí) 驗(yàn)

        文中實(shí)驗(yàn)將使用遼寧、陜西、山西、安徽、江蘇、湖北、湖南、四川和廣東一共九個省份的大米與玉米儲藏環(huán)節(jié)損失情況調(diào)查數(shù)據(jù),以及三個UCI Machine Learning Repository數(shù)據(jù)集(分別是Wine Quality、Student Performance、PM2.5 Data of Five Chinese Cities)對提出的小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法進(jìn)行實(shí)驗(yàn),其中將四個目標(biāo)域數(shù)據(jù)集按照2∶1的比例劃分為訓(xùn)練集與測試集。將分別構(gòu)建以下回歸模型進(jìn)行對比:(1)只使用目標(biāo)域數(shù)據(jù)和標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型(SVR-t);(2)利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)與標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型(SVR-s,t);(3)使用改進(jìn)的RMTL算法基于源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)建立的回歸模型(RMTL-s,t);(4)使用文中方法基于源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)建立的回歸模型(bagg-WSVR)。以上四種回歸模型采用式(9)均方誤差[15]進(jìn)行比較:

        (9)

        實(shí)驗(yàn)環(huán)境:實(shí)驗(yàn)硬件為Intel Core i5-2430M CPU,主頻2.40 GHz,內(nèi)存8 GB,編程環(huán)境為Matlab R2016b與MyEclipse2015。

        3.1 四個數(shù)據(jù)集描述

        Wine Quality數(shù)據(jù)集使用白葡萄酒當(dāng)作源域數(shù)據(jù)集,從紅葡萄酒數(shù)據(jù)集中隨機(jī)選擇30條樣本數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集,quality屬性作為輸出變量;Student Performance數(shù)據(jù)集使用GP學(xué)校的Math當(dāng)作源域數(shù)據(jù)集,從MS學(xué)校的Math數(shù)據(jù)集中隨機(jī)選擇30條樣本數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集,G1、G2與G3屬性的數(shù)值之和作為輸出變量;PM2.5 Data of Five Chinese Cities數(shù)據(jù)集使用北京2014年8月刪除時間屬性當(dāng)作源域數(shù)據(jù)集,從沈陽2014年8月刪除時間屬性數(shù)據(jù)集中隨機(jī)選擇30條樣本數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集,PM_USPost屬性作為輸出變量;糧食儲藏?cái)?shù)據(jù)集使用大米數(shù)據(jù)當(dāng)作源域數(shù)據(jù)集,玉米數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集,儲藏環(huán)節(jié)損失率作為輸出變量。四個數(shù)據(jù)集描述如表1所示。

        表1 四個數(shù)據(jù)集描述

        3.2 四個數(shù)據(jù)集上各個模型的回歸結(jié)果與分析

        wine數(shù)據(jù)集上各個模型的性能比較如表2所示。

        student數(shù)據(jù)集上各個模型的性能比較如表3所示,

        pm2.5數(shù)據(jù)集上各個模型的性能比較如表4所示。

        糧食儲藏?cái)?shù)據(jù)集上各個模型的性能比較如表5所示。

        表2 wine數(shù)據(jù)集上各個模型的性能比較

        表3 student數(shù)據(jù)集上各個模型的性能比較

        表5 糧食儲藏?cái)?shù)據(jù)集上各個模型的性能比較

        由表2到表5可以看出:(1)當(dāng)源域與目標(biāo)域數(shù)據(jù)關(guān)聯(lián)程度很大時,利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)與標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型較只使用目標(biāo)域數(shù)據(jù)和標(biāo)準(zhǔn)ε-SVR算法泛化性能好;當(dāng)源域與目標(biāo)域數(shù)據(jù)有關(guān)聯(lián),但是關(guān)聯(lián)程度不太大時,利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)與標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型較只使用目標(biāo)域數(shù)據(jù)和標(biāo)準(zhǔn)ε-SVR算法泛化性能差,出現(xiàn)了“負(fù)遷移”現(xiàn)象。(2)改進(jìn)的RMTL算法在小樣本數(shù)據(jù)情況下的算法性能很不穩(wěn)定,原因是目標(biāo)域樣本較少,導(dǎo)致標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型過擬合。(3)文中提出的算法在四個數(shù)據(jù)集上有著更好的泛化性能,因?yàn)槲闹兴惴ǜ鶕?jù)源域中與目標(biāo)域樣本的相似程度,給相似樣本賦予更大的權(quán)重?cái)?shù)值;同時訓(xùn)練樣本數(shù)目較大,防止生成模型過擬合現(xiàn)象產(chǎn)生,從而提高了泛化性能。

        4 結(jié)束語

        針對小樣本數(shù)據(jù)情況下的回歸系統(tǒng)建模問題,提出了一種小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸機(jī)建模方法。以加權(quán)ε支持向量回歸機(jī)為Bagging算法的基學(xué)習(xí)器,使用與目標(biāo)任務(wù)相關(guān)聯(lián)的源域數(shù)據(jù),通過自助采樣生成多個子回歸模型,采用簡單平均法合成一個總回歸模型。通過UCI數(shù)據(jù)集與現(xiàn)實(shí)數(shù)據(jù)集——玉米棒與花生粒儲藏環(huán)節(jié)損失數(shù)據(jù)集的驗(yàn)證,結(jié)果表明該算法較標(biāo)準(zhǔn)ε-SVR算法與改進(jìn)的RMTL算法在小數(shù)據(jù)樣本上有更好的表現(xiàn)。但該算法也有一些不足之處:由于采用Bagging算法思想,有放回的抽樣產(chǎn)生子數(shù)據(jù)集造成算法回歸結(jié)果不穩(wěn)定。下一階段將改進(jìn)子數(shù)據(jù)集產(chǎn)生的抽取方法,使源域中與目標(biāo)域相似的樣本更容易被選取,降低結(jié)果的不穩(wěn)定性。

        猜你喜歡
        源域集上權(quán)值
        多源域適應(yīng)方法綜述
        一種融合時間權(quán)值和用戶行為序列的電影推薦模型
        CONTENTS
        基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        復(fù)扇形指標(biāo)集上的分布混沌
        基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
        可遷移測度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
        幾道導(dǎo)數(shù)題引發(fā)的解題思考
        日本精品视频一区二区三区四区| 亚洲AV成人无码国产一区二区| 91精品国产91久久久无码色戒| 国产情侣自拍偷拍精品| 中文乱码字幕精品高清国产| 青春草在线视频免费观看 | 精品人无码一区二区三区| 国产喷白浆精品一区二区| 侵犯了美丽丰满人妻中文字幕| 美女张开腿黄网站免费| 日韩在线一区二区三区免费视频| 久久国产成人亚洲精品影院老金| 成人综合激情自拍视频在线观看| 精品国产一区二区三区三级| 国产激情小视频在线观看的| 日韩人妻大奶子生活片| 日韩av无码中文字幕| 久久人人爽天天玩人人妻精品| 神马不卡一区二区三级| 国产一区二区不卡av| 风韵丰满熟妇啪啪区老熟熟女| 一区二区三区国产亚洲网站| 在线国产视频精品视频| 精品人妻一区二区三区狼人| 久久99国产精品久久99果冻传媒 | 国产av熟女一区二区三区| 囯产精品一品二区三区| 国产精品无码不卡在线播放| 亚洲一区二区三区视频免费看| 人与动牲交av免费| 亚洲精品中文字幕无乱码麻豆| 日韩精品一二区在线视频| 国产亚洲超级97免费视频| 国产伦精品一区二区三区| 国产乱人伦真实精品视频| 日韩精品一区二区亚洲专区| 97久人人做人人妻人人玩精品| 国产精品麻花传媒二三区别| 日产精品一区二区免费| 国产麻豆精品传媒av在线| 亚洲国产成人影院在线播放|