亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自步學(xué)習(xí)多元回歸分析

        2018-12-22 08:06:00甘江璋趙樹之
        關(guān)鍵詞:模型

        甘江璋,鐘 智,余 浩,雷 聰,趙樹之

        (1.廣西師范大學(xué) 廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004;2.廣西師范學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,廣西 南寧 530023)

        0 引 言

        多元回歸問題在現(xiàn)實(shí)應(yīng)用中普遍存在,而且常用高維特征數(shù)據(jù)進(jìn)行描述,但離群樣本和高維屬性都會影響多元回歸分析的準(zhǔn)確度和效率[1-3]。所以,如何處理離群樣本和高維數(shù)據(jù)對于建立有效可靠多元回歸模型具有重要的研究價值。

        現(xiàn)有處理高維數(shù)據(jù)的方法有子空間學(xué)習(xí)[4]和屬性選擇兩種[5]。屬性選擇方法既可以保持?jǐn)?shù)據(jù)的原有功能,又提高了算法的效率[6]。而處理離群樣本的方法主要有基于距離方法[7]和基于聚類的方法[8]等,基于聚類的方法主要通過將遠(yuǎn)離類簇的少數(shù)樣本判定為離群樣本?;诰嚯x的方法將與數(shù)據(jù)集中大部分樣本距離大于閾值的樣本判為離群樣本,從而達(dá)到處理離群樣本的目的。

        然而,現(xiàn)有的回歸分析算法只是單一考慮其中一種因素的影響(離群樣本或高維大數(shù)據(jù)),因此在本文提出了一種基于自步學(xué)習(xí)多元回歸分析算法(multiple regression analysis based on self-paced learning,SPM_RS)來同時處理高維大數(shù)據(jù)和離群樣本,以此來獲得更好的效果。具體地,首先利用自步學(xué)習(xí)方法對數(shù)據(jù)中的訓(xùn)練樣本進(jìn)行選擇,有效避免離群樣本帶來的影響,然后引入稀疏學(xué)習(xí)理論,使用可以導(dǎo)致行稀疏的2,1范數(shù)進(jìn)行屬性選擇。經(jīng)實(shí)驗(yàn)驗(yàn)證,結(jié)合了自步學(xué)習(xí)和稀疏屬性選擇的多元回歸分析方法在應(yīng)用中各項(xiàng)評價指標(biāo)均優(yōu)于對比算法。

        1 相關(guān)理論背景

        1.1 多元分析

        多元回歸分析是研究多個變量之間相關(guān)關(guān)系的一種重要統(tǒng)計(jì)分析方法,因其堅(jiān)實(shí)的內(nèi)在理論基礎(chǔ)被廣泛應(yīng)用于自然科學(xué),社會科學(xué)和應(yīng)用技術(shù)中等領(lǐng)域[9]。

        假設(shè)樣本xi由d個屬性來描述,回歸分析的本質(zhì)就是試圖學(xué)到一個模型盡可能的預(yù)測出樣本標(biāo)簽yi,使用最小二乘法對樣本標(biāo)簽yi進(jìn)行線性回歸擬合,這樣可以得到模型

        f(xi)=xiW+b

        (1)

        其中,W表示回歸模型參數(shù),b表示模型偏差項(xiàng)。

        在實(shí)際任務(wù)中,為了使模型盡可能更好擬合原始數(shù)據(jù),需要模型的擬合誤差盡可能的小。但是在多元回歸問題中,高維大數(shù)據(jù)普遍存在,會使回歸模型出現(xiàn)過擬合的問題。為了緩解模型的過擬合,常在多元回歸模型中引入稀疏學(xué)習(xí)理論[10]。

        在稀疏學(xué)習(xí)的基本理論中,通過稀疏正則化項(xiàng)對回歸模型參數(shù)W進(jìn)行稀疏假設(shè),并使用訓(xùn)練數(shù)據(jù)對W進(jìn)行擬合,則可以得到模型

        (2)

        其中,φ(W)為稀疏正則化項(xiàng),α表示調(diào)節(jié)參數(shù)用來平衡擬合損失函數(shù)項(xiàng)和稀疏正則化項(xiàng),n為樣本數(shù)。

        在稀疏學(xué)習(xí)中,正則化項(xiàng)通常選擇能夠凸優(yōu)化求解的范數(shù)[14]。其中1范數(shù)具有較強(qiáng)的稀疏性,2范數(shù)具有防止損失函數(shù)過度擬合。而2,1范數(shù)融合了兩者之間優(yōu)點(diǎn),既有1范數(shù)稀疏性的特點(diǎn)又有2范數(shù)防止過度擬合的特點(diǎn)。因此本文采用2,1范數(shù)作為稀疏正則化項(xiàng)進(jìn)行對W行稀疏處理,排除冗余信息和不相關(guān)的屬性,從而提升算法效率。

        1.2 自步學(xué)習(xí)簡介

        自步學(xué)習(xí)[11]是一種模擬人的認(rèn)知機(jī)理的機(jī)器學(xué)習(xí)方法,人類對事物的認(rèn)識都是從簡單的知識過度到復(fù)雜知識。我們在機(jī)器學(xué)習(xí)的模型中引入這一機(jī)制,利用自步學(xué)習(xí)的方法首先學(xué)習(xí)簡單樣本再逐步將復(fù)雜的樣本納入訓(xùn)練當(dāng)中。

        給定一個數(shù)據(jù)集E(xi,yi)有n個樣本,xi表示一個樣本,yi表示與該樣本對應(yīng)的類標(biāo)簽,W表示模型需要優(yōu)化的參數(shù),r(W)為參數(shù)的正則化項(xiàng)。用損失函數(shù)L(xi,yi,W)來表示樣本的“難易”程度,則可以得到傳統(tǒng)的機(jī)器學(xué)習(xí)目標(biāo)函數(shù)

        (3)

        自步學(xué)習(xí)的核心思想在于每一次的迭代都傾向于選擇“簡單”的樣本來更新模型參數(shù)[12]。每次迭代選擇的樣本數(shù)量由自步學(xué)習(xí)參數(shù)來確定,通過逐次增加自步學(xué)習(xí)參數(shù)將更多的訓(xùn)練樣本納入訓(xùn)練當(dāng)中。因此,自步學(xué)習(xí)在傳統(tǒng)的機(jī)器學(xué)習(xí)目標(biāo)函數(shù)中引入一個變量v用以表征樣本是否被選擇的程度,則自步學(xué)習(xí)的目標(biāo)函數(shù)為

        (4)

        其中,f(v,λ)為自步正則化項(xiàng),λ為自步正則化參數(shù),用于控制哪些樣本被選擇,如果λ的值較小,目標(biāo)函數(shù)的優(yōu)化過程就傾向于選擇L(·)較小的樣本。隨著迭代次數(shù)的增加,逐步增大λ的值,將更多的樣本納入訓(xùn)練。

        這種迭代優(yōu)化的策略在當(dāng)使用固定的W更新v的時候,將損失小于閾值λ的樣本作為“簡單”樣本,并選擇這些“簡單”樣本進(jìn)行訓(xùn)練。當(dāng)用固定的v來更新W的時候,只對所選擇的“簡單”樣本進(jìn)行訓(xùn)練,得到模型參數(shù)W。其中λ也相當(dāng)于模型的“年齡參數(shù)”,隨著λ值的增加,那些“復(fù)雜”的樣本也會被選擇,這樣模型也會變得更加成熟,泛化能力更強(qiáng)。

        2 算法描述和優(yōu)化

        2.1 算法描述

        給定一個訓(xùn)練數(shù)據(jù)集X=[x1,x2,…,xn]∈Rn×d,n表示樣本數(shù)量,d表示屬性維度。Y∈Rn×c表示樣本類標(biāo)簽,c表示樣本對應(yīng)的類數(shù)。使用最小二乘法來擬合模型參數(shù)和數(shù)據(jù),得到如下模型

        (5)

        大部分?jǐn)?shù)據(jù)中普遍存在不相關(guān)信息和離群值,會對實(shí)驗(yàn)結(jié)果造成一定影響。所以,找到一個合適的規(guī)則化項(xiàng)對于提高算法性能有很大的作用。2,1范數(shù)既有良好的行稀疏性,又能防止模型的過擬合,對于去除一些冗余信息有很好的效果。本文采用2,1范數(shù)對重構(gòu)系數(shù)矩陣進(jìn)行稀疏,得到的模型為

        (6)

        其中,α為稀疏正則化參數(shù),α越大則矩陣越稀疏。

        在傳統(tǒng)的機(jī)器學(xué)習(xí)模型訓(xùn)練過程中通常會將所有樣本一次加入到訓(xùn)練中,這樣的學(xué)習(xí)方式?jīng)]有充分考慮到噪聲給模型訓(xùn)練帶來的影響,因此在本文中采用自步學(xué)習(xí)的方法有意義的對樣本進(jìn)行選擇,這樣得到的目標(biāo)函數(shù)如下所示

        (7)

        SPM_RS算法的偽代碼如下:

        算法1: SPM_RS算法偽代碼

        輸入: 訓(xùn)練樣本X∈Rn×d,Y∈Rn×c控制參數(shù)α,λ。

        輸出: aCC

        (1)初始化t=1。

        (2)初始化矩陣D∈Rd×d,v∈R1×n。

        (3)通過式(13)求解W。

        (4)根據(jù)得到的W,更新Dt,計(jì)算λ。

        (5)根據(jù)λ值,更新v。

        (6)t=t+1,重復(fù)步驟(3)~(6)。

        (7)直到式 (8) 收斂。

        (8)最后,對新的屬性集構(gòu)成的樣本使用SVR進(jìn)行回歸分析。

        2.2 算法優(yōu)化

        本節(jié)對文中提出的目標(biāo)函數(shù)進(jìn)行優(yōu)化

        (8)

        目標(biāo)函數(shù)存在兩個變量,所以本文采用交替優(yōu)化方法。

        定義一個對角矩陣D

        (9)

        (1)固定v,優(yōu)化W:固定v后,目標(biāo)函數(shù)變?yōu)?/p>

        (10)

        為方便優(yōu)化將式(10)寫成如下所示

        (11)

        對式(11)中W求導(dǎo)可得

        (12)

        最終求出的結(jié)果為

        W=(GTG+αD)-1GTQ

        (13)

        (2)固定W,優(yōu)化v問題變成

        (14)

        (15)

        對式(15)求導(dǎo)可得最優(yōu)解

        (16)

        2.3 算法收斂性證明

        根據(jù)算法2可得第t次迭代的W(t+1)

        (17)

        由式(17)可得

        (18)

        將對角矩陣D代入式(18)可得

        (19)

        對于W(t)和W(t+1)的每一行,可以得到下列不等式

        (20)

        對上述不等式乘以控制參數(shù)α,并累加得到

        (21)

        最后,結(jié)合不等式(18)和式(20)就可以得到

        (22)

        根據(jù)上述不等式可以得出,目標(biāo)函數(shù)的值在迭代的過程中是單調(diào)遞減的,所以SPM_RS算法可以收斂到當(dāng)前選擇樣本下的最優(yōu)解。

        3 實(shí)驗(yàn)結(jié)果和分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集和對比算法

        本文使用6個數(shù)據(jù)集來測試算法在回歸分析上的性能。數(shù)據(jù)集來源于UCI[16],信息統(tǒng)計(jì)見表1。

        本文通過與4種優(yōu)秀對比算法的實(shí)驗(yàn)結(jié)果比較來評估提出的算法:LSG21[17]方法,CSFS[18],SLRR[6]和RSR[19]方法。在實(shí)驗(yàn)中使用平均相關(guān)系數(shù)(average correlation coefficient,aCC)來評估回歸的準(zhǔn)確性。

        表1 數(shù)據(jù)集信息統(tǒng)計(jì)

        3.2 實(shí)驗(yàn)結(jié)果和分析

        實(shí)驗(yàn)中的對比算法和SPM_RS算法均采用十折交叉驗(yàn)證來對比算法性能,在每一折中再進(jìn)行5折交叉驗(yàn)證,并且使用SVR學(xué)習(xí)訓(xùn)練得到回歸模型。

        SPM_RS算法與對比算法在6個數(shù)據(jù)集上每一折的aCC對比如圖1~圖6所示。由于十折交叉驗(yàn)證的隨機(jī)性,所以SPM_RS算法并不是在每一折上都是最好的,但是10次實(shí)驗(yàn)結(jié)果大部分都高于對比算法,最后的平均aCC也優(yōu)于對比算法。

        圖1 數(shù)據(jù)集EDM

        圖2 數(shù)據(jù)集ATP1d

        圖3 數(shù)據(jù)集ATP7d

        圖4 數(shù)據(jù)集OES10

        圖5 數(shù)據(jù)集sf1

        圖6 數(shù)據(jù)集OES97

        在表2中的數(shù)據(jù)可以看出,SPM_RS算法的平均aCC在6個數(shù)據(jù)集上與另外的4種對比算法的平均aCC進(jìn)行了比較。在6個數(shù)據(jù)集上SPM_RS算法獲得了最高的aCC。具體的,在EDM數(shù)據(jù)集上SPM_RS算法取得了最好的79.83%,比LSG21高出了7.85%,比CSFS,SLRR,RSR分別高出4.2%6.38%,6.88%。在數(shù)據(jù)集ATP7d上SPM_RS算法的aCC是87.13%,相對于其它對比算法分別高出8.29%,10.13%,7.22%,11.39%。在sf1數(shù)據(jù)集上SPM_RS算法比對算法提高了5.92%,4.9%,13.38%,3.61%。其中在OES97上提高的最多,高出了13.38%。在所有的數(shù)據(jù)集中,SPM_RS算法也比對比算法高出7.21%,7.11%,5.79%,5.88%??梢奡PM_RS算法在回歸實(shí)驗(yàn)上取得了明顯的效果。

        表2 aCC統(tǒng)計(jì)結(jié)果/%

        實(shí)驗(yàn)結(jié)果表明SPM_RS算法在性能上優(yōu)于4個對比算法。與SPM_RS相比,4個對比算法都沒有采取有效的方法對樣本進(jìn)行選擇,無法避免噪聲和離群樣本對回歸模型的影響,從而影響模型的穩(wěn)定性和準(zhǔn)確性。本文算法不僅有效避免了噪聲樣本的影響,還保留了提取后的重要屬性,使得算法擁有更好的性能。

        4 結(jié)束語

        本文提出了一種結(jié)合了基于自步學(xué)習(xí)多元回歸分析算法(SPM_RS算法)用于回歸分析。基于基本線性回歸模型,利用自步學(xué)習(xí)選擇訓(xùn)練樣本,再結(jié)合稀疏屬性選擇理論對樣本的重要屬性進(jìn)行選取。因此算法融合了自步學(xué)習(xí)和稀疏學(xué)習(xí),既考慮了高維大數(shù)據(jù)對多元回歸模型的影響,同時又有效避免了離群樣本對模型訓(xùn)練帶來的干擾。實(shí)驗(yàn)結(jié)果表明SPM_RS算法在回歸分析中取得了較好的效果。在今后的研究中,我們嘗試將自步學(xué)習(xí)引入其它的機(jī)器學(xué)習(xí)模型中來擴(kuò)展自步需學(xué)習(xí)的應(yīng)用范圍。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        天堂网日韩av在线播放一区| 国产精品99久久久久久98AV| www.尤物视频.com| 亚洲一区二区在线观看av| 国产精品久久久爽爽爽麻豆色哟哟| 中国凸偷窥xxxx自由视频妇科| 精品 无码 国产观看| 国产精品亚洲精品日韩动图| 亚洲高清中文字幕视频| 又大又粗又爽的少妇免费视频| 国产精选免在线观看| 丝袜美腿亚洲综合玉足| 痴汉电车中文字幕在线| 日韩国产成人无码av毛片蜜柚| 久久精品国产亚洲vr| 99精品又硬又爽又粗少妇毛片| 无遮挡很爽很污很黄的女同| 无码国模国产在线观看| 无码日韩人妻AV一区免费| 日本一区二区高清视频在线| 亚洲啪啪视频一区二区| 东京热加勒比无码少妇| 男女好痛好深好爽视频一区| 久久国产精品亚洲我射av大全 | 99在线精品视频在线观看| 久久久久无码国产精品不卡 | 有码精品一二区在线| 亚洲精品一区二区三区国产| 日韩在线观看入口一二三四 | 亚洲中文久久精品无码| 亚洲国产精品嫩草影院久久| 极品新娘高清在线观看| 久久久久亚洲av成人人电影| 制服丝袜人妻中文字幕在线| 日本岛国精品中文字幕| 日韩免费精品在线观看| 久久久亚洲欧洲日产国码αv| 在线欧美精品二区三区| 日韩男女av中文字幕| 无码人妻精品一区二区三区东京热| 无码专区久久综合久中文字幕|