劉 毅
(華北水利水電大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,鄭州 450046)
回歸分析是廣泛使用的統(tǒng)計(jì)方法之一,可了解結(jié)果與一組協(xié)變量的關(guān)聯(lián)。但現(xiàn)代統(tǒng)計(jì)分析以高維統(tǒng)計(jì)為主,即統(tǒng)計(jì)模型中有較多參數(shù),在高維回歸分析中表現(xiàn)為自變量的個(gè)數(shù)遠(yuǎn)大于樣本數(shù)。經(jīng)典的處理方法是充分利用先驗(yàn)信息,如稀疏性來(lái)提取最相關(guān)的某些變量參數(shù)(如Lasso估計(jì)[1]、彈性網(wǎng)絡(luò)、嶺回歸等)。高維問(wèn)題的特點(diǎn)是變量較多,但用于研究的目標(biāo)數(shù)據(jù)量較少,達(dá)不到研究需要的樣本量,導(dǎo)致建立的模型或算法在實(shí)際應(yīng)用中難以表現(xiàn)出較好的性能。解決此類(lèi)問(wèn)題的有效方法是遷移學(xué)習(xí)[2],它將一些有用的信息從相似的任務(wù)遷移到原始任務(wù),以達(dá)到較好的學(xué)習(xí)及預(yù)測(cè)效果,即將一些與目標(biāo)模型相關(guān)且樣本量足夠的數(shù)據(jù)作為輔助樣本進(jìn)行研究,可有效解決高維回歸問(wèn)題。遷移學(xué)習(xí)得到了廣泛應(yīng)用,例如在某些生物或醫(yī)學(xué)研究,由于倫理或成本問(wèn)題難以獲得生物學(xué)或臨床結(jié)果,可利用遷移學(xué)習(xí)從不同但相關(guān)的生物學(xué)結(jié)果中收集信息,提高結(jié)果的預(yù)測(cè)性及估計(jì)性。還可用于商品推薦[3],許多網(wǎng)絡(luò)平臺(tái)都希望通過(guò)預(yù)測(cè)客戶(hù)購(gòu)買(mǎi)可能性來(lái)向其推薦個(gè)性化商品,但每個(gè)客戶(hù)的歷史采購(gòu)數(shù)據(jù)有限,可將客戶(hù)點(diǎn)擊數(shù)據(jù)作為輔助數(shù)據(jù),通過(guò)遷移學(xué)習(xí)來(lái)對(duì)購(gòu)買(mǎi)任務(wù)進(jìn)行預(yù)測(cè)。學(xué)者對(duì)其具體應(yīng)用進(jìn)行了深入研究,Pan[4]等研究了其在客戶(hù)評(píng)論分類(lèi)中的應(yīng)用,Hajiramezanali[5]等研究了其在醫(yī)療診斷中的應(yīng)用,Wang[6]等研究了拼車(chē)平臺(tái)中的乘車(chē)調(diào)度問(wèn)題。Ma[7]等對(duì)輔助樣本及目標(biāo)樣本的高維問(wèn)題進(jìn)行探討,分析了多源高維線(xiàn)性回歸問(wèn)題。還有人提出了幾種L1懲罰或約束的最小化方法,將其用于高維線(xiàn)性回歸的預(yù)測(cè)及估計(jì)[8-10]。Bastani[3]等利用高維統(tǒng)計(jì)技術(shù)提出了一種結(jié)合大量輔助數(shù)據(jù)及少量目標(biāo)數(shù)據(jù)的新型兩步估計(jì)器。Li Sai[11]等考慮在遷移學(xué)習(xí)的基礎(chǔ)上使用一些來(lái)自不同但可能相關(guān)的回歸模型輔助樣本及目標(biāo)模型樣本對(duì)目標(biāo)模型進(jìn)行參數(shù)估計(jì)及預(yù)測(cè)分析。Tian[12]等研究了高維廣義線(xiàn)性模型(GLM)下的遷移學(xué)習(xí)問(wèn)題。本研究分析了處理高維線(xiàn)性回歸模型參數(shù)估計(jì)問(wèn)題的幾種遷移學(xué)習(xí)算法,對(duì)其性能進(jìn)行評(píng)估及比較。
考慮高維線(xiàn)性回歸模型中的遷移學(xué)習(xí),目標(biāo)模型可寫(xiě)成:
(1)
(2)
其中,w(k)∈p是第k次研究的真實(shí)系數(shù)向量,是隨機(jī)噪聲,使得回歸系數(shù)w(k)未知,且與目標(biāo)β是不同的。利用目標(biāo)數(shù)據(jù)及第k個(gè)輔助數(shù)據(jù)來(lái)研究模型(1)。
輔助樣本是在對(duì)目標(biāo)模型進(jìn)行參數(shù)估計(jì)時(shí)提供一些有用信息的樣本,因此用于輔助研究的輔助模型與目標(biāo)模型之間具有一定的相似性。輔助樣本具有信息性的前提是該輔助模型與目標(biāo)模型相似。使用w(k)與β之間的差異稀疏性來(lái)表示第k個(gè)輔助研究的信息水平。設(shè)δ(k)=β-w(k)表示w(k)與β之間的差異性。信息輔助樣本是差異性足夠稀疏的樣本,即w(k)與β之間的差大部分為零。用集合A0來(lái)表示信息輔助樣本集:
(3)
對(duì)于一個(gè)向量α=(α1,α2,…,αp)T∈p,定義幾種范數(shù)如下:為α中非零元素的個(gè)數(shù),
彈性網(wǎng)算法是一種綜合Lasso回歸與嶺回歸的回歸算法。在Lasso回歸進(jìn)行變量選擇時(shí),有時(shí)會(huì)篩掉某些對(duì)研究有利的變量,而利用嶺回歸研究問(wèn)題則不能保證稀疏假設(shè)。故考慮利用遷移彈性網(wǎng)算法來(lái)研究高維線(xiàn)性回歸問(wèn)題。該算法利用輔助數(shù)據(jù)對(duì)輔助模型的回歸參數(shù)進(jìn)行估計(jì),利用L1與L2懲罰項(xiàng),利用目標(biāo)數(shù)據(jù)及估計(jì)出的輔助模型回歸參數(shù)對(duì)目標(biāo)模型參數(shù)進(jìn)行估計(jì)。
算法1:遷移彈性網(wǎng)算法
計(jì)算
(4)
令
(5)
其中,
(6)
算法2:Orcale Trans-Lasso算法
計(jì)算
(7)
令
(8)
其中,
(9)
算法2通過(guò)對(duì)輔助模型的回歸系數(shù)w(k)及其與目標(biāo)模型的回歸系數(shù)β之間的差距δ(k)的估計(jì)得到結(jié)果,但估計(jì)量與真實(shí)值之間總是存在一定的差距,為了縮小這個(gè)差距,引入一個(gè)新的量γ(k)=β-w(k)-δ(k),表示w(k)+δ(k)與β之間的差距,將輔助數(shù)據(jù)與真實(shí)數(shù)據(jù)回歸系數(shù)之間的差距分為更詳細(xì)的兩部分進(jìn)行估計(jì),得到更精確的結(jié)果。在聯(lián)合Lasso算法中,信息輔助樣本集合更新為:
(10)
算法3:聯(lián)合Trans-Lasso算法
計(jì)算
(11)
計(jì)算
(12)
令
(13)
(14)
圖2 聯(lián)合Trans-Lasso、Orcale Trans-Lasso及Lasso的估計(jì)誤差Fig.2 Estimation error of combined Trans-Lasso, Orcale Trans-Lasso and Lasso
圖1與圖2的橫坐標(biāo)代表信息輔助樣本集A0的不同取值,縱坐標(biāo)表示各種算法在對(duì)模型參數(shù)進(jìn)行估計(jì)時(shí)產(chǎn)生的均方誤差。
由圖1、圖2可知,與傳統(tǒng)的Lasso算法相比,遷移彈性網(wǎng)、Orcale Trans-Lasso、聯(lián)合Trans-Lasso在對(duì)高維回歸模型參數(shù)進(jìn)行估計(jì)時(shí)誤差較小,表明這三種算法在處理此類(lèi)問(wèn)題時(shí)能夠表現(xiàn)出較好的性能。且Lasso的估計(jì)性能并不隨著信息輔助樣本集合的改變而變化,三種遷移學(xué)習(xí)算法的估計(jì)誤差隨著信息輔助樣本集合的增大而減小。
其中MSE等于參數(shù)β的估計(jì)值與真實(shí)值的差的平方的平均值,絕對(duì)誤差等于MSE與LassoMSE之間的差,提升率等于絕對(duì)誤差與LassoMSE的比值。
從表1可以看出,三種算法與傳統(tǒng)的Lasso算法相比都有較高的提升率,其中遷移彈性網(wǎng)算法、Trans-Lasso算法、聯(lián)合Lasso算法的提升率分別為83.84%、89.58%、90.85%。聯(lián)合Trans-Lasso算法的提升率最高,說(shuō)明聯(lián)合Lasso算法處理高維回歸模型的參數(shù)估計(jì)問(wèn)題會(huì)表現(xiàn)出更好的性能。
表1 Lasso、遷移彈性網(wǎng)、Orcale Trans-Lasso及聯(lián)合Lasso均方誤差對(duì)比Tab.1 Comparison of mean square error of Lasso, migration elastic network, Orcale Trans-Lasso and Joint Lasso
研究了在信息輔助樣本已知的情況下幾種處理高維線(xiàn)性回歸問(wèn)題算法的性能。結(jié)果表明,與傳統(tǒng)的Lasso估計(jì)相比,遷移彈性網(wǎng)算法、Orcale Trans-Lasso算法、聯(lián)合Trans-Lasso算法的估計(jì)誤差都遠(yuǎn)遠(yuǎn)小于Lasso估計(jì),其中聯(lián)合Lasso算法的估計(jì)誤差最小,說(shuō)明這幾種遷移學(xué)習(xí)算法都能較好地解決此類(lèi)高維回歸問(wèn)題。但遷移學(xué)習(xí)在統(tǒng)計(jì)學(xué)中的應(yīng)用較少,可考慮在信息輔助樣本未知的情況下聯(lián)合Trans-Lasso算法及其他遷移學(xué)習(xí)算法,探討其是否能表現(xiàn)出較好的性能。