亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ADMM算法的網(wǎng)絡(luò)連接數(shù)據(jù)變量選擇①

2022-02-15 06:39:22方佳佳鄭澤敏

計(jì)算機(jī)系統(tǒng)應(yīng)用 2022年1期

方佳佳,李陽(yáng),鄭澤敏

(中國(guó)科學(xué)技術(shù)大學(xué) 管理學(xué)院統(tǒng)計(jì)與金融系,合肥 230026)

隨著科學(xué)技術(shù)的進(jìn)步,不同領(lǐng)域的數(shù)據(jù)都呈現(xiàn)出網(wǎng)絡(luò)連接的趨勢(shì),許多科學(xué)領(lǐng)域都涉及某種形式的網(wǎng)絡(luò)研究,例如人際關(guān)系研究、學(xué)術(shù)論文合著和引用、蛋白質(zhì)相互作用模式等.20年前,關(guān)于網(wǎng)絡(luò)的流行書(shū)籍及其研究開(kāi)始出現(xiàn)[1],而像Facebook、MySpace和LinkedIn 這樣的在線網(wǎng)絡(luò)社區(qū)在近10年間也是蓬勃興起,這更加增強(qiáng)了人們對(duì)網(wǎng)絡(luò)數(shù)據(jù)的研究興趣.網(wǎng)絡(luò)連接數(shù)據(jù)由節(jié)點(diǎn)和邊組成,社交網(wǎng)絡(luò)是此類(lèi)網(wǎng)絡(luò)模型的一個(gè)典型代表.社交網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)代表一個(gè)人,邊代表人與人之間的溝通交流,此外,還有商業(yè)網(wǎng)絡(luò)、基因網(wǎng)絡(luò)等.

目前關(guān)于網(wǎng)絡(luò)連接數(shù)據(jù)的研究主要分為兩個(gè)方面.一方面是關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)的研究.另一方面主要是將網(wǎng)絡(luò)連接數(shù)據(jù)中的結(jié)構(gòu)信息與統(tǒng)計(jì)學(xué)習(xí)中常用的經(jīng)典模型結(jié)合起來(lái)研究.

在網(wǎng)絡(luò)結(jié)構(gòu)方面,最早被應(yīng)用于社區(qū)檢測(cè).社區(qū)檢測(cè)興起于物理學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域,而后開(kāi)始應(yīng)用于統(tǒng)計(jì)領(lǐng)域.其中一類(lèi)社區(qū)檢測(cè)算法是通過(guò)在節(jié)點(diǎn)的所有可能分區(qū)上優(yōu)化啟發(fā)式全局準(zhǔn)則來(lái)檢測(cè)社區(qū)[2,3].基于概率模型的方法[4,5]是另一類(lèi)社區(qū)檢測(cè)算法.一些學(xué)者從觀察到的鄰接矩陣中檢測(cè)社區(qū)或潛在結(jié)構(gòu)[6–8],從其他節(jié)點(diǎn)之間的信息估計(jì)特定節(jié)點(diǎn)之間的邊緣概率[9].社交網(wǎng)絡(luò)是此類(lèi)網(wǎng)絡(luò)模型的代表,因此針對(duì)社交網(wǎng)絡(luò)的研究也受到了大量的關(guān)注[10,11].

在與經(jīng)典模型結(jié)合方面,一般是與常用的模型相結(jié)合.例如,時(shí)間序列模型[12],線性模型[13],變系數(shù)模型[14],隨機(jī)效應(yīng)模型[15],變化點(diǎn)檢測(cè)問(wèn)題[16],自回歸模型[17,18]等.

線性回歸模型是統(tǒng)計(jì)學(xué)習(xí)中的經(jīng)典模型之一,應(yīng)用十分廣泛,關(guān)于網(wǎng)絡(luò)數(shù)據(jù)的回歸模型也開(kāi)始引起學(xué)者的關(guān)注.例如,Asur 等[19]將網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用于預(yù)測(cè)模型,通過(guò)研究網(wǎng)絡(luò)結(jié)構(gòu)來(lái)預(yù)測(cè)現(xiàn)實(shí)生活中某一現(xiàn)象的結(jié)果.Li 等[13]將網(wǎng)絡(luò)連接數(shù)據(jù)應(yīng)用于回歸預(yù)測(cè)模型,Zhu 等[17]和Tang 等[18]將網(wǎng)絡(luò)連接數(shù)據(jù)與自回歸模型相結(jié)合,都表明網(wǎng)絡(luò)連接數(shù)據(jù)在回歸模型中的研究?jī)r(jià)值.隨著科技的發(fā)展,數(shù)據(jù)的采集變得更加容易,高維數(shù)據(jù)也越來(lái)越受到研究學(xué)者的關(guān)注,但是高維數(shù)據(jù)中存在大量的冗余信息,如何選出有研究?jī)r(jià)值的數(shù)據(jù)？變量選擇領(lǐng)域應(yīng)運(yùn)而生.故將網(wǎng)絡(luò)連接數(shù)據(jù)應(yīng)用到變量選擇領(lǐng)域是一個(gè)值得研究的課題.

對(duì)于線性回歸模型,超高的維度使得傳統(tǒng)的普通最小二乘法不再適用.正則化是稀疏建模和變量選擇的有效方法,通過(guò)在目標(biāo)函數(shù)上添加懲罰函數(shù)來(lái)降低模型的復(fù)雜度.根據(jù)懲罰函數(shù)的不同,正則化方法一般可以分為凸正則化和非凸正則化.

凸正則化方法主要包括嶺回歸、LASSO、彈性網(wǎng)以及Dantzig Selector 等.雖然凸正則化的研究已經(jīng)很成熟,但由于懲罰函數(shù)的凸性,使得凸正則化估計(jì)量都是有偏的.Zhang 提出了一個(gè)非凸正則化方法—SCAD(smoothly clipped absolute deviation)[20],并證明了其Oracle 性質(zhì).非凸懲罰函數(shù)回歸的漸進(jìn)無(wú)偏估計(jì),能進(jìn)一步降低模型的預(yù)測(cè)總誤差.此后,非凸懲罰受到了廣泛的關(guān)注,例如MCP (minimax concave penalty)[21]、限制Capped-L1[22]、Hard 閾值懲罰[23]等.

關(guān)于網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問(wèn)題近年來(lái)也有學(xué)者做過(guò)相關(guān)研究[24,25].例如Li 等[24]和Kim 等[25]考慮樣本系數(shù)之間的網(wǎng)絡(luò)凝聚效應(yīng),即網(wǎng)絡(luò)中連接節(jié)點(diǎn)表現(xiàn)出相似的行為,對(duì)系數(shù)同時(shí)施加了L1懲罰和凝聚效應(yīng)懲罰 βTLβ,從而能夠解決網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問(wèn)題,但他們針對(duì)的是同質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù),即假設(shè)每個(gè)樣本的個(gè)體效應(yīng)值 α 相同,并沒(méi)有考慮到異質(zhì)性,異質(zhì)性是指不同樣本的個(gè)體效應(yīng) α 不同.在現(xiàn)實(shí)生活中,因?yàn)榫W(wǎng)絡(luò)凝聚效應(yīng)的存在而使得網(wǎng)絡(luò)中的樣本存在群組效應(yīng),聯(lián)系密切的樣本組成一個(gè)群組,他們之間的行為會(huì)相互影響而慢慢趨同.針對(duì)線性回歸模型,這種群組效應(yīng)的一個(gè)直觀體現(xiàn)就是群組內(nèi)樣本的個(gè)體效應(yīng)α相同,不同群組間個(gè)體效應(yīng) α 不同.若忽略群組間個(gè)體效應(yīng)的差異性,將所有樣本的個(gè)體效應(yīng)視為相同,在進(jìn)行變量選擇和預(yù)測(cè)估計(jì)時(shí)都會(huì)產(chǎn)生較大偏差,影響模型精度.故考慮異質(zhì)性,能夠提高模型精度.因此,針對(duì)異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的研究具有重要的價(jià)值和實(shí)際意義.Li 等[13]考慮到個(gè)體效應(yīng)之間的異質(zhì)性,并懲罰相連樣本個(gè)體效應(yīng)的差異性,提高了回歸模型中估計(jì)和預(yù)測(cè)的精度,但他主要關(guān)注的是預(yù)測(cè)問(wèn)題,沒(méi)有涉及到變量選擇.

本文的目標(biāo)是對(duì)因網(wǎng)絡(luò)凝聚效應(yīng)而產(chǎn)生個(gè)體效應(yīng)的組異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)進(jìn)行變量選擇,我們對(duì)組內(nèi)樣本間個(gè)體效應(yīng)的差異性Lα和變量系數(shù) β 進(jìn)行聯(lián)合懲罰,從而保證組內(nèi)樣本的個(gè)體效應(yīng)具有相同的估計(jì)值.本文提出的方法不僅能夠處理含有組異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問(wèn)題,而且能夠改善變量選擇、估計(jì)和預(yù)測(cè)的結(jié)果.在本文中,我們主要使用L1、MCP和SCAD 罰函數(shù),并且運(yùn)用ADMM 算法進(jìn)行求解,同時(shí)證明了算法的收斂性.

1 網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇方法

1.1 模型設(shè)定

本文中所有的向量都是列向量.考慮一般的線性回歸模型,Y=(y1,y2,···,yn)T是n維響應(yīng)變量,X=(x1,x2,···,xn)T是n×p設(shè)計(jì)矩陣.假設(shè)X是固定的且其列已經(jīng)標(biāo)準(zhǔn)化.樣本X的結(jié)構(gòu)網(wǎng)絡(luò)為G=(V,E),其中V={1,2,···,n}為樣本節(jié)點(diǎn)集合,E?V×V為邊的集合.我們用鄰接矩陣A=(Auv)n×n∈Rn×n表示該網(wǎng)絡(luò)以及樣本節(jié)點(diǎn)和節(jié)點(diǎn)之間的連接關(guān)系,若 (u,v)∈E,則Auv=1,否則為0.Auu=0,Auv=Avu.網(wǎng)絡(luò)G的拉普拉斯矩陣L=D-A,D=diag(d1,d2,···,dn)為度矩陣,D的對(duì)角線元素為每個(gè)節(jié)點(diǎn)的度du=建立如下線性回歸模型:

其中,α=(α1,α2,···,αn)T是節(jié)點(diǎn)個(gè)體效應(yīng)向量.假設(shè)相連樣本的個(gè)體效應(yīng)相等,不相連樣本的個(gè)體效應(yīng)不等,即樣本之間存在組異質(zhì)性.β=(β1,β2,···,βp)T是模型的回歸系數(shù)向量.ε=(ε1,ε2,···,εn)T是n維誤差向量,E(ε)=0,var(ε)=σ2In.

Li 等[13]提出了網(wǎng)絡(luò)連接數(shù)據(jù)的預(yù)測(cè)方法(the regression with network cohesion,RNC),其主要思想是最小化如下?lián)p失函數(shù):

其中,μ>0是調(diào)整參數(shù).RNC 主要是懲罰網(wǎng)絡(luò)中相連節(jié)點(diǎn)個(gè)體效應(yīng)的差異性,該懲罰可以推導(dǎo)出一個(gè)等價(jià)的、更直觀的形式 αTLα=

1.2 組異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇方法(SNC)

RNC中假設(shè)各樣本的個(gè)體效應(yīng)不相等,懲罰項(xiàng)μαTLα用來(lái)懲罰相連樣本個(gè)體效應(yīng)的差異性,從而能夠處理異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的回歸預(yù)測(cè)問(wèn)題.但是由于連接網(wǎng)絡(luò)中的個(gè)體常常存在群組效應(yīng),同一個(gè)群組中行為特征存在統(tǒng)一準(zhǔn)則而基本相同.因此,在本文中我們假設(shè)樣本之間存在組異質(zhì)性,即組內(nèi)樣本(相連樣本)的個(gè)體效應(yīng)相等,組間樣本(不相連樣本)的個(gè)體效應(yīng)不相等.通過(guò)對(duì)Lα 施加懲罰,懲罰組內(nèi)樣本個(gè)體效應(yīng)的差異性并壓縮至0,Lα中的元素是(αu-αv)(u,v)∈E或其等價(jià)形式.為了產(chǎn)生 β的一個(gè)稀疏估計(jì),我們將同時(shí)懲罰 β和Lα,這就是我們提出的方法—網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇(variable selection with network cohesion,SNC).

令 θ=(βT,αT)T,H=則Hθ=SNC的目標(biāo)函數(shù)為:

在本文中,對(duì)Hθ的懲罰主要使用L1和非凸懲罰,非凸懲罰包括MCP和SCAD 罰函數(shù).MCP 罰函數(shù)為罰函數(shù)為pS(t,λ)

將SNC 方法的估計(jì)結(jié)果與沒(méi)有對(duì)節(jié)點(diǎn)個(gè)體效應(yīng)的差異進(jìn)行懲罰的情況下進(jìn)行對(duì)比,能夠提高估計(jì)和預(yù)測(cè)的精度.

2 算法

直接最小化目標(biāo)函數(shù)(3)很難求解出估計(jì)量的值,因?yàn)閼土P函數(shù)對(duì)于每個(gè) αi是不可分的.因此,我們通過(guò)引入一組新的參數(shù) γ=Hθ 來(lái)重新參數(shù)化準(zhǔn)則.最小化式(3)等價(jià)于最小化如下約束優(yōu)化問(wèn)題:

基于文獻(xiàn)[26]中的思路,利用增廣拉格朗日方法,通過(guò)最小化如下?lián)p失函數(shù)得到參數(shù)的估計(jì):

其中,對(duì)偶變量 φ是拉格朗日乘數(shù),ρ >0是懲罰因子.我們通過(guò)交替方向乘子法(alternating direction multiplier method,ADMM)來(lái)迭代求解 (θ,γ,φ)的估計(jì).對(duì)于給定的(θ,γ,φ),L(θ,γ,φ) 關(guān)于 γ的最小值是唯一的,并且在L1懲罰或非凸懲罰下有一個(gè)近似的形式.當(dāng)給定 (θ,γ,φ),上述最小化問(wèn)題等價(jià)于:

其中,τ=Hθ+ρ-1φ,故在L1或非凸懲罰下估計(jì)量的近似的形式為:

其中,S T(t,λ)=sign(t)(|t|-λ)+是soft 閾值準(zhǔn)則,(x)+=x,x>0,否則 (x)+=0.

對(duì)于MCP 罰函數(shù) (a>1/ρ),

對(duì)于SCAD 罰函數(shù) (a>1/ρ+1),

算法步驟如算法1.

算法1.ADMM 算法輸入:預(yù)測(cè)變量,響應(yīng)變量,鄰接矩陣,懲罰因子,停止準(zhǔn)則 ;X Y A ρ η^θ,^γ,^φ輸出:;目標(biāo):迭代求解獲得和.θ(0),γ(0)=Hθ(0),φ(0)=0,m=0,η=0.03.初始化θ,γ φ While,do m≥0 θ(m+1)=[n-1(X,I)T(X,I)+ρHTH]-1*[n-1(X,I)TY+ρHTγ(m)-HTφ(m)];γ(m+1)=S T(τ(m+1),λ/ρ);φ(m+1)=φ(m)+ρ(Hθ(m+1)-γ(m+1)).r(m+1)=Hθ(m+1)-γ(m+1)||r(m+1)||<η If,then(^θ,^γ,^φ)=(θ(m+1),γ(m+1),φ(m+1));Break;Else m=m+1;End End

對(duì)ADMM 算法過(guò)程中的原始變量進(jìn)行追蹤,r(m+1)=Hθ(m+1)-γ(m+1).停止準(zhǔn)則為||r(m+1)||<η,其中η>0為一個(gè)非常小的常數(shù).

下面考慮ADMM 算法的收斂性.

命題1.對(duì)于MCP和SCAD 函數(shù),ADMM 算法的原始?xì)埐顁(m)=Hθ(m)-γ(m)和對(duì)偶?xì)埐顂(m+1)=ρHT(r(m+1)-r(m)) 滿(mǎn)足

命題1 表明該算法實(shí)現(xiàn)了原可行性和對(duì)偶可行性,證明材料見(jiàn)附錄.因此,它收斂于一個(gè)局部最優(yōu)點(diǎn).當(dāng)采用非凸懲罰函數(shù),如MCP和SCAD 罰函數(shù)時(shí),此最優(yōu)點(diǎn)是目標(biāo)函數(shù)的局部最優(yōu)解.綜上,算法收斂性和穩(wěn)定性得到證明.因?yàn)棣?m)=((β(m))T,(α(m))T)T是不稀疏的,但我們已證明Hθ(m)=((β(m))T,(Lα(m))T)T是收斂于γ(m),故我們令 γ(m)的前p項(xiàng)作為β的估計(jì)值,即可得到β的稀疏解.

3 數(shù)值模擬

在數(shù)值模擬中,主要比較本文提出的SNC 方法和沒(méi)有對(duì)個(gè)體節(jié)點(diǎn)效應(yīng)的差異性進(jìn)行懲罰的LASSO、MCP、SCAD 方法在變量選擇和預(yù)測(cè)方面的效果.網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法就是考慮了樣本之間的連接關(guān)系網(wǎng)絡(luò)的方法,即我們的SNC 方法.無(wú)網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法,就是不考慮樣本之間的連接網(wǎng)絡(luò)的懲罰方法.在這里,我們首先定義幾個(gè)效果評(píng)估指標(biāo):

(1)預(yù)測(cè)損失(prediction error,PE):E(XTβ0+α0-

(2)Lq損失:

(4)假陽(yáng)性數(shù)(false positives,FP):真實(shí)為反例卻被預(yù)測(cè)為正例的個(gè)數(shù);

(5)假陰性數(shù)(false negatives,FN):真實(shí)為正例卻被預(yù)測(cè)為反例的個(gè)數(shù);

(6)真陽(yáng)性數(shù)(true positives,TP):真實(shí)為正例預(yù)測(cè)也為正例的個(gè)數(shù);

(7)真陰性數(shù)(true negatives,TN):真實(shí)為反例預(yù)測(cè)也為反例的個(gè)數(shù);

(8)F1-score:2TP/(2TP+FP+FN).

3.1 模擬1

對(duì)于式(1)中的線性回歸模型,我們從該模型中隨機(jī)生成100 個(gè)數(shù)據(jù)集.訓(xùn)練樣本的大小考慮兩種情況(n,p)=(100,200)和(n,p)=(100,500),設(shè)計(jì)矩陣X中的每一行從正態(tài)分布N(0,Σ),Σ=(0.5|i-j|)1≤i,j≤p中隨機(jī)抽樣.真實(shí)回歸系數(shù)為隨機(jī)誤差 ε的標(biāo)準(zhǔn)差.懲罰因子 ρ=1,λ 用交叉驗(yàn)證來(lái)選取,停止條件 η=0.03.

為了生成含有組異質(zhì)性樣本間的鄰接矩陣A,我們用ER 隨機(jī)圖模型生成一個(gè)包含n=100 個(gè)節(jié)點(diǎn)的樣本網(wǎng)絡(luò),樣本網(wǎng)絡(luò)由4 個(gè)不相連的部分G1,G2,G3,G4組成,每個(gè)部分包含25 個(gè)節(jié)點(diǎn).每個(gè)單獨(dú)的部分都是一個(gè)ER 隨機(jī)圖,節(jié)點(diǎn)與節(jié)點(diǎn)之間以pb的概率生成邊,即Aij=1,否則為0,令pb=0.1.4 個(gè)部分中相連樣本的個(gè)體節(jié)點(diǎn)效應(yīng) αi的值分別為1,-1,0.5,-0.5,獨(dú)立樣本的個(gè)體節(jié)點(diǎn)效應(yīng)為0.3.

表1展示了兩種方法在預(yù)測(cè)評(píng)估指標(biāo)上的結(jié)果對(duì)比.與沒(méi)有利用相連節(jié)點(diǎn)的網(wǎng)絡(luò)凝聚效應(yīng)對(duì)個(gè)體效應(yīng)進(jìn)行懲罰的LASSO、MCP和SCAD 結(jié)果相比,SNCLASSO、SNC-MCP和SNC-SCAD 都明顯改善了估計(jì)和預(yù)測(cè)誤差.這表明將網(wǎng)絡(luò)凝聚效應(yīng)加入變量選擇模型中,可以改善模型變量選擇、估計(jì)和預(yù)測(cè)的精度.

表1 不同方法下預(yù)測(cè)評(píng)估指標(biāo)結(jié)果

表2展示了兩種方法在100 次模擬實(shí)驗(yàn)下變量選擇評(píng)估指標(biāo)結(jié)果.我們可以看出各項(xiàng)指標(biāo)下,SNC 方法的變量選擇效果都明顯優(yōu)于沒(méi)有利用網(wǎng)絡(luò)凝聚效應(yīng)進(jìn)行懲罰的方法.另外,SNC-MCP和SNC-SCAD 都要優(yōu)于SNC-LASSO.尤其對(duì)于假陽(yáng)性數(shù)FP,100 次模擬中,SNC-LASSO的FP 平均為15.41 (p=200)和17.21 (p=500),而SNC-MCP 分別為0.05 (p=200)和0.3 (p=500),SNC-SCAD 分別為1.06 (p=200)和0.2 (p=500),MCP和SCAD 變量選擇的準(zhǔn)確性比LASSO 顯著提高,主要是由于LASSO的有偏性.

表2 不同方法下變量選擇評(píng)估指標(biāo)結(jié)果

3.2 模擬2

模擬1中的結(jié)果表明網(wǎng)絡(luò)凝聚效應(yīng)懲罰能夠改善變量選擇、估計(jì)和預(yù)測(cè)效果,網(wǎng)絡(luò)凝聚效應(yīng)主要與鄰接矩陣中個(gè)體之間產(chǎn)生聯(lián)系的概率pb有關(guān),接下來(lái)我們將研究pb對(duì)SNC 方法的變量選擇、估計(jì)和預(yù)測(cè)效果的影響.模型2中的設(shè)定與模型1 類(lèi)似,不同的是我們?nèi)b=seq(0,0.02,0.2),R 語(yǔ)言函數(shù)seq(a,b,c)用于生成一組從a到b,間隔為c的序列.

圖1和圖2分別展示了pb對(duì)預(yù)測(cè)和變量選擇效果的影響.從圖1可以看出,隨著pb的增大,即網(wǎng)絡(luò)的凝聚效應(yīng)增強(qiáng),SNC 方法能夠明顯降低預(yù)測(cè)損失,并在pb=0.08 附近趨于穩(wěn)定.圖2表示pb對(duì)F1分?jǐn)?shù)的影響,F1分?jǐn)?shù)是查準(zhǔn)率和查全率的調(diào)和平均數(shù),當(dāng)pb=0 即樣本之間沒(méi)有連接關(guān)系時(shí),F1分?jǐn)?shù)值很低.隨著pb的增大,F1分?jǐn)?shù)值逐漸增大,同樣地,在pb=0.08 附近達(dá)到最大值,此時(shí)SNC 方法變量選擇的效果較好.

圖1 pb 對(duì)預(yù)測(cè)損失的影響

圖2 pb 對(duì)F1-score的影響

4 實(shí)際數(shù)據(jù)分析

我們研究的真實(shí)數(shù)據(jù)案例來(lái)自于Teenagers Friends and Lifestyle Study[27].這項(xiàng)研究主要是青少年友誼網(wǎng)對(duì)他們自身某些行為的影響.該實(shí)際數(shù)據(jù)與本文中的模型設(shè)定保持一致,因青少年時(shí)期學(xué)生喜愛(ài)團(tuán)體活動(dòng),故凝聚效應(yīng)使得網(wǎng)絡(luò)之間存在組異質(zhì)性.

Teenagers Friends and Lifestyle Study 旨在確定在青少年早期到中期不良習(xí)性的變化過(guò)程.實(shí)驗(yàn)記錄了3 個(gè)時(shí)間點(diǎn) (T1,T2,T3)的數(shù)據(jù).樣本來(lái)自于160 名學(xué)生,通過(guò)每個(gè)學(xué)生及學(xué)生之間的朋友(最多6 個(gè))關(guān)系來(lái)建立友誼網(wǎng)絡(luò).研究給出了3 個(gè)時(shí)期的友誼網(wǎng)絡(luò),網(wǎng)絡(luò)中“1”表示“best friend”,“2”表示“just a friend”,“0”表示“no friend”,“10”表示缺失值,我們根據(jù)學(xué)生之間的友誼網(wǎng)絡(luò)來(lái)獲取鄰接矩陣A.

本文使用的數(shù)據(jù)集X包含160 個(gè)樣本,40 個(gè)特征變量包括青少年的年齡、性別、生活方式、休閑活動(dòng)以及家庭成員吸煙等情況,考慮特征之間的交互作用,最終特征變量為250 個(gè).我們的目標(biāo)是利用友誼網(wǎng)絡(luò)找出影響青少年不良習(xí)性的關(guān)鍵因素,并預(yù)測(cè)青少年自身不良行為的活動(dòng)頻率.我們分別選取alcohol、tobacco和cannabis 作為響應(yīng)變量Y,對(duì)于tobacco,元素1 表示從未抽過(guò)煙,2 表示偶爾吸煙,3 表示經(jīng)常吸煙,故我們將其取對(duì)數(shù)作為響應(yīng)變量Y的值.

時(shí)間點(diǎn)T1的友誼網(wǎng)絡(luò)如圖3所示.我們只展示了學(xué)生之間的“best friendship”(包括“just a friend”和“best friend”).根據(jù)友誼網(wǎng)絡(luò)建立鄰接矩陣A時(shí),當(dāng)學(xué)生i和學(xué)生j為“best friend”,則Aij=Aji=1,否則Aij=1.

圖3 青少年友誼連接網(wǎng)絡(luò)

分別選取alcohol、tobacco和cannabis 作為響應(yīng)變量來(lái)研究影響青少年酗酒、吸煙和吸毒的因素.將樣本隨機(jī)分成兩份:訓(xùn)練集和測(cè)試集,重復(fù)實(shí)驗(yàn)100 次.由于不知道真實(shí)情況下的參數(shù)設(shè)定,無(wú)法像模擬實(shí)驗(yàn)中那樣對(duì)比假陰性數(shù)、假陽(yáng)性數(shù)等指標(biāo).因此,主要從預(yù)測(cè)損失和變量選擇兩個(gè)方面來(lái)驗(yàn)證SNC 方法的有效性.

表3展示了SNC 方法SNC-LASSO、SNC-MCP、SNC-SCAD 與無(wú)網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法LASSO、MCP和SCAD 對(duì)青少年不良習(xí)性(酗酒、抽煙以及吸食大麻)的預(yù)測(cè)損失,從結(jié)果中可以看出SNC方法預(yù)測(cè)的相對(duì)更準(zhǔn)確一點(diǎn).青少年時(shí)期大家都是團(tuán)體活動(dòng),生活習(xí)慣很容易相互影響而慢慢趨同,而網(wǎng)絡(luò)凝聚效應(yīng)正是考慮了這一點(diǎn),團(tuán)體內(nèi)個(gè)體的表現(xiàn)行為更具相似性,懲罰團(tuán)體內(nèi)個(gè)體效應(yīng)的差異性,提高了個(gè)體效應(yīng)的預(yù)測(cè)精度,從而降低了整個(gè)模型的預(yù)測(cè)誤差.

表3 青少年不良習(xí)性的預(yù)測(cè)損失

為了使挑選出來(lái)的變量更具可解釋性,下面我們不考慮特征之間的交互作用,用SNC 方法和無(wú)網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法來(lái)挑選變量,并重復(fù)實(shí)驗(yàn)100 次,計(jì)算100 次實(shí)驗(yàn)下挑選出來(lái)的變量的比例.

表4中我們看到,LASSO、MCP和SCAD 挑選出更多的冗余變量.顯然,兩種方法下,特征變量parent smoking,sibling smoking,“I hang round in the streets”,“I play computer games”和“I go to dance clubs or raves”是最顯著的.青少年時(shí)期他們的世界觀、人生觀和價(jià)值觀還在形成階段,易受他人或團(tuán)體的影響,在街上閑逛、經(jīng)常打電腦游戲、參加俱樂(lè)部以及兄弟姐妹抽煙等行為都容易使青少年沾染上不良習(xí)性.通過(guò)研究分析,我們知道了青少年時(shí)期朋友以及家人行為的重要性,家人、朋友以及整個(gè)社會(huì)需要給青少年?duì)I造一個(gè)良好健康的成長(zhǎng)環(huán)境,給他們樹(shù)立積極向上的榜樣.

表4 不同方法下挑選出的變量及其比例

針對(duì)各種方法挑選出來(lái)變量之后的模型進(jìn)行回歸,我們得到回歸后各變量系數(shù)的顯著性檢驗(yàn)以及調(diào)整可決系數(shù)R2和標(biāo)準(zhǔn)誤差如表5所示.

由表5可知,SNC 方法選取了sex.F、I hang out in the streets、I play computer games、money、parent.smoking和sibling.smoking 6 個(gè)變量,根據(jù)值可以看出這些變量都通過(guò)了顯著性檢驗(yàn).而LASSO、MCP和SCAD 方法選出了少許的冗余變量.另外,從表中的調(diào)整可決系數(shù)和標(biāo)準(zhǔn)誤差來(lái)看,SNC 方法的效果也是優(yōu)于沒(méi)有網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法.

表5 不同方法下挑選出變量的顯著性檢驗(yàn)

5 總結(jié)

本文主要對(duì)線性回歸模型中因網(wǎng)絡(luò)凝聚效應(yīng)而產(chǎn)生個(gè)體效應(yīng)的組異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)進(jìn)行變量選擇,使用非凸懲罰MCP和SCAD 罰函數(shù)同時(shí)懲罰變量系數(shù) β和組內(nèi)樣本的個(gè)體效應(yīng)的差異性Lα,使得能夠?qū)薪M異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)篩選出有用變量.

針對(duì)本文提出的方法,我們運(yùn)用ADMM 算法進(jìn)行求解,并證明了算法的收斂性.針對(duì)SNC 方法,本文進(jìn)行了相關(guān)模擬,從變量選擇和預(yù)測(cè)兩個(gè)方面來(lái)衡量該方法的效果.從實(shí)驗(yàn)結(jié)果來(lái)看,無(wú)論是預(yù)測(cè)損失還是變量選擇的準(zhǔn)確性都有明顯改善.實(shí)例分析中,我們將SNC 方法應(yīng)用于青少年友誼網(wǎng)絡(luò)和生活方式的研究,分析預(yù)測(cè)青少年吸煙等不良習(xí)性的活動(dòng)頻率以及挑選出影響青少年吸煙等不良習(xí)性的特征變量.

本文提出的方法,為含有組異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問(wèn)題提供了一種解決思路.我們將變量選擇方法進(jìn)一步拓展了應(yīng)用領(lǐng)域,對(duì)于基因網(wǎng)絡(luò)、交通網(wǎng)絡(luò)、公司網(wǎng)絡(luò)等網(wǎng)絡(luò)連接數(shù)據(jù),SNC 方法都能適用.

附錄A.命題1的證明

命題1 描述了算法的收斂性,下面我們開(kāi)始證明.由 γ(m+1)的定義可知,對(duì)任意 γ:

令:

故,L(θ(m+1),γ(m+1),φ(m))≤f(m+1).

令t為整數(shù),φ(m+t-1)=有:

由于目標(biāo)函數(shù)L(θ,γ,φ) 關(guān)于(θ,γ) 導(dǎo)的,并且是φ函數(shù),基于文獻(xiàn)[28]的定理4.1,(θ(m),γ(m)) 有個(gè)極值點(diǎn),記為(θ*,γ*) 故有:

并且對(duì)于任意t≥0,有:

因?yàn)棣?m+1)使得L(θ,γ(m),φ(m)) 最小化,故有δL(θ(m+1),γ(m),φ(m))/δθ=0.并且:

因此:

又因?yàn)閨|Hθ*-γ*||2=0,故