李會賢, 袁曉惠, 周世權, 王 岳
(長春工業(yè)大學 數(shù)學與統(tǒng)計學院, 吉林 長春 130012)
體脂率是指人體內脂肪重量在人體總體重中所占的比例,又稱體脂百分數(shù)[1]。體脂率是衡量人體健康程度的指標之一,通過對體脂率的研究,可以科學指導膳食營養(yǎng),有效地控制體重和為醫(yī)學觀察提供客觀依據(jù)。關于體脂率的研究有很多,例如張弛[2]通過測量部分大學生的身體成分指標,探討了相關因素對體脂含量的影響。籍曉蕾[1]重點研究了城鎮(zhèn)成年人體脂率與體重指數(shù)(BMI)和腰臀比(WHR)的關系,并且分析了影響體脂變化的相關因素。
分位數(shù)回歸模型能夠提供全面的回歸信息以及關于響應變量條件分布的更多信息,最早由Koenker等[3]提出,其后應用于計量經(jīng)濟學、政治學、醫(yī)學等多個領域。Koenker等[4]基于分位數(shù)回歸探討了1965-1985年影響世界主要國家經(jīng)濟增長的因素。Chen[5]應用分位數(shù)回歸模型研究了美國8 250名男性的身體質量指數(shù)。李育安[6]介紹了分位數(shù)回歸的概念、算法,并將分位數(shù)回歸應用于經(jīng)濟領域的恩格爾系數(shù)上,說明了經(jīng)濟發(fā)展與收入增加對生活消費的影響程度,揭示了居民收入和食品支出之間的相關關系。謝蘭云[7]利用分位數(shù)回歸模型對我國R&D投入在不同分位點上影響因素的作用進行了詳細研究。
當模型中協(xié)變量維數(shù)過高時,直接的估計方法效率很低,需要進行變量選擇。較為流行的是通過加入懲罰函數(shù)來進行變量篩選。經(jīng)典的懲罰是Tibshiani[8]提出的Lasso,該方法也成功應用到分位數(shù)回歸模型中。Fan等[9]提出了SCAD懲罰,Zhang[10]構造了MCP的懲罰。Peng等[11]討論了分位數(shù)回歸下的變量選擇,提出了迭代坐標下降(QICD)算法。
文中計劃通過懲罰分位數(shù)回歸模型來探討體脂率影響因素,重點探討各因素對體脂率的影響程度,以期達到控制體脂率,減少和預防因肥胖導致的疾病的目的。
分位數(shù)回歸模型為
式中:yi----響應變量;
xi----k維自向量,xi=(1,x1,…,xk-1);
βτ----分別對應于x第τ分位數(shù)的回歸系數(shù);
ετ----隨機分位數(shù)誤差項,ετ=ε-q(τ);
q(τ)----誤差的概率分布函數(shù)。
給定x時,響應變量y的第τ條件分位數(shù)為
Qτ(y|x)=xTβτ。
參數(shù)β的估計值表達式[12]
式中:ρτ----損失函數(shù),ρτ=u(τ-I(u<0)),0<τ<1;
I(·)----示性函數(shù)。
當k很大且參數(shù)β存在0時,可以通過構建懲罰函數(shù)來提高估計效率。加入懲罰項后目標函數(shù)表達式為
式中:λ----調節(jié)參數(shù),λ≥0;
pλ(|βj|)----針對β構建的懲罰函數(shù)項,j=1,2,…,k。
當懲罰函數(shù)pλ(β)=λβ時,此為Lasso懲罰。
Fan等[9]在變量選擇方面展示了SCAD的Oracle性質。對于θ>0,懲罰項表達式為
pλ(|β|)=λ|β|I(0≤ |β|<λ)+
I(λ≤ |β|≤aλ)+
式中:a,λ----調節(jié)參數(shù),此時為SCAD懲罰,a>2,λ>0。
對于a>1,懲罰項函數(shù)是
時,為MCP懲罰。
通過最小化懲罰函數(shù),可篩選變量,提高估計效率。
考慮分位數(shù)回歸模型
其中,x=(1,x1,…,x6),且x與誤差ετ均服從標準正態(tài)分布,ετ=ε-q(τ)為隨機分位數(shù)誤差,q(τ)表示誤差的概率分布函數(shù)。
給定樣本量n=100,β的真值βZ=(1,1,2,0,0,0,0),τ=0.5時,得到1 000個樣本數(shù)據(jù)集,進行參數(shù)估計,并選取3種懲罰函數(shù)進行變量選擇。
對于懲罰分位數(shù)回歸模型,根據(jù)Fan等的建議,我們設定a=3.7來減少計算負擔。列出了此模型是否加入懲罰的變量選擇結果,見表1。
其中β0表示截距項的參數(shù)值,β1,β2,…,β6表示各回歸系數(shù)值。
表1 不同方法的參數(shù)估計、偏度及均方誤
注:由于在施加懲罰的模型中對真值為0的參數(shù)進行估計,并求得偏和均方誤無意義,因此此表僅保留β0、β1、β2的估計結果。
在3種懲罰函數(shù)的變量選擇中,SCAD和MCP懲罰運行效率相同,均方誤最小,即估計效果最好。
給定樣本量n=20、50、100時,令τ=0.3、0.5、0.7,生成100個數(shù)據(jù)集。列出了變量選擇中參數(shù)估計的正確率與錯誤率,見表2。
表2 τ不同時3種變量選擇參數(shù)估計的正確率與錯誤率
注:“*”表示選擇最好的概率;Correct表示真值為0,估計值仍為0的概率;Right表示真值非0,估計值非0的概率; Wrong表示真值為0,估計值非0的概率; Error表示真值非0,估計值為0的概率。
由表2可以看出,在不同的τ分位點處,均是SCAD變量選擇的效果更好。
通過模擬實驗發(fā)現(xiàn):
1)分位數(shù)回歸模型加入懲罰后,估計效率均有不同程度的提高,SCAD懲罰得到的估計效果最好。
2)比較變量選擇的參數(shù)估計正確率,SCAD懲罰所得結果更精確。
分位數(shù)回歸模型及其變量選擇以往已經(jīng)有許多人研究過,文中將此理論應用到對體脂率影響因素的進一步研究中。
選擇美國2003—2004年NHANES共6 596名被測試人群的體脂率數(shù)據(jù)[14]。由于體脂率(Totalpf)受到多種因素的影響,所以因素的選擇至關重要。張弛[2]的研究提出:青春期開始以后,雄性和雌性激素分別有不同的作用,使男女體脂率出現(xiàn)差別,因此性別是影響體脂率的因素之一。區(qū)分性別的同時,年齡增長會導致人的體重和身高發(fā)生改變。體重發(fā)生變化,人體的各部分身體成分也在發(fā)生變化,從而影響體脂率。體脂率超標可能會導致高血壓等疾病,所以也將秒內血壓時間作為分析體脂率的一個因素。環(huán)境同樣是影響體脂率的重要因素,但由于環(huán)境數(shù)據(jù)的復雜性和收集的困難性,因此將年收入水平作為環(huán)境因素的代表量。
綜上所述,文中選定的影響因素為:性別(Gender,男性=1,女性=2)、年齡(Age)、年收入水平(aHI) 、秒內血壓時間(BPTS)、體重(weight/kg)及身高(height/cm)。
采用的分位數(shù)回歸模型是:
Totalpf=β0+β1τGender+β2τAge+β3τaHI+
β4τBTS+β5τweight+β6τheight。
τ不同時的參數(shù)估計結果見表3。
表3 τ不同時的參數(shù)估計結果及P值
體脂率的分位數(shù)回歸模型在不同的τ分位點時,秒內血壓時間對應的P值大于0.05,接受原假設,即參數(shù)不顯著,年收入水平對體脂率的影響同樣可以忽略不計,而性別、體重與身高的影響較大,身高是對體脂率呈負影響。
此模型系數(shù)在τ=0.1,0.3,0.5,0.7,0.9時的估計值分別如圖1~圖6所示。
通過圖1和圖2可以得出,性別和年齡在不同τ分位點對體脂率都是正影響,且體脂率水平較低的人群中受到性別、年齡的影響程度較大,而體脂率較高人群受兩因素的影響程度會低很多。
圖1 Gender在τ不同時的參數(shù)估計值
圖2 Age在τ不同時的參數(shù)估計值
圖3 aHI在τ不同時的參數(shù)估計值
圖4 BPTS在τ不同時的參數(shù)估計值
通過圖3和圖4可以得出,年收入水平和秒內血壓時間對體脂率的影響是最小的,幾乎可以忽略不計。
圖5 weight在τ不同時的參數(shù)估計值
圖6 height在τ不同時的參數(shù)估計值
通過圖5和圖6可以得出,體重系數(shù)在不同分位點處均為正影響,體脂率偏高的人群受體重因素的影響程度會較大,這也是人們的一個普遍認知,而身高對體脂率呈負影響,體脂率偏低的人群受到身高的影響更小。
體脂率數(shù)據(jù)在不同分位點進行變量選擇時各參數(shù)估計結果見表4。
不同分位點下,Lasso、SCAD和MCP三種變量選擇方法下,年收入水平對應的參數(shù)均為0,即年收入水平對體脂率沒有影響,性別、年齡、體重與體脂率均呈正相關,而身高呈負相關。τ=0.5和τ=0.9較τ=0.1時,同樣篩選出性別系數(shù)的參數(shù)為0,即對體脂率沒有影響。偏瘦和偏胖人群中,秒內血壓時間和身高與體脂率呈負相關;中等體脂率的人群中,秒內血壓時間對體脂率是正影響,體重對體脂率的影響最大。
表4 Lasso、SCAD、MCP變量選擇分位數(shù)回歸模型的參數(shù)估計結果
通過實例研究發(fā)現(xiàn):
1)體脂率的分位數(shù)回歸模型中,秒內血壓時間參數(shù)不顯著,體脂率主要受到性別、體重與身高的影響。
2)變量選擇過程中,年收入水平與秒內血壓時間變量對體脂率幾乎沒有影響,得到與參數(shù)估計過程同樣的結論。
由模擬實驗和實例研究發(fā)現(xiàn):通過懲罰分位數(shù)回歸模型的數(shù)值模擬,SCAD懲罰得到的結果更精確,即估計效率較高;體脂率的分位數(shù)回歸模型中,除年收入水平和秒內血壓時間外其他參數(shù)均顯著;性別、年齡、體重與身高對體脂率有較大影響,體脂率較高人群主要受到年齡和體重的影響。
如果想要保持體脂率達到適中水平并且維持健康,建議保持正常的體重,多鍛煉身體,合理飲食。