田 密,羅幼喜
(湖北工業(yè)大學(xué)理學(xué)院,湖北 武漢,430068)
函數(shù)型數(shù)據(jù)[1-2]具有函數(shù)的特征,對(duì)其處理不再是把單個(gè)數(shù)據(jù)看作樣本,而是將數(shù)據(jù)擬合為一條函數(shù)曲線(xiàn)作為樣本進(jìn)行分析。由于函數(shù)型數(shù)據(jù)理論上隸屬于無(wú)窮維空間上的數(shù)據(jù),因此實(shí)際運(yùn)用中通常需要對(duì)其進(jìn)行基函數(shù)展開(kāi)降維處理。目前常用的基函數(shù)有兩類(lèi):第一類(lèi)是給定的基函數(shù),如Zhou等[3]、Lian等[4]對(duì)函數(shù)型變量使用的B樣條基展開(kāi),但是這種基函數(shù)與數(shù)據(jù)是獨(dú)立的,不隨數(shù)據(jù)的改變而發(fā)生變化,因此難以確定原始數(shù)據(jù)的主要信息由多少個(gè)基函數(shù)決定;第二類(lèi)是結(jié)合樣本數(shù)據(jù)形成的基函數(shù),如Shin等[5]、Zhang等[6]使用的函數(shù)型主成分基展開(kāi),其中所選取的主成分基是由數(shù)據(jù)所驅(qū)動(dòng),它隨著數(shù)據(jù)的不同而相應(yīng)發(fā)生改變,并且能夠解釋函數(shù)型變量變差的百分比,因此這類(lèi)主成分基展開(kāi)更具有實(shí)際意義。然而,對(duì)函數(shù)型數(shù)據(jù)采用主成分基展開(kāi)也涉及到基函數(shù)的個(gè)數(shù)K的確定這一重要問(wèn)題。K的選取表現(xiàn)為估計(jì)的偏差與方差之間的平衡:K越大,估計(jì)的偏差越小,而方差越大;反之,K越小,估計(jì)的偏差越大,而方差越小。
眾多研究者從不同角度提出了確定函數(shù)型數(shù)據(jù)主成分個(gè)數(shù)的相關(guān)準(zhǔn)則。Rice等[7]提出依據(jù)方差解釋百分比(percentage of variance explained, PVE)對(duì)主成分?jǐn)?shù)量進(jìn)行截?cái)?;Müller等[8]也采用此方法確定函數(shù)型主成分的個(gè)數(shù);但是Zhu等[9]研究指出,盡管基于PVE的主成分基截?cái)嗖僮骱?jiǎn)單,但這種方法僅考慮了特征值的大小,而對(duì)于許多復(fù)雜問(wèn)題,函數(shù)型主成分的個(gè)數(shù)對(duì)響應(yīng)變量的影響并不僅僅與特征值大小有關(guān)。Su等[10]用PVE法確定主成分基個(gè)數(shù)并應(yīng)用于假設(shè)檢驗(yàn),證實(shí)了PVE并不是用于檢驗(yàn)的最佳標(biāo)準(zhǔn),于是提出關(guān)聯(lián)變異指數(shù)(association-variation index,AVI)這一概念,并由此建立關(guān)聯(lián)變異解釋百分比準(zhǔn)則(percentage of association-variation explained,PAVE)替代PVE用于函數(shù)型主成分的排序和選擇。雖然PAVE法能夠考慮到回歸模型中函數(shù)型變量對(duì)響應(yīng)變量的影響,但這種方法忽略了由于特征值迅速衰減導(dǎo)致的函數(shù)型協(xié)變量的主要變異。
鑒于以上方法的不足,本文提出一種新的自適應(yīng)加權(quán)截?cái)喾ㄓ糜诤瘮?shù)型主成分個(gè)數(shù)的選擇。該方法首先分別基于PVE和PAVE對(duì)函數(shù)型數(shù)據(jù)的主成分基進(jìn)行排序和選擇,然后對(duì)兩個(gè)方法截?cái)喑龅幕瘮?shù)個(gè)數(shù)進(jìn)行加權(quán),通過(guò)求解最小化估計(jì)誤差獲得最優(yōu)權(quán)重參數(shù),從而最終確定主成分基展開(kāi)項(xiàng)數(shù)。該方法不僅考慮了由于特征值迅速衰減導(dǎo)致的主要變異,還將函數(shù)型協(xié)變量和響應(yīng)變量之間的關(guān)聯(lián)納入選擇標(biāo)準(zhǔn)中,并且權(quán)重的自適應(yīng)選擇使得最后的主成分?jǐn)?shù)量恰當(dāng),進(jìn)而使估計(jì)的偏差與方差之間能達(dá)到相對(duì)平衡。
假設(shè)響應(yīng)變量Y為標(biāo)量,X(t)是定義在某個(gè)區(qū)間T上的函數(shù)型協(xié)變量,滿(mǎn)足E(X(t))=0,E(X2(t))<∞??紤]一元函數(shù)型線(xiàn)性回歸模型:
(1)
式中:t∈T,不失一般性,可取T為[0,1];β0為未知的截距項(xiàng);β(t)為未知的光滑斜率函數(shù);ε為零均值、方差有限的隨機(jī)誤差項(xiàng),且與X(t)獨(dú)立。
本文采用主成分基函數(shù)對(duì)函數(shù)型變量X(t)和函數(shù)系數(shù)β(t)進(jìn)行擴(kuò)展。首先,函數(shù)型變量的協(xié)方差矩陣有一個(gè)譜分解:
其中,Φ(s,t)表示協(xié)變量的協(xié)方差函數(shù),λ1≥λ2≥…≥0是算子Φ的有序特征值,滿(mǎn)足
{φk(t)∶k=1,2,…}構(gòu)成均方可積函數(shù)空間L2(T)中的一組標(biāo)準(zhǔn)正交基,即函數(shù)型數(shù)據(jù)X(t)的主成分基函數(shù),再根據(jù)Karhunen-Loeve定理有
對(duì)X(t)與β(t)都用主成分基展開(kāi),則式(1)變?yōu)椋?/p>
(2)
用最小二乘法最小化如下目標(biāo)函數(shù):
(3)
由于實(shí)際應(yīng)用中隨機(jī)函數(shù)X(t)是未知的,所以需要通過(guò)觀測(cè)到的樣本{X1(t),X2(t),…,Xn(t)}來(lái)估計(jì)未知的特征根λk和主成分得分ξik,故需要估計(jì)出協(xié)方差函數(shù)Φ。
于是改變?yōu)樽钚』缦履繕?biāo)函數(shù):
(4)
在式(4)中,為了達(dá)到降維的目的,需要根據(jù)一些準(zhǔn)則確定主成分基函數(shù)的個(gè)數(shù)。
1.2.1 基于PVE和PAVE的主成分選擇
首先通過(guò)方差解釋百分比PVE和關(guān)聯(lián)變異解釋百分比PAVE分別截?cái)喑龊瘮?shù)型主成分個(gè)數(shù)K1、K2。
1.2.2 權(quán)重α的確定
對(duì)上述確定的截?cái)鄠€(gè)數(shù)K1和K2分別取權(quán)重(1-α)、α后相加,得(1-α)K1+αK2,但由于截?cái)鄶?shù)應(yīng)為整數(shù),因此采用以下公式對(duì)(1-α)K1+αK2取整,得到截?cái)鄠€(gè)數(shù)K:
(5)
式中:Θ[· ]表示向下取整。
權(quán)重α從(0,1)區(qū)間選擇,每一個(gè)權(quán)重依據(jù)式(5)都有一個(gè)截?cái)鄠€(gè)數(shù)K,即為對(duì)應(yīng)的主成分基函數(shù)個(gè)數(shù)。將函數(shù)系數(shù)β(t)和函數(shù)型協(xié)變量X(t)均通過(guò)主成分基展開(kāi)后,再對(duì)函數(shù)系數(shù)進(jìn)行估計(jì),得到估計(jì)誤差
挑選出使估計(jì)誤差最小的權(quán)重α,若得到的權(quán)重不止一個(gè),則取接近于0. 5的值,因?yàn)棣两咏?.5不會(huì)使截?cái)鄠€(gè)數(shù)過(guò)大或者過(guò)小。過(guò)大的截?cái)鄠€(gè)數(shù)可能會(huì)使數(shù)據(jù)出現(xiàn)過(guò)擬合的現(xiàn)象,而過(guò)小的截?cái)鄠€(gè)數(shù)可能會(huì)使得估計(jì)結(jié)果損失過(guò)多的樣本信息,因此權(quán)重表示為
該權(quán)重對(duì)應(yīng)的K值即為通過(guò)本文方法最終得到的主成分截?cái)鄠€(gè)數(shù),相應(yīng)地將目標(biāo)函數(shù)式(4)轉(zhuǎn)換為:
(6)
本文方法需要選擇出自適應(yīng)的權(quán)重,不妨令α∈[0.1,0.2,…,0.9]。通過(guò)最小二乘法對(duì)回歸系數(shù)進(jìn)行估計(jì),用均方誤差(RMSE)評(píng)價(jià)估計(jì)誤差。
通過(guò)對(duì)以上情形的模擬得到不同權(quán)重對(duì)應(yīng)的函數(shù)系數(shù)估計(jì)誤差,由于篇幅所限,圖1僅給出閾值為0.95的模擬結(jié)果,圖中實(shí)心點(diǎn)表示對(duì)應(yīng)的權(quán)重使得均方誤差RMSE達(dá)到最小,如果實(shí)心點(diǎn)多于1個(gè),則靠近0.5的權(quán)重即為所求的α值。
從模擬結(jié)果可知:在大約55.56%的情形中得到的權(quán)重小于0.5,尤其是樣本量n=50的情形,α全部小于0.5,權(quán)重小于0.5說(shuō)明此時(shí)在本文方法中方差解釋百分比所起的作用較大;在大約27.78%的情形中權(quán)重大于0.5,其中以樣本量n=500、σ2=1的情形為主,說(shuō)明此時(shí)關(guān)聯(lián)變異解釋百分比所起的作用更大;在大約16.66%的情形中權(quán)重為0.5,此時(shí)方差解釋百分比和關(guān)聯(lián)變異百分比在本文方法中起著同樣的作用。
將分別采用三種方法的模擬結(jié)果進(jìn)行對(duì)比,主成分截?cái)鄠€(gè)數(shù)的平均值如表1所示??梢钥闯?,除去個(gè)別情形外,通過(guò)方差解釋百分比截?cái)嗟闹鞒煞謧€(gè)數(shù)都多于基于關(guān)聯(lián)變異解釋百分比的截?cái)鄠€(gè)數(shù),而采用本文方法得到的截?cái)鄠€(gè)數(shù)處于二者之間,主成分?jǐn)?shù)量比較恰當(dāng),對(duì)于函數(shù)協(xié)變量可以避免出現(xiàn)過(guò)擬合或者損失過(guò)多樣本信息的情況。
對(duì)自適應(yīng)加權(quán)截?cái)喾ǖ哪M結(jié)果進(jìn)行統(tǒng)計(jì):當(dāng)閾值分別為0.95、0.97、0.99時(shí),對(duì)應(yīng)的主成分基截?cái)鄠€(gè)數(shù)總平均值分別為5.828、6.101、7.287,即隨著閾值的增大,主成分基個(gè)數(shù)也隨之增多;當(dāng)σ2分別為0.5和1時(shí),對(duì)應(yīng)的主成分基截?cái)鄠€(gè)數(shù)總平均值分別為6.353和6.457,即隨著誤差的增大,主成分基個(gè)數(shù)也有增大的趨勢(shì);然而,當(dāng)樣本量n分別為50、100、500時(shí),對(duì)應(yīng)的平均截?cái)鄠€(gè)數(shù)為7.114、6.419、5.684,即隨著樣本量的增多,通過(guò)本文方法截?cái)嗟闹鞒煞謧€(gè)數(shù)在減少。
(a)n=50,σ2=0.5 (b)n=100,σ2=0.5 (c)n=500,σ2=0.5
表1 三種方法的主成分截?cái)鄠€(gè)數(shù)平均值
為了進(jìn)一步說(shuō)明自適應(yīng)加權(quán)截?cái)喾ǖ膬?yōu)越性,比較三種方法對(duì)函數(shù)系數(shù)β(t)的估計(jì),得到表2的結(jié)果。從表2可以看出,本文方法的估計(jì)誤差均小于其他兩種方法的對(duì)應(yīng)值,表明其對(duì)函數(shù)系數(shù)的估計(jì)精確度有所提高。對(duì)自適應(yīng)加權(quán)截?cái)喾ǖ慕Y(jié)果進(jìn)行統(tǒng)計(jì):隨著閾值由0.95逐漸增至0.99,β(t)的平均估計(jì)誤差也隨之增大,從0.3409到0.3759再到0.5032;當(dāng)σ2分別等于0.5和1時(shí),β(t)的平均估計(jì)誤差分別為0.2665和0.5466,即平均估計(jì)誤差隨著隨機(jī)誤差的增大而增大;當(dāng)樣本量n分別為50、100、500時(shí),β(t)的平均估計(jì)誤差分別為0.7974、0.3656、0.0567,即隨著樣本量的增多,函數(shù)系數(shù)的估計(jì)誤差在減少。
表2 三種方法對(duì)函數(shù)系數(shù)β(t)的估計(jì)誤差RMSE
將本文方法擬合的曲線(xiàn)與函數(shù)型回歸曲線(xiàn)β(t)進(jìn)行比較,得到閾值分別為0.95、0.97、0.99的結(jié)果。限于篇幅,圖2僅給出v=0.95時(shí)的擬合效果,由對(duì)比結(jié)果來(lái)看,在各種情形下,本文方法都能很好地?cái)M合函數(shù)型回歸曲線(xiàn)β(t)。
(a)n=50,σ2=0.5 (b)n=100,σ2=0.5 (c)n=500,σ2=0.5
本節(jié)通過(guò)彌散張量成像(diffusion tensor imaging, DTI)數(shù)據(jù)對(duì)新方法進(jìn)行展示和比較分析。Goldsmith等[11]、田茂再等[12]都曾對(duì)該數(shù)據(jù)進(jìn)行過(guò)研究,原始數(shù)據(jù)可以在Huang等[13]編寫(xiě)的R軟件包“Refund”中下載。
彌散張量成像數(shù)據(jù)是醫(yī)學(xué)研究數(shù)據(jù),該數(shù)據(jù)集包含了382個(gè)樣本。通過(guò)核磁共振成像記錄大腦中水分子沿胼胝體方向彌散的軌跡,再根據(jù)部分各向異形圖在白質(zhì)束上的位點(diǎn),得到93個(gè)數(shù)據(jù)。同時(shí),實(shí)驗(yàn)還記錄水分子沿著右皮質(zhì)脊髓束方向彌散的軌跡,得到55個(gè)數(shù)據(jù),由此可以得到兩個(gè)函數(shù)型變量。另外,每位患者都做了一個(gè)有節(jié)奏的聽(tīng)覺(jué)系列加法測(cè)試(paced auditory serial addition test, PASAT),測(cè)試結(jié)果為0到60不等的得分。本文分析的目的是量化各向異形圖沿胼胝體方向?qū)憫?yīng)變量PASAT分?jǐn)?shù)的影響。
將382個(gè)樣本數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)余下的236個(gè)樣本數(shù)據(jù)建立一元函數(shù)型線(xiàn)性回歸模型,以胼胝體數(shù)據(jù)為函數(shù)型協(xié)變量,以PASAT得分為標(biāo)量型響應(yīng)變量。在閾值分別為0.95、0.97、0.99的情況下,通過(guò)自適應(yīng)加權(quán)截?cái)喾ǐ@取使估計(jì)誤差RMSE最小時(shí)的權(quán)重,如圖3所示。由圖可見(jiàn),閾值為0.95時(shí),權(quán)重取0.2和0.3可以使RMSE最?。婚撝禐?.97時(shí),權(quán)重取0.2、0.3及0.4使得RMSE最小;閾值為0.99時(shí),權(quán)重取0.8和0.9使得RMSE最小。因此,對(duì)于彌散張量成像數(shù)據(jù),在本文提出的主成分基個(gè)數(shù)的自適應(yīng)加權(quán)截?cái)喾ㄖ?,閾值?.95和0.97時(shí),方差解釋百分比的貢獻(xiàn)要大于關(guān)聯(lián)變異解釋百分比,而閾值為0.99時(shí)恰好相反。
(a)v=0.95 (b)v=0.97 (c)v=0.99
比較三種方法對(duì)彌散張量成像數(shù)據(jù)的預(yù)測(cè)效果,同樣采用RMSE指標(biāo)計(jì)算估計(jì)誤差,結(jié)果見(jiàn)表3。由表3可見(jiàn),本文方法的估計(jì)誤差要稍小于基于PVE和PAVE的估計(jì)誤差,表明新方法可以提高預(yù)測(cè)精度,并且本文方法截?cái)嗟暮瘮?shù)型主成分個(gè)數(shù)介于其他兩種方法截?cái)嗟闹鞒煞謧€(gè)數(shù)之間,不會(huì)因主成分過(guò)多導(dǎo)致過(guò)擬合,也不會(huì)因主成分太少導(dǎo)致?lián)p失過(guò)多的樣本信息,進(jìn)而使得估計(jì)的偏差與方差達(dá)到相對(duì)平衡。
表3 三種方法對(duì)于DTI數(shù)據(jù)的預(yù)測(cè)誤差和截?cái)嘟Y(jié)果
本文針對(duì)函數(shù)型數(shù)據(jù)主成分基函數(shù)的個(gè)數(shù)選取提出了一種新的截?cái)喾椒āJ紫韧ㄟ^(guò)方差解釋百分比和關(guān)聯(lián)變異解釋百分比準(zhǔn)則對(duì)函數(shù)型主成分進(jìn)行排序和截?cái)啵謩e得到截?cái)鄠€(gè)數(shù)K1、K2,然后對(duì)K1、K2進(jìn)行加權(quán)求和,并通過(guò)優(yōu)化算法獲得使估計(jì)誤差達(dá)到最小的最優(yōu)權(quán)重,進(jìn)而得到最終的主成分展開(kāi)截?cái)囗?xiàng)數(shù)。新方法不僅考慮了函數(shù)型協(xié)變量由于特征值迅速衰減導(dǎo)致的主要變異,還將協(xié)變量和響應(yīng)變量之間的關(guān)聯(lián)納入選擇標(biāo)準(zhǔn)中,且權(quán)重α的選擇使得最后的截?cái)鄠€(gè)數(shù)不會(huì)過(guò)大或過(guò)小,進(jìn)而使估計(jì)偏差與估計(jì)方差處于一個(gè)相對(duì)平衡的狀態(tài)。
蒙特卡羅模擬結(jié)果顯示,在不同的樣本量、隨機(jī)誤差和閾值條件下,本文方法對(duì)未知函數(shù)系數(shù)的估計(jì)精度和穩(wěn)定性整體上都優(yōu)于只用方差解釋百分比準(zhǔn)則和只用關(guān)聯(lián)變異解釋百分比準(zhǔn)則的主成分截?cái)喾椒?。同時(shí),隨著閾值或者隨機(jī)誤差的增大,函數(shù)型主成分的截?cái)鄠€(gè)數(shù)也在增多,并且函數(shù)系數(shù)的估計(jì)誤差也有隨之增大的趨勢(shì);但函數(shù)型主成分的截?cái)鄠€(gè)數(shù)以及對(duì)函數(shù)系數(shù)的估計(jì)誤差隨著樣本量的增大而減小。
本文方法在彌散張量成像數(shù)據(jù)分析中的實(shí)際應(yīng)用也顯示,其不僅能量化各向異形圖沿著胼胝體方向?qū)ASAT分?jǐn)?shù)的影響,而且在預(yù)測(cè)效果上也優(yōu)于其他兩種方法。