萬 學
(重慶師范大學 數(shù)學科學學院, 重慶 401331)
隨著我國經(jīng)濟的不斷發(fā)展,股票投資進入大眾視野,成為最熱門的投資方式之一。如何選擇成分股對股票指數(shù)進行跟蹤,越來越受到人們的關(guān)注。追蹤股票指數(shù)指以某一股票指數(shù)為目標,以該指數(shù)的成分股為投資對象,通過購買該成分股所構(gòu)建的投資組合,用于追蹤目標指數(shù)的表現(xiàn)。人們感興趣的是如何用更少的投資來獲得更大的回報,這啟發(fā)了學者們探索如何選擇較少的成分股達到跟蹤股票指數(shù)的目的。
在統(tǒng)計學中,選擇較少的成分股追蹤股票指數(shù),稱為變量選擇問題。對于變量選擇的方法,國內(nèi)外已有許多學者對此進行了全面而深入的研究,其中Tibshirani[1]在1996年提出了一種基于壓縮系數(shù)的Lasso(Least Absolute Shrinkage and Selection Operator)方法,克服了傳統(tǒng)的逐步回歸法、最優(yōu)子集選擇法等方法的不足,為變量選擇領(lǐng)域的發(fā)展做出了十分重要的貢獻。但是,Lasso方法在很大程度上壓縮了變量的系數(shù),致使模型偏差較大,且不具有Oracle性質(zhì)。為了改善這些不足,F(xiàn)an等[2]提出了能同時選出顯著變量和得出相應參數(shù)估計的SCAD(Smoothly Clipped Absolute Devation)方法,并在線性模型中證明了該方法的Oracle性質(zhì);Zou[3]對不同的系數(shù)施加不同的權(quán)重進行壓縮,提出了Adaptive Lasso方法,在一定程度上克服了Lasso方法的不足。但是,Adaptive Lasso方法對于處理具有組效應的數(shù)據(jù)仍然不理想。為了處理具有組效應的數(shù)據(jù),Zou和 Hastie[4]提出了Elastic net方法,但是該方法不具有Oracle性質(zhì);為此,Zou和Zhang[5]受Adaptive Lasso方法的啟發(fā)提出了另一種具有Oracle性質(zhì)的方法,即Adaptive Elastic net方法。這些選擇重要變量的方法已經(jīng)被研究得相對成熟了,并且被學者們應用于各個領(lǐng)域。
在統(tǒng)計分析中,經(jīng)常會遇到一些非負數(shù)據(jù),例如股票價格、患者的壽命、生存時間等。處理這類數(shù)據(jù),通常會考慮如下乘積模型:
(1)
其中,Xi是p維協(xié)變量,Yi是響應變量,β是未知參數(shù)向量,εi是嚴格非負的隨機誤差。
對于模型式(1)的估計方法,Chen等[6]基于相對誤差思想,提出了最小絕對相對誤差(Least Absolute Relative Errors, LARE)準則:
LARE(β)=
(2)
通過最小化目標函數(shù)式(2)可獲得模型式(1)的參數(shù)估計。張丹[7]將LARE準則和文獻[1-3]中提到的變量選擇方法結(jié)合起來,討論了模型式(1)的變量選擇問題,并對相應的Oracle性質(zhì)進行了證明。雖然Chen等[6]提出的LARE準則在一定條件下能得到具有相合性和漸近正態(tài)性的參數(shù)估計,但是LARE準則的目標函數(shù)式(2)并不光滑,且計算十分復雜,為了克服這些不足,Chen等[8]考慮將目標函數(shù)式(2)中兩種相對誤差相乘提出了最小乘積相對誤差(Least Product Relative Error, LPRE)準則,即最小化以下目標函數(shù):
LPRE(β)=
(3)
從目標函數(shù)式(3)可以看出,相比于LARE準則,LPRE準則的目標函數(shù)具有無限可微且嚴格凸的優(yōu)點,這使得該目標函數(shù)具有唯一的最小值點。Chen等[8]也通過數(shù)值模擬和實例應用證明了在一定條件下LPRE估計方法比LARE估計方法更有效;李翠平[9]基于LPRE準則,通過Adaptive LASSO,Adaptive Elastic Net,以及SCAD方法研究了模型式(1)的變量選擇問題,并對相應的Oracle性質(zhì)進行了證明;陳銀鈞等[10]將LPRE準則和LASSO方法結(jié)合起來研究了模型式(1)的變量選擇問題?;贚ARE和LPRE準則,已有許多學者研究了線性乘積模型。但是,僅使用這個模型不能完全反應實際應用中變量之間復雜的潛在關(guān)系。胡大海[11]在LPRE準則的基礎上,研究了變系數(shù)乘積模型的非參函數(shù)估計問題。
近年來,乘積模型變量選擇問題得到了廣泛關(guān)注,但是對于變系數(shù)乘積模型的變量選擇問題的研究還鮮少出現(xiàn)。因此,本文將在已有文獻的基礎上,將LPRE和SCAD方法應用于變系數(shù)乘積模型,研究該模型的變量選擇問題,并通過模擬仿真證明所提方法的有效性;最后,利用模擬中的方法追蹤深證紅利指數(shù),證明所提方法的實用性。
當假定參數(shù)模型成立時,模型式(1)具有較高的推斷精度,且具有容易解釋的優(yōu)點,但是在實際應用中,學者們并不能確定數(shù)據(jù)服從怎樣的模型,如果假定的參數(shù)模型與實際情況不相符,對于給定參數(shù)模型的估計和統(tǒng)計推斷就幾乎沒有意義。此外,模型式(1)通常是假定logY與X之間呈線性關(guān)系,但是有時候這個假定是不成立的。為此,本文考慮適應性更強的變系數(shù)乘積模型:
(4)
其中,β(·)=(β1(·),…,βp(·))T是p×1維未知函數(shù)系數(shù)向量,指標變量Ui∈[0,1],Xi是協(xié)變量,Yi是響應變量,εi是嚴格非負隨機誤差。
對模型式(4)作對數(shù)變換,可將其轉(zhuǎn)換為一般的變系數(shù)模型:
(5)
對模型式(4)進行估計,最直接的方法就是將其轉(zhuǎn)換為模型式(5),再利用最小二乘法對其進行估計,但是最小二乘法具有不穩(wěn)健的缺點。同樣地,對模型式(4)中的響應變量Y進行預測時,可以先對模型式(5)中的Y*進行預測,再通過指數(shù)變換得到Y(jié)的預測值,但是在這個估計和預測的過程中始終考慮的是絕對誤差,而在實際應用中,對于正響應變量,更多的是關(guān)注相對誤差而不是絕對誤差。因此,本文基于相對誤差思想,將Chen等[8]提出的LPRE準則應用于變系數(shù)乘積模型式(4)。
鑒于B樣條基函數(shù)具有良好的理論性質(zhì),類似呂晶[13],本文利用B樣條基函數(shù)去逼近模型式(4)中的未知函數(shù)系數(shù)β(·)。
令B(u)=(B1(u),…,BKn(u))T為B樣條基函數(shù),則函數(shù)系數(shù)βj(·)可逼近為如下形式:
(6)
其中,γj=(γj1,…,γjKn)T為B樣條系數(shù)向量,Kn=J+m+1為基函數(shù)的個數(shù),J為內(nèi)節(jié)點的個數(shù),m為樣條的階,{Bk(·),k=1,2,…,Kn}是線性空間Gj的一組基,其中Gj由[0,1]區(qū)間上(m+1)階的B樣條函數(shù)構(gòu)成?;诤瘮?shù)系數(shù)βj(·)的近似形式式(6),模型式(4)可表示為如下形式:
(7)
(8)
(9)
由此,求解模型式(4)中未知函數(shù)系數(shù)的估計就轉(zhuǎn)化為求解模型式(8)中參數(shù)向量γ的估計。
為了選出模型式(4)中的重要變量,需要將不重要變量的系數(shù)壓縮為0。由于Fan等[2]提出的SCAD懲罰函數(shù)具有將較小系數(shù)壓縮為0,對較大系數(shù)不進行壓縮,能使模型偏差更小的優(yōu)點,且該懲罰函數(shù)是一個凸函數(shù),能夠得到全局最優(yōu)解,在優(yōu)化時不會陷入局部最優(yōu)解,因此,本文將SCAD懲罰函數(shù)應用于變系數(shù)乘積模型。
令pλn(·)為SCAD懲罰函數(shù),其一階導數(shù)定義為如下形式:
其中,a>2,θ>0,λn為調(diào)整參數(shù)。為此,本文考慮以下懲罰目標函數(shù):
(10)
由目標函數(shù)式(9),容易看出該目標函數(shù)是可微的,所以最小化該目標函數(shù)就等價于求解該目標函數(shù)的一階偏導數(shù)等于0的根,即
(11)
當‖γn+1-γn‖<δ時,例如δ=10-8,稱迭代收斂,其中‖·‖表示向量的Euclidean范數(shù)。
(12)
進一步,去除一些常數(shù)部分,則目標函數(shù)式(10)可以被近似為以下形式:
(13)
當‖γ(n+1)-γ(n)‖<δ時,例如δ=10-8,稱迭代收斂。
實際應用中,調(diào)整參數(shù)的選取會直接影響估計的結(jié)果,因此,選擇合適的調(diào)整參數(shù)對于接下來的模擬仿真和實證研究是十分重要的。
首先,本文采用三次B樣條(即m=3),為了計算更簡便,采用等距節(jié)點,并且類似明浩等[15]取內(nèi)節(jié)點的個數(shù)J=[n1/(2m+1)],其中[c]表示不超過c的最大整數(shù);其次,基于Fan等[2]的建議,取a=3.7;最后,鑒于貝葉斯信息準則(Bayesian Information Criterion,即BIC)的良好理論性質(zhì),利用BIC準則選取最優(yōu)的λn,即通過最小化以下目標函數(shù)來選取λn:
考慮如下變系數(shù)乘積模型:
表1 模擬結(jié)果
從表1的模擬結(jié)果可以看出:對于給定的模型,兩種方法的結(jié)果受不同的誤差分布影響。首先,當誤差的對數(shù)服從正態(tài)分布時,關(guān)于NCF與RASE值方面,LPRE-S方法比LS-S方法表現(xiàn)得更好,這說明了LPRE-S方法比LS-S方法更有效,且LPRE-S變量選擇的結(jié)果幾乎一致最好。其次,當誤差的對數(shù)服從(-2,2)上的均勻分布時,仍然是LPRE-S方法的結(jié)果更好,且相比于logε服從標準正態(tài)分布時,LPRE-S方法和LS-S方法的結(jié)果都稍好一點。最后,當樣本量增大時,LPRE-S估計方法選出真實模型的比率隨之提高,幾乎接近1,且NPenalized與NOracle更加接近,這充分說明了本文所提方法的有效性。
為了進一步說明所提方法的實用性,將所提LPRE-S方法應用于股票指數(shù)的跟蹤,選取深證紅利指數(shù)及其成分股作為實證研究對象。深證紅利指數(shù)是指40只能夠為深圳股市投資者提供長期穩(wěn)定回報的股票,是深圳巨潮紅利指數(shù)的縮影。本文數(shù)據(jù)來源于西南證券金點子財富管理終端,采用2019-01-02—2021-02-26期間,深證紅利指數(shù)及其40只成分股的522個日線收盤價數(shù)據(jù)進行研究。
將深證紅利指數(shù)作為響應變量Y,40只成分股作為協(xié)變量X,成分股中的鞍鋼股份作為指標變量U,考慮隨機模擬中的LPRE-S和LS-S兩種方法,同時對所有協(xié)變量進行標準化。由于影響股票指數(shù)的因素較多,且作用機制較復雜,這使得預測股票指數(shù)的長期走勢非常困難,但是在短期預測中往往能夠取得較好的效果。因此,為了檢驗模型的預測能力,令T=0,1,…,121,取第1天到第(400+T)天的數(shù)據(jù)作為訓練集,利用訓練集獲得參數(shù)和非參函數(shù)的估計,然后通過訓練集上獲得的預測模型來預測第(400+T+1)天的深證紅利指數(shù),從而得到第401天到第522天的122個預測值,其預測效果如圖1、圖2所示。
圖1 LPRE-S方法實際值與預測值走勢圖
圖2 LS-S方法實際值與預測值走勢圖
通過觀察圖1、圖2,發(fā)現(xiàn)在前60天的預測中,LPRE-S方法的實際走勢與預測走勢幾乎一致,易見其預測效果優(yōu)于LS-S方法,而后62天,LPRE-S方法預測效果沒有前60天預測效果好,且后60天兩種方法的預測效果差別不是很明顯。但是,通過計算得到,LPRE-S方法在第401天到第522天所得殘差平方和為2 219 764,LS-S方法在第401天到第522天所得殘差平方和為3 322 961,即LPRE-S方法的殘差平方和要小于LS-S方法的殘差平方和。
為了進一步對以上兩種估計方法的預測效果進行比較,類似Chen等[8]建立以下4種中位數(shù)指標評價LPRE-S估計方法和LS-S估計方法:
表2 LPRE-S和LS-S兩種方法預測誤差的中位數(shù)比較結(jié)果
對于表2中的4種中位數(shù)指標,值越小的方法,其預測效果越有效。從表2的結(jié)果可以看出:LPRE-S方法在每種中位數(shù)指標下的值都比LS-S方法的值小,即LPRE-S方法的結(jié)果優(yōu)于LS-S方法。由此,進一步說明了本文所提方法能更加有效追蹤股票指數(shù)。
本文基于B樣條函數(shù)逼近技術(shù),將LPRE準則和組SCAD懲罰函數(shù)結(jié)合起來,應用于變系數(shù)乘積模型,利用牛頓迭代法和局部二次近似給出了所提方法的計算算法,并闡釋了如何選取調(diào)整參數(shù)。通過數(shù)值模擬對LPRE-S估計方法和LS-S估計方法進行了比較,發(fā)現(xiàn)LPRE-S估計方法選出真實模型的比率幾乎接近1,且NPenalized與NOracle十分接近,這說明了LPRE-S估計方法能更好地達到變量選擇的目的,證明了所提方法的有效性。為了進一步說明所提方法的實用性,用LPRE-S估計方法實現(xiàn)了對深證紅利指數(shù)的跟蹤預測,并與LS-S估計方法的預測效果進行了對比。通過比較122個預測值的殘差平方和與4種不同的預測誤差中位數(shù)指標,發(fā)現(xiàn)LPRE-S估計方法效果優(yōu)于LS-S估計方法,說明了本文所提方法在股指跟蹤中具有較好的預測效果。