秦曄玲,朱建平
(1.太原理工大學(xué) 數(shù)學(xué)學(xué)院,山西 晉中 030600;2.廈門大學(xué)a.管理學(xué)院;b.數(shù)據(jù)挖掘研究中心,福建 廈門 361005)
計(jì)算機(jī)科學(xué)的快速發(fā)展使得當(dāng)代科學(xué)研究能夠很容易地收集到海量數(shù)據(jù)集,特別是在金融領(lǐng)域。金融證券可以說是當(dāng)代經(jīng)濟(jì)學(xué)的焦點(diǎn)之一,金融范疇中受到關(guān)注的一個(gè)重要問題就是投資組合管理。近年來關(guān)于指數(shù)化方面的投資發(fā)展迅速,指數(shù)跟蹤技術(shù)的目的是使投資者在精準(zhǔn)復(fù)制標(biāo)的指數(shù)市場(chǎng)表現(xiàn)的基礎(chǔ)上,獲得較高利益。
完全復(fù)制和非完全復(fù)制為指數(shù)跟蹤中最具代表性的兩種方法。跟蹤股票組合的最終目的為取得與標(biāo)的指數(shù)大體相一致的收益;在評(píng)定實(shí)際的指數(shù)跟蹤效果中,跟蹤股票組合收益和標(biāo)的指數(shù)收益之間的偏離程度可以設(shè)定為跟蹤股票組合優(yōu)劣的重要指標(biāo)之一。該偏離程度可以用跟蹤誤差來衡量。
Markowitz(1952)[1]提出的均值-方差理論,在一定意義上可以看做是近代金融學(xué)的開端。但基于金融市場(chǎng)的股票收益率之間強(qiáng)共線性的原因,該理論構(gòu)建的組合并不穩(wěn)定;且在構(gòu)建股票組合時(shí)沒有全面地考慮到交易成本的影響,使得在數(shù)據(jù)的實(shí)際研究中很容易產(chǎn)生空頭頭寸,這一缺點(diǎn)使得該方法并不適用于我國(guó)的實(shí)際金融市場(chǎng)。針對(duì)上述問題,本文找到一種有效的解決方法,即選擇股票構(gòu)建組合進(jìn)行投資,應(yīng)用高維變量選擇方法進(jìn)行股票選擇。
高維變量選擇不僅廣泛應(yīng)用于生物醫(yī)學(xué),而且在指數(shù)跟蹤的研究領(lǐng)域也被大量引入。傳統(tǒng)的子集選擇法是較為經(jīng)典的高維變量選擇方法,但該方法受實(shí)際數(shù)據(jù)的局限,且不穩(wěn)定。較子集選擇法更穩(wěn)定的方法是嶺回歸,但嶺回歸只能壓縮系數(shù),不能將變量系數(shù)收縮到零達(dá)到完全剔除變量的目的,即達(dá)不到變量挑選的效果。高維變量選擇的流行方法為L(zhǎng)asso算法,它不僅克服了上述子集選擇和嶺回歸的各種缺點(diǎn),而且實(shí)現(xiàn)了變量選擇和參數(shù)估計(jì)同時(shí)進(jìn)行,所以被優(yōu)先使用在指數(shù)跟蹤領(lǐng)域的變量選擇中。
針對(duì)數(shù)量龐大的金融資產(chǎn)的有效選擇,本文將統(tǒng)計(jì)中自適應(yīng)Lasso選元方法應(yīng)用到股票選擇中,并且從實(shí)際情況出發(fā),針對(duì)股票的特征加入非負(fù)約束,應(yīng)用非負(fù)自適應(yīng)Lasso變量選擇方法,選取一定數(shù)量的股票進(jìn)行組合構(gòu)建最終達(dá)到良好的指數(shù)跟蹤效果,更好地平衡因數(shù)量過多產(chǎn)生的高交易成本和因數(shù)量較少出現(xiàn)的大跟蹤誤差。
在指數(shù)跟蹤問題的相關(guān)研究中,Larsen等(1998)[2]考慮股票數(shù)量及變更組合時(shí)機(jī)對(duì)于股票組合的影響,Bamberg等(2000)[3]考慮線性回歸方法在最優(yōu)組合選擇方面的應(yīng)用,Zorin等(2002)[4]考慮指數(shù)跟蹤的神經(jīng)網(wǎng)絡(luò)方法。李儉富等(2006)[5]在證券價(jià)格時(shí)間序列基礎(chǔ)上提出協(xié)整優(yōu)化的指數(shù)跟蹤算法。但這些方法存在模擬復(fù)雜,計(jì)算耗時(shí)長(zhǎng),沒有充分利用歷史數(shù)和據(jù)信息等不足。在前人研究的基礎(chǔ)上,劉睿智等(2012)[6]將Lasso變量選擇方法應(yīng)用到投資組合研究中,并取得很好的效果。
本文主要基于自適應(yīng)Lasso的變量選擇視角選取適當(dāng)?shù)哪M算法進(jìn)行具體的股票選擇,并將深滬300兩年的歷史數(shù)據(jù)作為實(shí)證進(jìn)行具體分析。研究?jī)?nèi)容包括自適應(yīng)Lasso方法在股票選擇中的理論依據(jù)和實(shí)際效果兩個(gè)方面,關(guān)于股票選擇的跟蹤效果也進(jìn)行了具體分析和實(shí)證對(duì)比。結(jié)果表明,自適應(yīng)Lasso在股票選擇中有很好的效果。
在傳統(tǒng)的投資組合領(lǐng)域中,資產(chǎn)池固定,無需重新選擇資產(chǎn)直接進(jìn)行配置;而在現(xiàn)代金融投資組合領(lǐng)域,市場(chǎng)中資產(chǎn)數(shù)目眾多,數(shù)據(jù)量龐大,上述均值-方差模型在使用傳統(tǒng)最小二乘回歸方法進(jìn)行股票選擇時(shí)還存在著一些缺陷:(1)資產(chǎn)收益之間的共線性問題,協(xié)變量之間的共線性問題是股票的相互關(guān)聯(lián)性在具體模型中的反映;(2)欠缺對(duì)交易費(fèi)用的考慮,交易費(fèi)用直接影響投資收益率,它是股票投資的重要因素;(3)各項(xiàng)資產(chǎn)的收益率或波動(dòng)率對(duì)于權(quán)重結(jié)果的影響較大,造成結(jié)果不穩(wěn)定;(4)協(xié)方差矩陣估計(jì)困難,甚至出現(xiàn)因選取樣本量較少而導(dǎo)致矩陣X不可逆的情況,估計(jì)累計(jì)誤差巨大等一系列問題使得普通最小二乘法有誤。
針對(duì)普通最小二乘回歸選股方法產(chǎn)生的一系列問題,一個(gè)較為直接的解決辦法就是投資者需要對(duì)市場(chǎng)內(nèi)的資產(chǎn)進(jìn)行初步篩選。股票市場(chǎng)的股票非常豐富,需要合理地選擇成分股的子集,即部分復(fù)制,然后進(jìn)行指數(shù)跟蹤,使得跟蹤誤差最小化,以期望取得較好效果。以變量選擇方法為基本思想的股票選擇可以有效地解決上述問題。關(guān)于從大樣本數(shù)據(jù)中篩選有效信息的問題,Breiman(1995)[7]指出,傳統(tǒng)的最優(yōu)子集變量選擇方法計(jì)算量龐大且結(jié)果不穩(wěn)定,即變量選擇結(jié)果對(duì)于實(shí)際操作中數(shù)據(jù)集的變動(dòng)十分敏感。所以本文采用現(xiàn)代研究中較為流行的基于系數(shù)收縮的最優(yōu)子集變量選擇方法。
關(guān)于系數(shù)收縮的最優(yōu)子集變量選擇的具體方法,Tibshirani(1996)[8]提出Lasso回歸算法,該方法的本質(zhì)是在回歸系數(shù)的絕對(duì)值之和小于一個(gè)常數(shù)的約束條件下,最小化殘差平方和。Lasso方法不但能夠有效地解決高維數(shù)據(jù)問題,而且能夠得到完全的稀疏模型,它解決了之前最小二乘法的不穩(wěn)定性和方差大的問題。Lasso方法優(yōu)于古典的變量選擇方法的一個(gè)具體表現(xiàn)為它是一個(gè)連續(xù)的過程,從而產(chǎn)生穩(wěn)定的結(jié)果;同時(shí),它的計(jì)算量小,易于實(shí)現(xiàn)。所以該方法在篩選變量方面得到廣泛應(yīng)用,Wu等(2014)[9]將該方法應(yīng)用于經(jīng)濟(jì)領(lǐng)域的指數(shù)跟蹤并且在實(shí)證分析中取得較好的效果。
然而Lasso方法本身存在著一些缺陷:當(dāng)處理共線性問題時(shí),Lasso的選擇效果減弱;它的系數(shù)估計(jì)為有偏估計(jì);只有在一定正則條件下才滿足變量選擇一致。針對(duì)上述問題,Zou(2006)[10]對(duì)其進(jìn)行改進(jìn),在l1的懲罰系數(shù)前加自適應(yīng)權(quán)重,使改進(jìn)后的方法具有了“神諭”性質(zhì)。自適應(yīng)Lasso為凸優(yōu)化問題,權(quán)重與數(shù)據(jù)相關(guān),選取明確,它既保持了Lasso變量選擇方法的諸多優(yōu)點(diǎn),又能夠有效地減少具體操作是在使投資組合的變動(dòng)趨勢(shì)與標(biāo)的指數(shù)大體相一致的基礎(chǔ)上,達(dá)到減小跟蹤誤差,取得與標(biāo)的指數(shù)收益率相同的目的。指數(shù)跟蹤是指數(shù)基金的核心,對(duì)于指數(shù)跟蹤模型,設(shè) X=(x1,...,xp)是 p只股票多頭頭寸,y為1單位指數(shù)的多頭頭寸,則-y為1單位指數(shù)的空頭頭寸。由Markowitz均值-方差理論,所建立的模型是在保持組合收益率一定的情況下選擇系數(shù)使得組合方差極小化,且該組合頭寸的期望收益率為零,則實(shí)質(zhì)上是回歸模型[6],表示為模型參數(shù)估計(jì)的有偏性,所以該優(yōu)化方法受到廣泛關(guān)注且應(yīng)用到實(shí)際變量選擇的諸多方面。
本文基于Lasso變量選擇方法將改進(jìn)后的自適應(yīng)Lasso方法應(yīng)用到股票投資組合的初選中,并且考慮到股票的以下兩個(gè)特點(diǎn),給系數(shù)估計(jì)加上非負(fù)約束條件:(1)股票中成分股的份額總是為正;(2)國(guó)家對(duì)于股市的賣空現(xiàn)象加強(qiáng)監(jiān)督,以穩(wěn)定股票市場(chǎng)。將其稱為非負(fù)自適應(yīng)Lasso變量選擇方法。
本文使用部分吸收來進(jìn)行指數(shù)跟蹤,即選擇成分股的一個(gè)小子集,僅選擇30只成分股,使跟蹤誤差最小化。不同的股票選擇方法會(huì)產(chǎn)生不同的選取結(jié)果,從而產(chǎn)生不同的跟蹤效果。本文發(fā)現(xiàn),選擇權(quán)重最大的30只股票和Lasso方法選擇30只股票產(chǎn)生的跟蹤誤差均大于本文中統(tǒng)計(jì)方法選擇的結(jié)果。
非負(fù)自適應(yīng)Lasso的系數(shù)估計(jì)為:
自適應(yīng)Lasso模型是在Lasso算法的基礎(chǔ)上改進(jìn)而成,其系數(shù)估計(jì)由回歸擬合的優(yōu)良性和懲罰兩部分構(gòu)成。其中,懲罰項(xiàng)通過把較小的系數(shù)向0完全收縮達(dá)到剔除對(duì)應(yīng)協(xié)變量的效果。自適應(yīng)Lasso方法的一個(gè)突出優(yōu)點(diǎn)是,通過調(diào)節(jié)權(quán)重系數(shù),使得不同參數(shù)相應(yīng)的懲罰不同,初始估計(jì)取倒數(shù)使得初始參數(shù)估計(jì)值較大的變量對(duì)應(yīng)較小的權(quán)重系數(shù)和較小的懲罰,初始估計(jì)值較小的變量對(duì)應(yīng)較大的權(quán)重系數(shù)和較大的懲罰。當(dāng)某個(gè)自變量的初始估計(jì)值較大時(shí),該自變量在自適應(yīng)Lasso中權(quán)重系數(shù)就較小,即對(duì)應(yīng)的懲罰就小,這樣就保證了其以較高概率進(jìn)入模型,即更容易被選擇。
許多為L(zhǎng)asso設(shè)計(jì)的成熟算法,如最小角回歸算法lars和glmnet,適當(dāng)修改之后可以用來解決自適應(yīng)Lasso的問題,但其算法并不簡(jiǎn)單。考慮到自適應(yīng)Lasso實(shí)質(zhì)是二次規(guī)劃問題,且在本文的實(shí)際情況中有非負(fù)約束條件,為了計(jì)算的快速與簡(jiǎn)單,本文運(yùn)用類似梯度下降法的迭代算法——乘性更新。該方法主要用來解決具有非負(fù)約束條件的二次規(guī)劃問題[11]:
其中,υ=(υ1,...,υn)′為 n 維列向量,υ′是 υ的轉(zhuǎn)置,A∈Rn×n是對(duì)稱正定矩陣。乘性更新是一種特殊的迭代算法,設(shè):
當(dāng)給定一個(gè)非負(fù)調(diào)節(jié)參數(shù)λn時(shí),非負(fù)自適應(yīng)Lasso是以下二次規(guī)劃問題的解:
迭代算法中相應(yīng)參數(shù)改變?yōu)椋篴i=((X′X)+β)i,ci=((X′X)-β)i,bi=(λnW-X′y)i,然后就可以用非負(fù)自適應(yīng)Lasso估計(jì)出β。迭代過程中涉及一個(gè)調(diào)節(jié)參數(shù)λn,利用類似對(duì)分法的方式選擇λn:分別選取較大的λn和較小的λn估計(jì)參數(shù);然后調(diào)節(jié)λn使得選出的成分股恰好為30只[12]。
本文使用的數(shù)據(jù)集包括深滬300指數(shù)的股票價(jià)格和深滬300指數(shù)的300只成分股的股票價(jià)格。樣本的時(shí)間區(qū)間分為兩部分:2011年1月1日至2012年12月31日和2015年1月1日至2015年12月31日。其中,2015年數(shù)據(jù)用于第一部分模型擬合與預(yù)測(cè),2011—2012年數(shù)據(jù)用于指數(shù)跟蹤效果分析。深滬300成份股每年調(diào)整兩次,但成分的變化基本不大,所以本文以收集數(shù)據(jù)截止日期的成份股為準(zhǔn),進(jìn)入成份股之前的收益率視為零,被剔除的成份股將不再計(jì)入數(shù)據(jù)。
對(duì)于股票價(jià)格Pt,定義日收益率為t=1,...,T。協(xié)變量 xi,t=ri,t,i=1,...,300 表示第 i支成分股的收益率,yt=r0,t表示深滬300指數(shù)收益率,則模型表示為:
其中,βi是第i個(gè)成分股的權(quán)重,εt是隨機(jī)誤差項(xiàng)。本文的目的就是應(yīng)用非負(fù)自適應(yīng)Lasso統(tǒng)計(jì)模型來估計(jì)系數(shù)β。
指數(shù)跟蹤效果分析中,部分吸收的偏差用跟蹤誤差(TE)來度量,定義為:
其中,mean(err)是 errt的均值,t=1,...,T ,errt=yt-是 yt的擬合值或者預(yù)測(cè)值。
選擇2015年的數(shù)據(jù)進(jìn)行擬合和預(yù)測(cè)。1月至10月的數(shù)據(jù)進(jìn)行模型擬合及系數(shù)估計(jì),11月和12月數(shù)據(jù)進(jìn)行預(yù)測(cè)。通過R程序,自適應(yīng)Lasso方法選擇出的30只成份股,估計(jì)出的股票權(quán)重系數(shù)如表1所示,擬合及預(yù)測(cè)曲線如圖1和圖2所示。
表1 自適應(yīng)Lasso方法選股權(quán)重
圖1 1月至10月數(shù)據(jù)擬合曲線
圖2 11月和12月數(shù)據(jù)預(yù)測(cè)曲線
表1結(jié)果顯示,本文提出的自適應(yīng)Lasso算法選擇出的30只股票跟蹤組合中,有3只股票的權(quán)重占到6%以上,有3只股票的權(quán)重達(dá)不到1%,有24只股票的權(quán)重均在1%~6%之間,與Lasso選擇方法的結(jié)果相比較,該方法的權(quán)重分布更為均勻[6]。權(quán)重系數(shù)分布的趨勢(shì)越集中,越不利于指數(shù)跟蹤,受大權(quán)重股的影響跟蹤效果變差,從這個(gè)角度分析,自適應(yīng)Lasso方法較優(yōu)。
表1中選擇出的30只成分股擬合曲線如圖1所示,圖中空心圓形為深滬300股票的日收益率實(shí)際值,實(shí)心圓形為預(yù)測(cè)值。虛線和實(shí)線曲線的走勢(shì)相同,偏離程度較小,除拐點(diǎn)外,兩條曲線在一定程度上幾乎重合,說明該時(shí)間段內(nèi)目標(biāo)指數(shù)的跟蹤效果良好。
圖2(a)中,曲線為自適應(yīng)Lasso選擇變量并同時(shí)預(yù)測(cè)參數(shù)的擬合結(jié)果;圖2(b)中,右邊曲線為自適應(yīng)Lasso選擇變量之后進(jìn)行非負(fù)線性回歸的擬合結(jié)果,兩條曲線幾乎重合。圖2中結(jié)果對(duì)比顯示,第二種方法的性能明顯優(yōu)化。在今后的其他模擬實(shí)驗(yàn)中,不妨用二階段方法來進(jìn)行系數(shù)估計(jì),即變量選擇和系數(shù)估計(jì)分兩部分進(jìn)行,其模型性能會(huì)有所提高。
選取2011—2012年的數(shù)據(jù)對(duì)自適應(yīng)Lasso的變量選擇方法在指數(shù)跟蹤方面的應(yīng)用效果進(jìn)行詳細(xì)分析。本文用一個(gè)時(shí)間窗口劃分?jǐn)?shù)據(jù)集:前六個(gè)月的數(shù)據(jù)用于建模,隨后一個(gè)月的數(shù)據(jù)進(jìn)行預(yù)測(cè),則共有18個(gè)擬合樣本,18個(gè)預(yù)測(cè)樣本。由表1中選股結(jié)果可以看出,基于自適應(yīng)Lasso方法選出的股票并不是對(duì)指數(shù)具有很大貢獻(xiàn)的超大盤股,這并不符合傳統(tǒng)認(rèn)識(shí)。以Lasso選股方法,自適應(yīng)Lasso選股結(jié)果與具有代表性的大權(quán)重股票組合基于跟蹤誤差進(jìn)行對(duì)比分析,分別計(jì)算擬合跟蹤誤差和預(yù)測(cè)跟蹤誤差,其中前6個(gè)樣本(2011年)的指數(shù)跟蹤結(jié)果如表2所示。
表2 2011年數(shù)據(jù)跟蹤效果分析,擬合和預(yù)測(cè)跟蹤誤差(TE)
通過表2可以看出,三種方法選擇出的30只股票組合跟蹤誤差均未超過2%,則意味著指數(shù)跟蹤差異并不顯著,指數(shù)跟蹤風(fēng)險(xiǎn)小。綜合考慮上述三種方法,自適應(yīng)Lasso方法在指數(shù)跟蹤應(yīng)用中具有明顯優(yōu)勢(shì)。首先在權(quán)重系數(shù)方面,自適應(yīng)Lasso方法得到的權(quán)重系數(shù)分布均勻,并沒有明顯的集中趨勢(shì),這使得在實(shí)際操作中可以有效規(guī)避非系統(tǒng)性風(fēng)險(xiǎn)。其次在跟蹤誤差方面,其數(shù)值都在0.6%以內(nèi),跟蹤效果較好。
本文通過變量選擇的基本觀點(diǎn)對(duì)股票選擇進(jìn)行了一些探討,介紹了非負(fù)自適應(yīng)Lasso選股方法在指數(shù)跟蹤實(shí)際應(yīng)用中的優(yōu)點(diǎn),即保留Lasso算法的稀疏性從而達(dá)到選擇股票的目的,同時(shí)使組合中產(chǎn)生非空頭寸,減小模型的不穩(wěn)定性和跟誤差,對(duì)交易費(fèi)用的懲罰更加合理。實(shí)證結(jié)果表明:(1)自適應(yīng)Lasso方法在股票選擇應(yīng)用方面具有很好的效果。(2)自適應(yīng)Lasso方法得出的權(quán)重分布相對(duì)均勻。(3)金融角度的觀點(diǎn)認(rèn)為,小規(guī)模證券由于數(shù)據(jù)相對(duì)缺乏,不能有效地跟蹤模擬指數(shù)的走勢(shì)。但本文自適應(yīng)Lasso算法構(gòu)建的30只股票中,系數(shù)的權(quán)重分布相對(duì)均勻,且考慮到交易費(fèi)用低。所以對(duì)于小型投資者來說,在證券市場(chǎng)穩(wěn)定的基礎(chǔ)上,該選股方法值得一試。
本文關(guān)于指數(shù)跟蹤問題的些研究還存在以下不足:(1)自適應(yīng)Lasso方法得出的成分股權(quán)重系數(shù)之和不為1,不滿足指數(shù)跟蹤問題的實(shí)際要求??梢詰?yīng)用歸一化方法(各股權(quán)重除以成分股權(quán)重之和)來進(jìn)行調(diào)整,但這種方法并沒有金融角度的理論支持。(2)指數(shù)跟蹤的最終目的是將研究的方法應(yīng)用到金融方向的實(shí)際問題中,但本文只做了初步的理論研究,并沒有展開實(shí)際操作。后續(xù)工作可以將其選股方法應(yīng)用于更現(xiàn)實(shí)的實(shí)際問題中。
對(duì)于金融系統(tǒng)的其他應(yīng)用,可以試著將本文中的變量選擇方法應(yīng)用于金融風(fēng)控的信用評(píng)估階段,構(gòu)建評(píng)分卡模型,改變傳統(tǒng)方法中的變量選擇過程,盡量解決平臺(tái)間數(shù)據(jù)稀疏的問題。自適應(yīng)Lasso不僅在實(shí)踐上具有較好的實(shí)用性,在理論上也具有優(yōu)良的性質(zhì),相信它會(huì)在未來的金融領(lǐng)域中發(fā)揮更大的作用。