黃 雯
(銅陵學(xué)院,安徽 銅陵244000)
經(jīng)過近二十年的發(fā)展,我國的股市越發(fā)成熟和完善.因此,學(xué)術(shù)界針對我國股票市場的相關(guān)研究也越來越多,研究的成果也比較豐富,目前跟市場有關(guān)的研究普遍與股市收益率有關(guān).正是由于收益率的隨機性透漏了投資風(fēng)險的相關(guān)信息,以致于人們更加關(guān)注收益率隨機性的重要性,認為其是決定是否能投資的信號.
由于經(jīng)典經(jīng)濟學(xué)理論大多數(shù)都是建立在正態(tài)分布、對數(shù)的正態(tài)分布理論基礎(chǔ)之上,因此線性范式在當代的金融經(jīng)濟學(xué)中長期處于主流地位.股票市場收益率可以反映一段時間內(nèi)股市波動情況,為了方便研究分析,在經(jīng)典的計量模型中股票市場收益率往往被假設(shè)為是服從正態(tài)分布的.而事實上,仍有比較多的學(xué)者對此持質(zhì)疑態(tài)度,他們經(jīng)過多方研究并最終認為股票市場收益率被假設(shè)為服從正態(tài)分布是錯誤的.因為幾乎所有的股票價格的變動情況都呈現(xiàn)一種尖峰現(xiàn)象,意味著其在平均值附近的數(shù)據(jù)值比正態(tài)分布明顯要多,不少學(xué)者發(fā)現(xiàn)正是因為某些異常值的存在導(dǎo)致了這種尖峰分布,因此在研究過程中通常會剔除這些異常值.比如,陶亞民(1999)在去掉了“異常值”的條件下,經(jīng)過研究發(fā)現(xiàn)滬市收益率是呈正態(tài)分布特征的.但是Mandelbrot(1963)認為“異常值”的存在并非是偶然的,因為幾乎所有股票收益率數(shù)據(jù)的共同特征就是尖峰和肥尾,所以這些“異常值”恰好說明了股票收益率不服從正態(tài)分布的假設(shè),不能簡單地將它們從數(shù)據(jù)中剔除掉.陳啟歡(2002)在對我國股票市場收益率分布曲線進行實證分析時,也發(fā)現(xiàn)我國股市收益率并不服從正態(tài)分布.
事實上,要想準確描述經(jīng)濟變量之間的關(guān)系模式并不容易,因為它們并不是簡單的線性模式或可以轉(zhuǎn)化為線性關(guān)系的非線性模式.一旦模型假設(shè)條件與實際情況不符合時,那么估計結(jié)果就會有誤差.這種情況下,根據(jù)經(jīng)典假設(shè)模型做出的推斷,其可信度很低.為了防止經(jīng)典參數(shù)模型導(dǎo)致的模型設(shè)定誤差,并能準確描述尖峰分布的特征,因此我們選擇非參數(shù)估計方法來解決這類問題,它能針對經(jīng)濟變量之間的非線性關(guān)系作出較為準確的估計.所以,本文在收益率呈非正態(tài)分布的基礎(chǔ)上,以上證A 股指數(shù)收益率為對象,采用非參數(shù)核密度估計方法對其進行研究分析.
作為估計隨機變量密度函數(shù)的核密度估計,是非參數(shù)估計方法的其中一種.而我們常用的參數(shù)估計,例如傳統(tǒng)的線性與非線性回歸,都是在假設(shè)變量之間存在確定函數(shù)形式的基礎(chǔ)上進行估計的.而在非參數(shù)估計中,自變量和因變量的分布都可以是未知的,并且對變量之間的函數(shù)形式也沒有任何限定,具有很強的靈活性.因此,在變量分布和函數(shù)形式都不確定的情況下,非參數(shù)估計能為確立變量間的回歸方程式提供很好的方法,并且其結(jié)果的準確性也更高.
核密度估計的思路方法如下:
假設(shè)總體分布未知,已知其密度函數(shù)為f(x),而x1,x2,…,xn是從總體中抽取的獨立同分布樣本,現(xiàn)在我們要利用這些樣本的信息,對每個x 對應(yīng)的f(x)值作出估計.
直方圖估計作為最典型的密度估計方法,從中能夠推導(dǎo)出核密度估計.在使用直方圖估計時,首先將直線用點分割成許多節(jié)點與長度均固定的計數(shù)區(qū)間.設(shè)獨立同分布樣本x1,x2,…,xn落在第i 個計數(shù)區(qū)間[ai,ai+1)里的單位數(shù)為Ni,那么在[ai,ai+1)區(qū)間范圍內(nèi),密度函數(shù)f(x)的估計值就可以表達為:
顯然這種情況下階梯函數(shù)是直方圖估計的結(jié)果.假如對于每一個x 的取值,都以其為中點,各做一個統(tǒng)計區(qū)間[x-h(huán),x+h),并記錄下落在該統(tǒng)計區(qū)間的樣本個數(shù),記為N(x,h),則對密度函數(shù)的估計可以寫成如下形式:
在核密度估計中,能夠?qū)Ⅻc一直維持在計數(shù)區(qū)間的中心,因為其分割區(qū)間的節(jié)點不是確定的,是隨著x 的變化而改變的.這是它與直方圖估計最大的區(qū)別.但是在這種情況下,通常計數(shù)區(qū)間的寬度h 是相等的.此時假如引進均勻核函數(shù)K0(x)=那么區(qū)間劃分節(jié)點可變的的密度函數(shù)其估計值可表達為:
在此基礎(chǔ)之上,Parzen(1962)發(fā)現(xiàn),降低對該核函數(shù)形式的約束,只要保證其積分為1(最好還為恒正),就可以推導(dǎo)出密度核估計的一般形式:
式中h 為窗寬,K(·)為核函數(shù).
除此之外,核密度估計還可以由經(jīng)驗分布函數(shù)推導(dǎo)出來.我們可以用經(jīng)驗分布函數(shù)F(x)=中小于x 的個數(shù))來表示落在以x為中心,窗寬為2h 計數(shù)區(qū)間里的樣本個數(shù),它是一種從-∞一直計到x 為止的計數(shù)方式.此時估計的密度函數(shù)為:
核函數(shù)形式放寬后,一般來說,要求核函數(shù)滿足以下條件:
在選擇核函數(shù)時,可以考慮概率密度函數(shù),因為上述條件,普通的概率密度函數(shù)通常都能達到的.而對于窗寬h 的選擇,要考慮到它與樣本數(shù)的關(guān)系,通常窗寬與樣本數(shù)是呈反比的,但窗寬也不能太小,窗寬是樣本數(shù)的函數(shù),且滿足上面給定的核函數(shù)條件和窗寬條件,那么密度函數(shù)f(x)的核估f(x)計就是f(x)的漸近無偏估計和一致估計.
下面介紹幾種常用的核函數(shù):均勻核K0(x)高斯核 K1(x)=(2π)-1/2exp(-x2/2),Epanechnikov 核K2(x)=0.75(1-x2),三角形核K3(x)=(1-|x|),四次方核,六次方核K7(x)通常在大樣本的情況下,非參數(shù)估計對核函數(shù)的選擇并不敏感,但是,窗寬h的選擇對估計的效果影響較大.一般來說,h 取值相對越大,f(x)的函數(shù)曲線就相對平滑,可是其產(chǎn)生的誤差也有可能變大.相反,假如h 取值相對較小,最后形成的密度函數(shù)圖形與樣本取數(shù)較為吻合,卻又變得不平滑,也就是方差稍大.因此,窗寬h 的任一取值不能同時滿足密度函數(shù)估計的誤差縮小和方差變小.所以,在實際操作中,選擇窗寬h時需要在核密度函數(shù)估計的誤差與方差之間做好平衡,其積分均方誤差A(yù)MISE(^f(x))成為最小值時的h 值就是其最優(yōu)選擇.選擇h 的方法有許多,比如交錯鑒定選擇法,直接插入選擇法,在每個局部選擇各不相同的h 值,也可以估計出一個較為平滑的關(guān)于窗寬h 的窗寬函數(shù)等^h(x)2.
可以證明,在很一般的正則條件下,使積分均方誤差極小化的任何h 取值一定與n-1/5成比例[3].由此得到,一般的最佳窗寬選擇為h=cn-1/5(其中c 為常數(shù)),通過不斷地調(diào)整c,使得所采用的窗寬h=cn-1/5的核估計達到滿意的估計結(jié)果.h 的兩個常見選擇為:
其中,n 為樣本個數(shù).s 為xi的標準差為數(shù)據(jù)的0.75 分位數(shù)估計值和0.25 分位數(shù)估計值之差.因子1.059 實際上就是(4/3)1/5,是通過最優(yōu)性證明得出的,因子0.785 是1.059 除以1.349 得出的,1.349 是標準正態(tài)分布的四分位數(shù)中間跨度.
本文主要研究上證A 股指數(shù)收益率波動的密度估計模型.上海證券交易所上市的股票數(shù)目要遠大于深圳證券交易所,又因B 股市場規(guī)模與交易量小,故選擇了上證A 股指數(shù)作為研究對象.數(shù)據(jù)方面,本文采用wind 資訊公司提供的2010 年1 月至2014 年11 月12 日期間我國上證A 股日收盤指數(shù)為指標.模型方面,采用上證A 股指數(shù)日收益率Ri+1為變量.是第t 日的收盤指數(shù),Pt+1是第t+1 日的收盤指數(shù).另外,本文的模型估計是通過使用R 軟件來實現(xiàn)的.
2.2.1 收益率分布的正態(tài)性檢驗
本文利用Shapiro-Wilk(夏皮羅-威爾克)W統(tǒng)計量對樣本作正態(tài)性檢驗.在R 軟件中,shapiro.test()函數(shù)提供了W 統(tǒng)計量和相應(yīng)的p值,當p 值小于某個顯著水平α(比如5%)時,則認為樣本不是來自服從正態(tài)分布的總體;否則認為樣
本是來自服從正態(tài)分布的總體.在此,假設(shè)上證A股指數(shù)收益率服從正態(tài)分布,得出的檢驗結(jié)果如下:
表1 上證A 股指數(shù)收益率的正態(tài)性檢驗結(jié)果
從上述結(jié)果可以看出,上證A 股指數(shù)收益率不服從正態(tài)分布.
2.2.2 選擇核函數(shù)形式
在密度估計前,先要通過模擬選擇合適的核函數(shù).本文選用兩種常見的核函數(shù):高斯核,四次方核來進行比較,看哪種核函數(shù)的擬合效果最好.運用R 軟件進行模擬,得出如下結(jié)果:
圖1 兩種核函數(shù)估計與正態(tài)密度曲線
注:上圖中,峰度最低的表示正態(tài)密度曲線,峰度最高的表示四次方核估計,峰度介于中間的表示高斯核估計.
圖1 顯示兩種不同核函數(shù)估計的效果,可以發(fā)現(xiàn)在這種情況下,與四次方核估計相比,高斯核估計要更光滑,也更接近真實的密度函數(shù),所以本文選用高斯核函數(shù)對數(shù)據(jù)進行擬合.
圖2 兩種常用窗寬下的高斯核估計和正態(tài)密度曲線
2.2.3 窗寬的選擇
同樣,在密度估計前,也要通過模擬選擇合適的窗寬.本文在選用高斯核函數(shù)對數(shù)據(jù)進行擬合的條件下,選取上述(3)式和(4)式介紹的兩個常見的窗寬來進行比較.由(3)式和(4)式分別計算得出h1=0.006376,hM2=0.003952.運用R 軟件進行模擬,得出如下結(jié)果:
注:圖中,峰度最低的表示正態(tài)密度曲線,峰度介于中間的表示h1窗寬下的高斯核估計,峰度最高的表示h2窗寬下的高斯核估計.
圖2 顯示出,窗寬下的高斯核估計更光滑,更接近真實函數(shù),所以本文選用h1=0.006376 作為高斯核估計的窗寬.
在核估計的核函數(shù)與窗寬都確定后,就可以得到上證A 股指數(shù)收益率的核估計密度函數(shù)的確定形式:
在非參數(shù)核密度估計的情況下,收益率的期望和方差為:
通過公式(6),(7),(8),可以計算出核估計密度函數(shù)的期望與方差,見表2:
表2 上證A 股指數(shù)實際收益率與非參數(shù)估計下收益率的統(tǒng)計特征對比
0.001097 0.000614 0.001097 0.000654
從表2 可以看出,實際數(shù)據(jù)的均值與核估計收益率的期望是相同的,但是方差卻不一樣,核估計的方差比實際數(shù)據(jù)的方差偏大.這說明厚尾是上證A 股指數(shù)收益率分布呈現(xiàn)出的特征.
由于本文采用的是高斯核(正態(tài)核)函數(shù),所以可以推導(dǎo)出核估計條件下的收益率分布函數(shù)是:
從上面公式中,能夠得知基于核密度估計的收益率分布的函數(shù)形式,這樣我們就可以把收益率落在不同區(qū)間內(nèi)的概率計算出來,具體結(jié)果見表3:
表3 上證A 股指數(shù)收益率的區(qū)間概率值
表3 的計算結(jié)果表明:上證A 股指數(shù)的收益率下跌超過5%的概率值為2.195%,而上漲超過5%的概率值為1.491%,下跌的的可能性大于上漲的可能性.這說明近年來我國上證A 股市場不景氣,我們認為可能是受到金融危機的影響.
從上個世紀末以來,非參數(shù)估計法較好的解決了未知分布模型以及不完全數(shù)據(jù)模型的處理,從而打破了傳統(tǒng)統(tǒng)計學(xué)研究的瓶頸,成為統(tǒng)計學(xué)新的發(fā)展主題和方向.與傳統(tǒng)的參數(shù)估計不一樣,非參數(shù)估計抽取的樣本不用過多關(guān)注總體的分布模式,此外,不設(shè)參數(shù),沒有限定的函數(shù)模型,而僅靠每個數(shù)據(jù)決定函數(shù)值,具有較強的靈活性.因此,在變量分布和函數(shù)形式都不確定的情況下,非參數(shù)估計能為確立變量間的回歸方程式提供很好的方法,并且其結(jié)果的準確性也更高.
本文采取實證研究的方法,利用非參數(shù)估計——核密度估計法,針對上證A 股指數(shù)收益率分布狀態(tài)作出深入研究.研究發(fā)現(xiàn),非參數(shù)核密度估計方法能夠較好地描述股票收益率分布的尖峰厚尾的特征,能夠較為準確的反映收益率分布具體情況.除此之外,在本文的研究過程中還得出上證A 股指數(shù)收益率在核密度估計情況下的期望與方差,以及其在不同區(qū)間取值的概率情況.通過比較分析各個區(qū)間的概率值,揭示了近年來上證A 股市場的特征.
[1] 陶亞明,蔡明超,楊朝軍.上海股票市場收益率分布特征的研究[J].預(yù)測,1999,(2):57-58.
[2] 李子奈,葉阿忠.高等計量經(jīng)濟學(xué)[M].北京:清華大學(xué)出版社,2000.
[3] 陳啟歡.中國股票市場收益率分布曲線的實證[J].數(shù)理統(tǒng)計與管理,2002,(5):9-11.
[4] 孔凡秋.套期保值的下偏矩風(fēng)險評價[D].武漢:武漢理工大學(xué),2004.
[5] 陳娟.非參數(shù)方法在滬深股市收益率分布的應(yīng)用[J].溫州大學(xué)學(xué)報,2005(3):22-27.
[6] 吳喜之.非參數(shù)統(tǒng)計[M].北京:中國統(tǒng)計出版社,2006.
[7] 薛毅,陳立萍.R 軟件建模與R 軟件[M].北京:清華大學(xué)出版社,2007.
[8] 施祖麟,黃治華.基于核密度估計法的中國省區(qū)經(jīng)濟增長動態(tài)分析[J].經(jīng)濟經(jīng)緯,2009,(4):60-63.
[9] 張世趟,程小軍,蘇明.基于非參數(shù)方法的A 股指數(shù)估計[J].南方金融,2009,(1):25-27.
[10] 鎮(zhèn)志勇,李軍.非參數(shù)核密度估計在恒生指數(shù)收益率分布中的應(yīng)用[J].統(tǒng)計與決策,2011,(9):22-24.