孫延風(fēng) 王朝勇
1)(吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130012)2)(吉林工程技術(shù)師范學(xué)院信息工程學(xué)院,長(zhǎng)春 130021)
(2017年11月21日收到;2018年3月22日收到修改稿)
復(fù)雜網(wǎng)絡(luò)能夠解決許多金融問(wèn)題,能夠發(fā)現(xiàn)金融市場(chǎng)的拓?fù)浣Y(jié)構(gòu)特征,反映不同金融主體之間的相互依賴關(guān)系.相關(guān)性度量在金融復(fù)雜網(wǎng)絡(luò)構(gòu)建中至關(guān)重要.通過(guò)將多元金融時(shí)間序列符號(hào)化,借鑒文本特征提取以及信息論的方法,定義了一種基于文本互信息的相關(guān)系數(shù).為檢驗(yàn)方法的有效性,分別構(gòu)建了基于不同相關(guān)系數(shù)(Pearson和文本互信息)和不同網(wǎng)絡(luò)縮減方法(閾值和最小生成樹(shù))的4個(gè)金融復(fù)雜網(wǎng)絡(luò)模型.在閾值網(wǎng)絡(luò)中提出了使用分位數(shù)來(lái)確定閾值的方法,將相關(guān)系數(shù)6等分,取第4部分的中點(diǎn)作為閾值,此時(shí)基于Pearson和文本互信息的閾值模型將會(huì)有相近的邊數(shù),有利于這兩種模型的對(duì)比.數(shù)據(jù)使用了滬深兩地證券市場(chǎng)地區(qū)指數(shù)收盤(pán)價(jià),時(shí)間從2006年1月4日至2016年12月30日,共計(jì)2673個(gè)交易日.從網(wǎng)絡(luò)節(jié)點(diǎn)相關(guān)性看,基于文本互信息的方法能夠體現(xiàn)出大約20%的非線性相關(guān)關(guān)系;在網(wǎng)絡(luò)整體拓?fù)渲笜?biāo)上,本文計(jì)算了4種指標(biāo),結(jié)果顯示能夠使所保留的節(jié)點(diǎn)聯(lián)系更為緊密,有效提高保留節(jié)點(diǎn)的重要性以及挖掘出更好的社區(qū)結(jié)構(gòu);最后,計(jì)算了閾值網(wǎng)絡(luò)的動(dòng)態(tài)指標(biāo),將數(shù)據(jù)按年分別構(gòu)建網(wǎng)絡(luò),縮減方法只用了閾值方法,結(jié)果顯示本文提出的方法在小世界動(dòng)態(tài)和網(wǎng)絡(luò)度中心性等指標(biāo)上能夠成功捕捉到樣本區(qū)間內(nèi)存在的兩次異常波動(dòng).此外,本文構(gòu)建的地區(qū)金融網(wǎng)絡(luò)具有服從冪律分布、動(dòng)態(tài)穩(wěn)定性、一些經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)在金融地區(qū)網(wǎng)絡(luò)中占據(jù)重要地位等特性.
統(tǒng)計(jì)物理方法有助于從系統(tǒng)復(fù)雜性的角度理解社會(huì)和經(jīng)濟(jì)問(wèn)題[1],解釋復(fù)雜系統(tǒng)隨時(shí)間演化的過(guò)程.金融物理學(xué)(econophysics)則運(yùn)用統(tǒng)計(jì)物理方法來(lái)研究金融復(fù)雜系統(tǒng)中各個(gè)領(lǐng)域的相關(guān)問(wèn)題[2?4].由于受到政治、戰(zhàn)爭(zhēng)、宏觀經(jīng)濟(jì)以及社會(huì)輿論等多種因素的影響,至今沒(méi)有一個(gè)完美的理論能完全揭示出金融系統(tǒng)整體的運(yùn)行規(guī)律.現(xiàn)今金融系統(tǒng)中的很多研究都是基于各種假說(shuō),比如套利定價(jià)理論(arbitrage pricing theory,APT),有效市場(chǎng)假說(shuō)(efficient markets hypothesis,EMH)[5,6]等.借助于復(fù)雜網(wǎng)絡(luò)建模思想,可以在較少市場(chǎng)假說(shuō)下,實(shí)現(xiàn)對(duì)整個(gè)金融系統(tǒng)中各種變量相互關(guān)系的研究,能夠從整體上研究金融主體之間的相互依賴性,反映金融市場(chǎng)整體的拓?fù)浣Y(jié)構(gòu)[7].
許多金融市場(chǎng)問(wèn)題都可以使用復(fù)雜網(wǎng)絡(luò)方法建模,常見(jiàn)的有股票市場(chǎng)[8?14]、外匯市場(chǎng)[15?17]、銀行信貸關(guān)系[18]、信用卡市場(chǎng)[19]、期貨市場(chǎng)[20,21]以及房地產(chǎn)市場(chǎng)[22?24]等.數(shù)據(jù)上使用較多的是低頻數(shù)據(jù)(主要是每日數(shù)據(jù)),也有些研究使用了高頻數(shù)據(jù)[17,25?27].金融復(fù)雜網(wǎng)絡(luò)模型主要有最小生成樹(shù)(minimal spanning trees,MST)[14?16]、最大生成樹(shù)(maximal spanning trees)[28]、平面極大過(guò)濾圖(planar maximally filtered graph,PMFG)[24]、閾值網(wǎng)絡(luò)(threshold networks,TN)[11,29,30]、隨機(jī)矩陣?yán)碚?random matrix theory,RMT)[8,23,31]、差分網(wǎng)絡(luò)(differitial network)等[32].通過(guò)選擇不同的網(wǎng)絡(luò)節(jié)點(diǎn)、不同的數(shù)據(jù)類型、不同邊的連接方式(有向[17]或無(wú)向)構(gòu)造出不同的金融復(fù)雜網(wǎng)絡(luò)模型,研究各種金融拓?fù)浣Y(jié)構(gòu)、計(jì)算金融風(fēng)險(xiǎn)統(tǒng)計(jì)特征,用來(lái)解決不同的金融問(wèn)題,構(gòu)建金融投資組合以及度量金融系統(tǒng)風(fēng)險(xiǎn)大小[15]等.
金融復(fù)雜網(wǎng)絡(luò)建模中一個(gè)重要的步驟是計(jì)算節(jié)點(diǎn)之間的相關(guān)矩陣.一種方法是使用Pearson相關(guān)系數(shù).Mantegna[9]在1999年將其用于美國(guó)股票市場(chǎng),并構(gòu)造了一個(gè)MST網(wǎng)絡(luò).此后Pearson相關(guān)系數(shù)被廣泛應(yīng)用于金融復(fù)雜網(wǎng)絡(luò)中,Wang和Xie[24]使用Pearson相關(guān)系數(shù)構(gòu)造了20個(gè)國(guó)家不動(dòng)產(chǎn)證券市場(chǎng)的三個(gè)網(wǎng)絡(luò)模型,即MST,HT和PMFG;Wang等[14]則將Pearson相關(guān)系數(shù)用于57個(gè)股票市場(chǎng)動(dòng)態(tài)網(wǎng)絡(luò)的構(gòu)建.Pearson相關(guān)系數(shù)是一種線性相關(guān)系數(shù),然而金融系統(tǒng)具有典型的非線性特征,為此一些學(xué)者在計(jì)算相關(guān)矩陣時(shí)使用節(jié)點(diǎn)間的互信息(mutual information,MI)來(lái)度量節(jié)點(diǎn)之間的相關(guān)性[15,17,33].互信息以信息論[34]為基礎(chǔ),能夠度量?jī)蓚€(gè)不同序列之間包含多少相同的信息,反映兩個(gè)變量序列之間的非線性相關(guān)關(guān)系,因此在金融復(fù)雜網(wǎng)絡(luò)中得到了廣泛應(yīng)用,并在此基礎(chǔ)上發(fā)展了很多其他度量非線性相關(guān)的方法,比如互信息率(mutual information rate,MIR)[33]、偏互信息(partial mutual information,PMI)[30,35]等.
Fiedor[33]引入互信息和互信息率作為相似性度量指標(biāo),用來(lái)替代Pearson相關(guān)系數(shù),使用Lempel-Ziv復(fù)雜度[36]來(lái)估計(jì)MI和MIR.網(wǎng)絡(luò)縮減模型采用的是MST和PMFG模型,并應(yīng)用于紐約證券交易所100指數(shù)(NYSE100)的91家企業(yè)在2003—2013年的日收盤(pán)數(shù)據(jù).為檢驗(yàn)替換效果,采用了平均最短路徑(average shortest path,ASP)等指標(biāo),從節(jié)點(diǎn)、聚類以及網(wǎng)絡(luò)等三個(gè)層面與Pearson相關(guān)性進(jìn)行了對(duì)比.結(jié)果顯示MI具有比Pearson相關(guān)性更優(yōu)秀的特征,但MIR效果差一些.You等[35]對(duì)上海股票市場(chǎng)的復(fù)雜網(wǎng)絡(luò)的非線性相關(guān)問(wèn)題進(jìn)行了討論,使用PMI度量節(jié)點(diǎn)間的相關(guān)性,并與Pearson相關(guān)性做了對(duì)比.假定樣本服從Dirichlet分布,使用熵(entropy)的Schurmann-Grassberger來(lái)估計(jì)PMI,分別采用MST和PMSG模型為網(wǎng)絡(luò)縮減方法.使用Pearson相關(guān)性、MI和PMI作為相關(guān)性度量方法,得到6組不同的網(wǎng)絡(luò).從相關(guān)性、經(jīng)濟(jì)部門(mén)結(jié)構(gòu)、節(jié)點(diǎn)度分布以及網(wǎng)絡(luò)中重要程度不同的股票(從節(jié)點(diǎn)度大小的角度度量)在經(jīng)濟(jì)上每股收益率的變化等方面進(jìn)行了對(duì)比研究.Fiedor和Holda[15]將MI用于外匯市場(chǎng),使用Lempel-Ziv算法估計(jì)MI,采用了MST和PMFG模型,分析了匯率之間的非線性相互依存關(guān)系.認(rèn)為根據(jù)熵率的不同,不同匯率變化的可預(yù)測(cè)性是不同的,因此匯率投資組合中不但要考察VaR等風(fēng)險(xiǎn)指標(biāo),還要考察可預(yù)測(cè)性.此外,可以通過(guò)復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的遠(yuǎn)近直接觀察出兩種貨幣之間的相關(guān)性(或互信息)的大小關(guān)系,相關(guān)性越低則風(fēng)險(xiǎn)越小,越適合作為投資組合的組成部分.與其他在一維空間使用Lempel-Ziv復(fù)雜度的文獻(xiàn)不同,Fiedor[13]為計(jì)算互信息率,將Lempel-Ziv復(fù)雜度擴(kuò)展到多維信號(hào),來(lái)研究不同金融工具序列之間的高階相關(guān)性,然后將其轉(zhuǎn)換成歐幾里德度量,采用MST和PMFG模型,以便找到網(wǎng)絡(luò)建模金融市場(chǎng)的合適的拓?fù)浣Y(jié)構(gòu).結(jié)果表明這種方法會(huì)導(dǎo)致與大多數(shù)研究中使用基于相關(guān)的方法不同的結(jié)果.
參考文獻(xiàn)[33,35]在計(jì)算互信息時(shí)假定樣本服從Dirichlet分布,并且需要將樣本離散成幾個(gè)不同的狀態(tài)(比如人為分成4個(gè)部分或8個(gè)部分[33]).本文借鑒文本特征提取的互信息方法以及時(shí)間序列符號(hào)化方法,構(gòu)造一個(gè)簡(jiǎn)單的非線性相關(guān)性度量方法,該方法不再假定樣本服從Dirichlet分布,也不進(jìn)行人為的離散化.為檢驗(yàn)該方法的效果,將其用于中國(guó)滬深兩地證券市場(chǎng)的地區(qū)指數(shù)收盤(pán)價(jià)數(shù)據(jù)集,建立地區(qū)金融網(wǎng)絡(luò)模型,分別進(jìn)行靜態(tài)與動(dòng)態(tài)分析,考察所建立模型的拓?fù)湫再|(zhì).
本文安排如下:第2節(jié)完整敘述本文的模型,建立4個(gè)不同的地區(qū)金融網(wǎng)絡(luò)模型;第3節(jié)介紹使用的數(shù)據(jù)來(lái)源、數(shù)據(jù)前期處理以及數(shù)據(jù)相關(guān)的統(tǒng)計(jì)特征以及地區(qū)金融網(wǎng)絡(luò)拓?fù)涮卣鞯?第4節(jié)從節(jié)點(diǎn)相關(guān)性、網(wǎng)絡(luò)拓?fù)渲笜?biāo)、度分布的冪律檢驗(yàn)以及動(dòng)態(tài)網(wǎng)絡(luò)拓?fù)渲笜?biāo)等多個(gè)不同的角度對(duì)本文提出的方法進(jìn)行數(shù)值檢驗(yàn),并與Pearson相關(guān)系數(shù)對(duì)比;第5節(jié)進(jìn)行概括性的總結(jié)與展望.
本節(jié)在金融時(shí)間序列符號(hào)化基礎(chǔ)上,使用改造的文本互信息方法計(jì)算相關(guān)系數(shù),隨后建立4個(gè)金融復(fù)雜網(wǎng)絡(luò)模型.這些模型的相同點(diǎn)是節(jié)點(diǎn)都是地區(qū)指數(shù),節(jié)點(diǎn)間的相互鏈接都用相關(guān)性表示,相鄰邊的權(quán)值都用相關(guān)系數(shù)的大小表示;不同之處在于使用的網(wǎng)絡(luò)精簡(jiǎn)方法以及獲得相關(guān)系數(shù)的方法不同.
互信息在文本特征選擇中有廣泛的應(yīng)用[37],互信息能夠度量?jī)蓚€(gè)隨機(jī)變量的相互依賴性.如果設(shè)文本特征項(xiàng)為t,類別為T(mén)C,則它們之間的互信息可定義為
其中p(t,TC)為文本特征項(xiàng)t和類別TC的聯(lián)合分布,p(t)和p(TC)分別是特征項(xiàng)t和類別TC的邊際分布.本文將文本互信息公式改造后應(yīng)用到兩個(gè)金融時(shí)間序列的相關(guān)性度量中.
為此需要將時(shí)間序列符號(hào)化,進(jìn)一步可以估計(jì)出符號(hào)序列的統(tǒng)計(jì)信息,計(jì)算出兩個(gè)序列之間互信息的大小.符號(hào)化的處理方法在很多金融復(fù)雜網(wǎng)絡(luò)相關(guān)文獻(xiàn)中被廣泛使用,并已取得了良好的效果[38,39].對(duì)于一個(gè)金融時(shí)間序列,可以利用(2)式將其符號(hào)化,
其中 st為第t天符號(hào)化序列,rt為第t天地區(qū)指數(shù)收盤(pán)價(jià)的對(duì)數(shù)收益率.
對(duì)于兩個(gè)金融時(shí)間序列X,Y,在給定的第t天,可以定義4種模式,它們分別是:{+,+}{?,?}{+,?}{?,+},統(tǒng)計(jì)這4種模式在給定區(qū)間內(nèi)的總數(shù),分別記為A,B,C,D.則可利用(3)式計(jì)算這兩個(gè)金融時(shí)間序列在給定區(qū)間內(nèi)的互信息相關(guān)性:
其中N=A+B+C+D.
由(3)式可見(jiàn),兩個(gè)序列的互信息是完全對(duì)稱的,即I(X,Y)=I(Y,X);互信息越大,兩個(gè)序列同漲同跌的可能性越大,兩個(gè)序列的相關(guān)程度也越大;當(dāng)兩個(gè)序列完全相關(guān)時(shí),B=C=0,N=A+D,則I=1;兩個(gè)序列完全無(wú)關(guān)時(shí)p(t,TC)=p(t)p(TC),A+D=0則I=0.
但(3)式定義的互信息相關(guān)系數(shù)不能滿足距離的3個(gè)條件.本文采用很多金融復(fù)雜網(wǎng)絡(luò)文獻(xiàn)普遍使用的方法[9]將其轉(zhuǎn)化為距離:
此時(shí)0 6 d 6 2,并且滿足距離的3個(gè)條件.
為考察MI相關(guān)系數(shù)在構(gòu)建地區(qū)金融網(wǎng)絡(luò)方面的優(yōu)勢(shì),將其與使用Pearson相關(guān)系數(shù)的相同金融網(wǎng)絡(luò)從相關(guān)性分析、網(wǎng)絡(luò)拓?fù)渲笜?biāo)數(shù)值大小、度的冪律分布以及動(dòng)態(tài)網(wǎng)絡(luò)特性等幾個(gè)方面進(jìn)行了比較.
使用不同的相關(guān)系數(shù)(線性的Pearson方法,非線性的MI方法)和網(wǎng)絡(luò)精簡(jiǎn)方式(TN和MST)構(gòu)建4個(gè)金融地區(qū)指數(shù)的復(fù)雜網(wǎng)絡(luò),見(jiàn)表1.這4個(gè)地區(qū)金融網(wǎng)絡(luò)模型都是無(wú)向的、加權(quán)的復(fù)雜網(wǎng)絡(luò).
表1 不同相關(guān)系數(shù)和精簡(jiǎn)方式構(gòu)建的模型Table1.Models created with Different correlation coefficient and Different simplified method.
為檢驗(yàn)4個(gè)地區(qū)金融網(wǎng)絡(luò)模型,使用中國(guó)滬深兩地證券市場(chǎng)的真實(shí)數(shù)據(jù).數(shù)據(jù)采集于深圳市財(cái)富趨勢(shì)科技股份有限公司的通達(dá)信Windows版軟件[40]中的地區(qū)指數(shù)收盤(pán)價(jià),共32個(gè)地區(qū)(不包括港澳臺(tái),深圳單獨(dú)算一個(gè)地區(qū)),時(shí)間區(qū)間從2006年1月4日到2016年12月30日,共計(jì)2673個(gè)交易日.
采用這組數(shù)據(jù)的優(yōu)勢(shì)在于:1)每個(gè)地區(qū)都涵蓋了本地區(qū)滬深上市公司的A股、創(chuàng)業(yè)板、中小板等板塊,這些地區(qū)指數(shù)基本上代表了滬深兩地全部的上市公司,能夠較全面地刻畫(huà)中國(guó)滬深證券市場(chǎng)的情況,反映證券市場(chǎng)整體的運(yùn)行信息;2)這些地區(qū)指數(shù)在所選時(shí)間段內(nèi)幾乎沒(méi)有因停牌等原因造成的數(shù)據(jù)缺失或異常(除了貴州板塊指數(shù)數(shù)據(jù)在2006年5月19日至2006年5月24日數(shù)據(jù)異常,處理方法是將此區(qū)間內(nèi)數(shù)據(jù)全部使用前一日即2006年5月18日的數(shù)據(jù)代替),不需要對(duì)數(shù)據(jù)進(jìn)行人為的刪除或更新;3)與其他文獻(xiàn)不同的是,本文把證券市場(chǎng)按地區(qū)劃分,并從復(fù)雜網(wǎng)絡(luò)的角度研究證券市場(chǎng)的地區(qū)性質(zhì),從而得出一些關(guān)于地區(qū)板塊指數(shù)的結(jié)論.
為消除個(gè)別數(shù)據(jù)異常波動(dòng)造成的影響,使數(shù)據(jù)更加平穩(wěn),采用滬深股票市場(chǎng)地區(qū)板塊指數(shù)的對(duì)數(shù)收益率,
其中rt為第t天的日對(duì)數(shù)收益率;pt為地區(qū)板塊指數(shù)在第t天的日收盤(pán)價(jià).
網(wǎng)絡(luò)的精簡(jiǎn)方式分別使用TN和MST,這兩種方法都能夠過(guò)濾掉一些次要信息,便于對(duì)金融網(wǎng)絡(luò)中最重要的信息進(jìn)行分析,有助于理解金融市場(chǎng)的動(dòng)態(tài)拓?fù)涮卣?
MST在最大程度上對(duì)網(wǎng)絡(luò)精簡(jiǎn),只研究金融網(wǎng)絡(luò)中最相關(guān)的依賴關(guān)系,降低了金融網(wǎng)絡(luò)模型的復(fù)雜度,更有利于大型網(wǎng)絡(luò)分析,對(duì)于金融市場(chǎng)的海量數(shù)據(jù)來(lái)說(shuō)有重要意義.
在構(gòu)建TN時(shí),一項(xiàng)重要的工作是選擇閾值,通常的做法是人為給定閾值,也有學(xué)者使用均值和方差來(lái)確定閾值,或者繪制經(jīng)驗(yàn)密度函數(shù)[11,41].本文采用分位數(shù)的方法確定閾值:將相關(guān)系數(shù)(變成距離d并去掉0后)在其最小值和最大值的區(qū)間內(nèi)若干等分,然后取其中一個(gè)區(qū)間的中點(diǎn)為閾值.經(jīng)過(guò)對(duì)地區(qū)指數(shù)數(shù)據(jù)的不同時(shí)間段與不同相關(guān)系數(shù)的反復(fù)測(cè)算,發(fā)現(xiàn)將數(shù)據(jù)6等分并取第4個(gè)區(qū)間的中點(diǎn)為閾值較為合理,大約能夠涵蓋25%的數(shù)據(jù)值,這比Brida和Risso[41]建議覆蓋50%的累積分布值略少.這樣選擇的閾值,能夠使得所保留的邊數(shù)適中,保留較為重要的節(jié)點(diǎn)連接和便于觀察的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),得到相應(yīng)的統(tǒng)計(jì)指標(biāo),更為重要的是能夠使得MI和Pearson方法得到的連邊數(shù)最為接近,便于兩種方法的對(duì)比.
圖1 Model 1的網(wǎng)絡(luò)拓?fù)鋱D(閾值為0.91)Fig.1.Network topology of Model1(threshold is 0.91).
圖2 Model 2的網(wǎng)絡(luò)拓?fù)鋱D(閾值為0.61)Fig.2.Network topology of Model 2(threshold is 0.61).
圖1—圖4給出了4種網(wǎng)絡(luò)模型Model 1—Model 4在整個(gè)數(shù)據(jù)區(qū)間的網(wǎng)絡(luò)拓?fù)鋱D.從4個(gè)模型的網(wǎng)絡(luò)拓?fù)鋱D可以看出,度值大的結(jié)點(diǎn)在網(wǎng)絡(luò)中占較少的部分,但對(duì)金融網(wǎng)絡(luò)中的多數(shù)節(jié)點(diǎn)都有較大影響.
在Model 1和Model 2中,閾值的確定采用上面提出的分位數(shù)方法,此時(shí)兩個(gè)模型的連邊數(shù)分別為117和116條,較為接近,便于對(duì)比兩種方法的拓?fù)浣Y(jié)構(gòu)與拓?fù)渲笜?biāo).
對(duì)于TN網(wǎng)絡(luò)(圖1和圖2),MI和Pearson方法在節(jié)點(diǎn)度上大于21的節(jié)點(diǎn)共有4個(gè),并且這4個(gè)節(jié)點(diǎn)完全相同,只是在北京板塊和西藏板塊的節(jié)點(diǎn)度上有所不同:北京板塊的度值在MI中為25,在Pearson中為22;西藏板塊在MI中為22,而Pearson中為26.MI方法提高了北京板塊的度,降低了西藏板塊的度,本文認(rèn)為這種改變應(yīng)該更合理一些.在MST網(wǎng)絡(luò)中(圖3和圖4),兩種相關(guān)系數(shù)模型中,度大于6的節(jié)點(diǎn)共有3個(gè),黑龍江(度值為7)和遼寧(度值為7)板塊相同,度的大小也相近.另外的節(jié)點(diǎn)在Model 3中為湖北板塊(度值為7),而Model 4中為山東板塊(度值為9),存在一些差異.
圖3 Model 3的網(wǎng)絡(luò)拓?fù)鋱DFig.3.Network topology of Model 3.
圖4 Model 4的網(wǎng)絡(luò)拓?fù)鋱DFig.4.Network topology of Model 4.
在以地區(qū)指數(shù)為節(jié)點(diǎn)的4個(gè)金融復(fù)雜網(wǎng)絡(luò)模型中,從度的大小看,西藏、貴州、青海等西部板塊以及黑龍江、遼寧等東北板塊占據(jù)了重要的地位,說(shuō)明在中國(guó)的股票市場(chǎng)中,經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)的股票有重要的地位,這一點(diǎn)在后面逐年的復(fù)雜網(wǎng)絡(luò)中得到了進(jìn)一步的證實(shí).分析其中的原因發(fā)現(xiàn),這些地區(qū)中有如600519貴州茅臺(tái)、600338西藏珠峰、600117西寧特鋼等活躍度較高的上市公司,因此從證券投資的角度看,重視這些地區(qū)的上市公司的投資將會(huì)對(duì)收益產(chǎn)生一定的影響.
由上文的分析可以看出,1974年和1992年的公約對(duì)波羅的海沿岸國(guó)如何攜手共同對(duì)抗波羅的海海洋污染所涉及的方方面面做出了細(xì)致、清晰、周全的規(guī)定和安排,加上公約設(shè)立赫爾辛基委員會(huì)、重視科學(xué)技術(shù)成果的引入、靈活利用區(qū)域和國(guó)際組織、不斷自我更新的特色,開(kāi)啟了波羅的海沿岸國(guó)在海洋環(huán)境保護(hù)領(lǐng)域的正式合作,為持續(xù)數(shù)十年并取得積極進(jìn)展的波羅的海環(huán)保實(shí)踐,提供了極為關(guān)鍵的框架性法律保障。
為反映中國(guó)股票市場(chǎng)整體狀況,考察上述數(shù)據(jù)區(qū)間對(duì)應(yīng)的上證綜指收盤(pán)價(jià),因?yàn)槠淠軌虼碚麄€(gè)市場(chǎng)的運(yùn)行狀態(tài).這期間(即從2006年1月4日—2016年12月30日)包含了2次較大的波動(dòng):2007年10月16日附近(最高6092.06點(diǎn))以及2015年6月12日附近(最高5166.35點(diǎn)).接下來(lái)在4.4節(jié)動(dòng)態(tài)網(wǎng)絡(luò)逐年對(duì)比分析中將重點(diǎn)考察不同模型對(duì)這兩次大幅波動(dòng)的捕捉能力.
使用上節(jié)的地區(qū)板塊指數(shù)數(shù)據(jù)以及第2節(jié)建立的4個(gè)地區(qū)金融網(wǎng)絡(luò)模型(Model 1—–Model 4),本節(jié)從節(jié)點(diǎn)的相關(guān)性分析、網(wǎng)絡(luò)整體拓?fù)渲笜?biāo)、度的冪律分布檢測(cè)以及動(dòng)態(tài)網(wǎng)絡(luò)拓?fù)涮卣?這里只討論TN網(wǎng)絡(luò))4個(gè)方面分別討論以MI與Pearson為相關(guān)系數(shù)的地區(qū)金融網(wǎng)絡(luò)的優(yōu)缺點(diǎn).
為對(duì)比使用MI與Pearson相關(guān)系數(shù)的不同效果,首先計(jì)算4個(gè)地區(qū)金融網(wǎng)絡(luò)模型中每個(gè)節(jié)點(diǎn)的接近度(closeness)中心性,介值(betweenness)中心性,平均最短路徑長(zhǎng)度(average shortest path length,ASPL),特征中心性(eigencen)等4個(gè)指標(biāo);然后計(jì)算TN網(wǎng)絡(luò)即Model 1和Model 2的節(jié)點(diǎn)序列在上述4個(gè)指標(biāo)上的相關(guān)度,結(jié)果見(jiàn)表2第1行;最后計(jì)算MST網(wǎng)絡(luò)即Model 3和Model 4的節(jié)點(diǎn)序列在上述4個(gè)指標(biāo)上的相關(guān)度,結(jié)果見(jiàn)表2第2行.
從表2可見(jiàn),除了MST(Model 3與Model 4)的ASPL相關(guān)度為0.4358,其他都在0.76—–0.94之間,這說(shuō)明本文提出的文本互信息方法大約體現(xiàn)了20%左右的非線性相關(guān)關(guān)系.與You等[35]的結(jié)果很相近,而與Fiedor[33]的30%相比少了一些(文獻(xiàn)[33]的結(jié)果中也存在0.8以上的相關(guān)度).產(chǎn)生這種現(xiàn)象的原因我們認(rèn)為與數(shù)據(jù)有關(guān),You等[35]使用的數(shù)據(jù)是上交所上市公司的數(shù)據(jù),與本文的數(shù)據(jù)源很相近,而Fiedor[33]使用的數(shù)據(jù)是相對(duì)成熟的市場(chǎng),即紐交所(New York Stock Exchange)的數(shù)據(jù).
表2 節(jié)點(diǎn)相關(guān)性分析Table2.Correlation analysis for nodes.
本小節(jié)從網(wǎng)絡(luò)的層面對(duì)4個(gè)模型的拓?fù)渲笜?biāo)進(jìn)行對(duì)比.分別計(jì)算不同網(wǎng)絡(luò)的平均加權(quán)度、介值中心性、網(wǎng)絡(luò)聚類系數(shù)以及模塊度等,計(jì)算結(jié)果見(jiàn)表3.
表3 MI和Pearson相關(guān)系數(shù)的指標(biāo)Table3.The index of MI and Pearson correlation coefficient.
平均加權(quán)度(average weighted degree,AWD)是一種度量網(wǎng)絡(luò)中節(jié)點(diǎn)的平均重要程度的指標(biāo),考慮了每個(gè)邊權(quán)重大小的不同,計(jì)算時(shí)將邊的權(quán)重求和,然后除以節(jié)點(diǎn)數(shù).不論TN(Model 1)還是MST(Model 3)網(wǎng)絡(luò),使用MI相關(guān)系數(shù)所保留的節(jié)點(diǎn)的平均加權(quán)度均高于Pearson相關(guān)系數(shù),體現(xiàn)了MI相關(guān)系數(shù)在保留重要節(jié)點(diǎn)上優(yōu)于Pearson相關(guān)系數(shù).
網(wǎng)絡(luò)介值中心性(network betweenness centralization,NBC)為金融網(wǎng)絡(luò)中所有最短路徑中經(jīng)過(guò)該節(jié)點(diǎn)的路徑的數(shù)目占最短路徑總數(shù)的比例,是衡量網(wǎng)絡(luò)節(jié)點(diǎn)作為橋梁中介程度的指標(biāo),介值數(shù)高的節(jié)點(diǎn)(地區(qū)指數(shù))在金融網(wǎng)絡(luò)信息傳輸中起著至關(guān)重要的作用.從表3可見(jiàn),MST中MI(Model 3)和Pearson(Model 4)的NBC值都是0.7左右,但TN中,MI(Model 1)的值要比Pearson(Model 2)的值高出30%左右,說(shuō)明對(duì)于TN網(wǎng)絡(luò)而言,MI能夠有效提高所保留節(jié)點(diǎn)的介值重要性.
聚類系數(shù)體現(xiàn)了節(jié)點(diǎn)的集聚程度.在Pajek軟件[42]中有加權(quán)和不加權(quán)兩種:網(wǎng)絡(luò)的 Watts-Strogatz聚類系數(shù)(Watts-Strogatz clustering coefficient,WSCC)是所有節(jié)點(diǎn)的聚類系數(shù)的非加權(quán)平均;網(wǎng)絡(luò)集聚系數(shù)(network clustering coefficient,NCC)是所有節(jié)點(diǎn)的聚類系數(shù)的加權(quán)平均.從表3可見(jiàn),在TN網(wǎng)絡(luò)中(Model 1和Model 2),地區(qū)指數(shù)的WSCC都為0.84左右,而NCC分別為0.36和0.296,數(shù)值較大,說(shuō)明我國(guó)上市公司地區(qū)指數(shù)網(wǎng)絡(luò)的集聚程度較高,具有小世界網(wǎng)絡(luò)的集聚特征.從三角節(jié)點(diǎn)數(shù)量上看,在使用的邊差不多的情況下,MI(Model 1)提取出的三角數(shù)量比Pearson(Model 2)多出20多個(gè),說(shuō)明MI能夠提高節(jié)點(diǎn)的質(zhì)量.
從模塊化程度上看,模塊度(modularity)能測(cè)量社區(qū)劃分的質(zhì)量,是一種衡量網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)強(qiáng)度的方法.本文采用了Blondel等[43]的算法計(jì)算模塊度,參數(shù)為默認(rèn)的(隨機(jī),使用邊的權(quán)值,Resolution取1).在MST網(wǎng)絡(luò)中模塊度均大于0.6,劃分質(zhì)量較好,描述了網(wǎng)絡(luò)中強(qiáng)大的社區(qū)結(jié)構(gòu)和明確的社區(qū)劃分[44];而TN網(wǎng)絡(luò)的模塊度均小于0.1,劃分質(zhì)量差一些.從數(shù)量上看,不論是MST網(wǎng)絡(luò)還是TN網(wǎng)絡(luò),MI均大于Pearson,這一點(diǎn)在TN網(wǎng)絡(luò)中尤其明顯,說(shuō)明MI方法更能挖掘出更好的社區(qū)結(jié)構(gòu).此外,從社區(qū)結(jié)構(gòu)的數(shù)量(number of communities,NOC)看,在相同的情況下,MI方法(Model 1和Model 3)均略少于Pearson方法(Model 2和Model 4),說(shuō)明MI方法保留的節(jié)點(diǎn)關(guān)系更為密切,聯(lián)系更為緊密.
圖5 雙對(duì)數(shù)坐標(biāo)下度分布及線性擬合圖Fig.5.Degree distribution in LogLog and their linear fitting.
對(duì)于給定的數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)節(jié)點(diǎn)的度都是固定的.本節(jié)使用Clauset等[45]的方法來(lái)考察節(jié)點(diǎn)度的分布情況.
Model 1—Model 4這4種網(wǎng)絡(luò)的雙對(duì)數(shù)坐標(biāo)下的節(jié)點(diǎn)度分布以及相應(yīng)的線性擬合見(jiàn)圖5,從圖中可以看出明顯的冪律分布特征.
與前面幾節(jié)中使用整個(gè)數(shù)據(jù)集構(gòu)建網(wǎng)絡(luò)不同的是,本節(jié)將數(shù)據(jù)按年度劃分,分別構(gòu)建11個(gè)網(wǎng)絡(luò).由于MST網(wǎng)絡(luò)過(guò)于精簡(jiǎn),本小節(jié)將只考慮TN網(wǎng)絡(luò),分別使用MI和Pearson為相關(guān)系數(shù),分別對(duì)11個(gè)年份數(shù)據(jù)構(gòu)造金融網(wǎng)絡(luò),閾值均采用上面提到的分位數(shù)統(tǒng)計(jì)方法,主要考慮MI和Pearson兩種方法的可對(duì)比性(連邊數(shù)最為接近).分別從小世界動(dòng)態(tài)指標(biāo)、網(wǎng)絡(luò)度中心性以及Jaccard指標(biāo)等3組動(dòng)態(tài)指標(biāo)上考察捕捉2007年和2015年上證綜指兩次大幅波動(dòng)的能力.
小世界動(dòng)態(tài)指標(biāo)(dynamics of the smallworld)定義為網(wǎng)絡(luò)平均最短路徑長(zhǎng)度與網(wǎng)絡(luò)聚類系數(shù)之間的比值[46].圖6中MI(實(shí)線)小世界動(dòng)態(tài)指標(biāo)的值在2015年達(dá)到極值,并且在2007年也出現(xiàn)了一個(gè)局部峰值.與其對(duì)比的是圖6中Pearson(虛線)小世界動(dòng)態(tài)指標(biāo)峰值出現(xiàn)在2012年,2015年次之.這兩個(gè)圖的對(duì)比說(shuō)明對(duì)于異常年份的反應(yīng)能力MI比Pearson有所提高.
圖6 TN網(wǎng)絡(luò)的小世界動(dòng)態(tài)指標(biāo)Fig.6.Dynamics of the small-world of TN.
逐年的網(wǎng)絡(luò)度中心性(network degree centralization)指標(biāo)如圖7所示,可以看出,MI(實(shí)線)在2015年達(dá)到次高峰值,2007年也出現(xiàn)了局部峰值;而Pearson(虛線)則在2007年沒(méi)有出現(xiàn)峰值.此外,考察每年節(jié)點(diǎn)度的大小,MI和Pearson兩種方法中,貴州板塊除了2015年度較小外(MI為13,Pearson為15),其他年度均具有較大的度值(30左右),說(shuō)明近些年貴州板塊發(fā)揮了重要的作用.
Jaccard指標(biāo)[47]能夠識(shí)別動(dòng)態(tài)TN的穩(wěn)定性,2個(gè)閾值網(wǎng)絡(luò)之間的Jaccard指標(biāo)定義為[29]
其中N1是兩個(gè)閾值網(wǎng)絡(luò)間相同節(jié)點(diǎn)對(duì)的連接數(shù)目;N是這兩個(gè)閾值網(wǎng)絡(luò)總的連接數(shù)目.
Jaccard指標(biāo)計(jì)算結(jié)果如圖8所示,MI(實(shí)線)的平均值為0.397(2012—2013年間的最小值為0.292,這段時(shí)間上證綜指波動(dòng)幅度較小).Pearson(虛線)的平均值為0.519.從Jaccard指標(biāo)看,MI和Pearson模型的Jaccard值多數(shù)都在0.3以上[29],說(shuō)明地區(qū)指數(shù)數(shù)據(jù)具有網(wǎng)絡(luò)的動(dòng)態(tài)穩(wěn)定性[47].
圖7 TN網(wǎng)絡(luò)的網(wǎng)絡(luò)度中心性指標(biāo)Fig.7.Network degree centralization of TN.
圖8 TN網(wǎng)絡(luò)的Jaccard指標(biāo)Fig.8.Jaccard index of TN.
復(fù)雜網(wǎng)絡(luò)被廣泛地應(yīng)用于金融領(lǐng)域,能夠反映金融市場(chǎng)整體的拓?fù)浣Y(jié)構(gòu)、動(dòng)態(tài)運(yùn)行規(guī)律以及金融主體之間的相互依賴關(guān)系.本文使用文本互信息方法來(lái)度量地區(qū)金融指數(shù)節(jié)點(diǎn)的相關(guān)性,分別構(gòu)建了MST與TN網(wǎng)絡(luò),并將其與Pearson相關(guān)系數(shù)的網(wǎng)絡(luò)從節(jié)點(diǎn)相關(guān)度、網(wǎng)絡(luò)拓?fù)渲笜?biāo)數(shù)值大小、度分布的冪律檢驗(yàn)以及動(dòng)態(tài)網(wǎng)絡(luò)特征等方面進(jìn)行了對(duì)比,數(shù)值結(jié)果表明文本互信息方法在多數(shù)指標(biāo)上優(yōu)于Pearson方法.1)在金融網(wǎng)絡(luò)中引入基于文本互信息的相關(guān)性度量方法,計(jì)算時(shí)不需要將樣本人為離散化成幾個(gè)不同的狀態(tài),也不需要假設(shè)樣本服從Dirichlet分布;2)在閾值網(wǎng)絡(luò)中提出使用分位數(shù)來(lái)確定閾值的方法,考慮到兩種方法對(duì)比的實(shí)際需要,本文將數(shù)據(jù)6等分并取第4個(gè)區(qū)間的中點(diǎn)為閾值;3)將中國(guó)滬深兩地證券市場(chǎng)按地區(qū)(不含港澳臺(tái))劃分,并從復(fù)雜網(wǎng)絡(luò)的角度對(duì)證券市場(chǎng)的空間性質(zhì)進(jìn)行研究,從中得出一些關(guān)于地區(qū)指數(shù)的結(jié)論;4)從地區(qū)金融網(wǎng)絡(luò)的拓?fù)浞治鲋锌梢钥闯?中國(guó)地區(qū)金融網(wǎng)絡(luò)服從冪律分布;該網(wǎng)絡(luò)具有動(dòng)態(tài)的穩(wěn)定性;一些經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)處于網(wǎng)絡(luò)中心位置,在分析中國(guó)滬深證券市場(chǎng)時(shí)不應(yīng)該被忽略.
在計(jì)算動(dòng)態(tài)指標(biāo)時(shí)使用了靜態(tài)閾值,由于金融市場(chǎng)存在波動(dòng)率長(zhǎng)程關(guān)聯(lián),下一步將考察動(dòng)態(tài)閾值對(duì)指標(biāo)的影響[48].此外,導(dǎo)致經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)在地區(qū)復(fù)雜網(wǎng)絡(luò)中重要的原因是什么,是因?yàn)檫@些地區(qū)股票家數(shù)過(guò)少,還是市場(chǎng)本身還有沒(méi)被發(fā)掘的現(xiàn)象?這也是值得進(jìn)一步討論的工作.將本文提出的方法推廣到其他金融領(lǐng)域如外匯市場(chǎng),在引入量化系統(tǒng)后應(yīng)用于實(shí)際投資以及金融危機(jī)的預(yù)測(cè)等也是值得研究的方向.