西南財(cái)經(jīng)大學(xué) 陳瑩
關(guān)聯(lián)分析是一種重要的數(shù)據(jù)挖掘方法,本文將關(guān)聯(lián)分析這種工具推廣到解決金融投資問題。在第三部分,我們對(duì)十個(gè)分行業(yè)指數(shù)的同日相關(guān)性進(jìn)行探究,并得到規(guī)律性最強(qiáng)的關(guān)聯(lián)規(guī)則。第四部分中,我們對(duì)十個(gè)分行業(yè)指數(shù)的相鄰日相關(guān)性進(jìn)行探究,并得到規(guī)律性最強(qiáng)的關(guān)聯(lián)規(guī)則,這部分工作與時(shí)間序列分析中的動(dòng)態(tài)相關(guān)系數(shù)計(jì)算類似,對(duì)實(shí)際投資策略具有很強(qiáng)的指導(dǎo)意義。第五部分中,我們利用前兩部分得到的規(guī)則設(shè)計(jì)策略,并進(jìn)行跟蹤模擬交易,以便評(píng)價(jià)策略的有效性,從而驗(yàn)證關(guān)聯(lián)分析方法的科學(xué)性。
大智慧股票行情軟件。
軟件中下載的原始數(shù)據(jù)為上證380能源,380材料,380工業(yè),380可選,380醫(yī)藥,380金融,380信息,380電信和380公用這十個(gè)指數(shù)從2012年6月26日到2013年4月26日(連續(xù)204個(gè)交易日)的日收盤價(jià)格。在MTLAB中將原始數(shù)據(jù)矩陣命名為index。
關(guān)聯(lián)分析需要計(jì)算事件發(fā)生的概率以及條件概率,因此需要將原始數(shù)據(jù)轉(zhuǎn)化為體現(xiàn)收盤價(jià)格漲跌的類別變量。在MATLAB中將新矩陣命名為id380,如果第i天第j種指數(shù)上漲,相應(yīng)位置元素為1,如果下跌,相應(yīng)位置元素為0,如此我們得到一個(gè)203*10的0~1矩陣。
在同一天內(nèi),探索兩個(gè)行業(yè)指數(shù)的相關(guān)性對(duì)套利策略和投機(jī)策略幾乎沒有實(shí)際意義,因?yàn)閠時(shí)刻的交易策略應(yīng)該是t-1可測的。但是探究同日,或者靜態(tài)相關(guān)性可以為對(duì)沖策略提供一定依據(jù),以達(dá)到構(gòu)造資產(chǎn)組合對(duì)沖風(fēng)險(xiǎn)的效果。
在學(xué)習(xí)過的銷售數(shù)據(jù)關(guān)聯(lián)分析中,我們首先計(jì)算支持度和置信度。我們將“商品被購買”視為事件發(fā)生,“商品不被購買”被忽略。但在本文中,我們將指數(shù)漲跌視為不同的事件發(fā)生,并計(jì)算不同意義下的多種支持度和置信度。比如第i種指數(shù)與第j種指數(shù)反向變化的概率(支持度),第i種指數(shù)下跌條件下第j種指數(shù)上升的概率(置信度)等等。
這里我們只考慮各指數(shù)兩兩之間的關(guān)聯(lián)性,原因有兩點(diǎn):(1)支持度與置信度數(shù)值較大時(shí),關(guān)聯(lián)分析的實(shí)際意義更強(qiáng),多指數(shù)計(jì)算出的支持度與置信度一般比較小。(2)設(shè)計(jì)策略時(shí)需要考慮交易成本,證券種類增加會(huì)使交易成本大幅度上升。基于這兩個(gè)原因,相鄰日指數(shù)間關(guān)聯(lián)分析部分也只對(duì)各指數(shù)進(jìn)行兩兩之間的分析。
從支持度中我們可以看出,兩指數(shù)同向變化的概率整體而言比較高,而反向變化的概率比較低,這說明了不同行業(yè)指數(shù)之間的聯(lián)動(dòng)特征。從置信度排名可以看出,可選與工業(yè),材料與能源,可選與材料這三個(gè)組合的同漲跌關(guān)系非常顯著。而與其他行業(yè)指數(shù)反向關(guān)系比較明顯的是380金融指數(shù),這也印證了金融市場與實(shí)體經(jīng)濟(jì)此消彼長的“蹺蹺板”關(guān)系。
從置信度中我們可以看出380工業(yè)與380可選指數(shù)同增同減的條件概率高達(dá)92%以上,可以用來構(gòu)造一多一空的投資組合對(duì)沖風(fēng)險(xiǎn)。相比而言,漲跌相反的情況下,置信度偏低,不超過60%,難以用來構(gòu)造穩(wěn)健的資產(chǎn)組合。
同日指數(shù)間關(guān)聯(lián)分析的意義在于呈現(xiàn)不同行業(yè)指數(shù)之間的相關(guān)性,但這種分析不能用于賺錢。只有利用比較顯著的跨時(shí)期關(guān)聯(lián)規(guī)則設(shè)計(jì)交易策略,才能用來賺錢。這種思想類似于“統(tǒng)計(jì)套利”。嚴(yán)格的套利要求在不承擔(dān)風(fēng)險(xiǎn)的情況下,無損失可能而有獲利機(jī)會(huì)。統(tǒng)計(jì)套利中,如果某一策略以90%的可能性獲利,如果統(tǒng)計(jì)規(guī)律可靠,長期來看這種策略便是有效的。
這里我們將探究第t-1天第i種指數(shù)漲(跌)的條件下,第t天第j種指數(shù)漲(跌)的概率,也就是“動(dòng)態(tài)置信度”。因此在計(jì)算每個(gè)支持度和置信度之前,只需要對(duì)數(shù)據(jù)進(jìn)行滯后一期的預(yù)處理。
與同日情況類似,兩指數(shù)同增同減的支持度和置信度都比較大,而一增一減的情況下支持度與置信度較小。380信息與380工業(yè)指數(shù)同增的置信度達(dá)到了89%,380信息與380可選指數(shù)同減的置信度達(dá)到了86%,這些規(guī)則可用來構(gòu)造交易策略。
我們還可以得到兩條重要信息:380工業(yè)指數(shù)容易被其他版塊的利好消息拉動(dòng),具有一定滯后性;380信息指數(shù)的下跌對(duì)其他版塊的影響比較明顯,具有一定先行性。
這里,我們僅以最顯著的兩條關(guān)聯(lián)規(guī)則為依據(jù)構(gòu)造如下策略:當(dāng)日380信息指數(shù)收盤價(jià)高于前日時(shí),在次日多頭一單位380工業(yè)指數(shù);當(dāng)日380信息指數(shù)收盤價(jià)低于前日時(shí),在次日空頭一單位380可選指數(shù)。
目前中國不存在直接做多或者做空行業(yè)指數(shù)的金融工具,為了實(shí)現(xiàn)上述策略只能通過用股票復(fù)制指數(shù)的方法。這里我們不考慮買賣股票的手續(xù)費(fèi)和賣空限制(考慮手續(xù)費(fèi),不允許賣空情形下,該策略收益率仍然顯著優(yōu)于指數(shù)本身收益率)。
圖1為采取策略獲得的收益和“無為而治”獲得的收益的對(duì)比圖。藍(lán)線表示采取策略獲得的累計(jì)收益,紅線表示380工業(yè)指數(shù)的自身累計(jì)收益,綠線表示380可選指數(shù)的自身累計(jì)收益。關(guān)聯(lián)交易策略的效果十分顯著。但是這個(gè)交易策略效果評(píng)價(jià)有一定缺陷:得出支持度和置信度的樣本數(shù)據(jù)被用于了跟蹤評(píng)價(jià)策略的優(yōu)劣,即高估了策略的質(zhì)量。由于訓(xùn)練樣本的截止日期為4月26日,目前跟蹤樣本仍有限。一個(gè)月后用另外的跟蹤樣本再對(duì)此策略進(jìn)行評(píng)價(jià)更為合理。
圖1 關(guān)聯(lián)策略收益率與指數(shù)收益率對(duì)比
本文以關(guān)聯(lián)分析方法為工具,對(duì)十個(gè)上證380行業(yè)指數(shù)的漲跌規(guī)律進(jìn)行分析。其中,同日指數(shù)間關(guān)聯(lián)分析給出了“同起同落”的指數(shù)組合以及“此消彼長”的指數(shù)組合。我們發(fā)現(xiàn)“同起同落”的指數(shù)組合具有更高的支持度和置信度,其規(guī)律更容易捕捉。380材料,380可選,380工業(yè)指數(shù)兩兩之間的同向變化條件概率都在88%以上,可用來構(gòu)造對(duì)沖組合。相鄰日指數(shù)間關(guān)聯(lián)分析給出了漲跌有明顯領(lǐng)先—滯后關(guān)系的指數(shù)組合。這些指數(shù)組合的置信度達(dá)到80%以上時(shí),可用來實(shí)現(xiàn)統(tǒng)計(jì)套利。我們用置信度最高的兩個(gè)指數(shù)組合(380信息,380工業(yè))和(380信息,380可選)構(gòu)造套利策略并進(jìn)行套利效果跟蹤,發(fā)現(xiàn)這種策略的收益遠(yuǎn)高于各個(gè)指數(shù)本身的收益。關(guān)聯(lián)分析在組合投資中的運(yùn)用值得我們繼續(xù)挖掘。
[1] 陳京民,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2006.
[2] 安穎.基于Apriori算法的興趣集加權(quán)關(guān)聯(lián)規(guī)則挖掘[J].北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2008(04).