潘立先+朱玉峰
【摘要】擇時(shí)與選股永遠(yuǎn)是資本市場(chǎng)不老的研究課題,近年來,數(shù)量化分析在投資實(shí)務(wù)界和學(xué)術(shù)界都取得了豐碩的成果和關(guān)注,本文就支持向量機(jī)這一新興方法應(yīng)用到股票投資中,給出了短期和長(zhǎng)期的預(yù)測(cè),并與實(shí)際情況相比較,以探查選股結(jié)果的好壞。
【關(guān)鍵詞】數(shù)據(jù)挖掘 支持向量機(jī) 選股
一、引言
支持向量機(jī),英文為SupportVectorMachine,簡(jiǎn)稱SV機(jī)(一般簡(jiǎn)稱SVM),由Vapnik(Vapnik,1999)等人提出,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。基于SVM在分類上的優(yōu)勢(shì),本文使用這一方法來對(duì)股票進(jìn)行選取,并觀察效果的好壞。
二、基于SVM的選股模型
本文選取了2007年1月1日起自2012年11月31日建筑業(yè)的財(cái)務(wù)數(shù)據(jù)和交易數(shù)據(jù)作為我們的研究對(duì)象,并通過向后選擇選取了解釋變量如下表所示:
其中return00、Return-1、Return-2都是按月度回報(bào)率進(jìn)行算術(shù)平均后的回報(bào)率。Performance00是對(duì)return00進(jìn)行排序后的得分情況。需要注意的是,模型中引入了一個(gè)新的解釋變量:return01。該解釋變量表示的是股票在下一個(gè)月的回報(bào)率。從字面上看,這一變量似乎是一個(gè)預(yù)期值,并非可以通過觀測(cè)得到。實(shí)際上在模型中引入這一變量是因?yàn)榭紤]到財(cái)務(wù)報(bào)表的公布往往具有很強(qiáng)的滯后性,我們可以直接得到。所以,在模型中引入這一變量不單是為了使模型的估計(jì)更加貼近實(shí)際情況,同時(shí)另一方面也是為了增加模型的實(shí)用性。
每個(gè)因變量都是計(jì)算相應(yīng)時(shí)期的平均回報(bào)率后對(duì)收益率進(jìn)行排序打分得到的二分類變量。之所以選擇四個(gè)因變量,是因?yàn)榭紤]到公司的經(jīng)營(yíng)狀況,財(cái)務(wù)狀況對(duì)公司收益率往往具有緩慢且長(zhǎng)期的影響,如果模型僅僅只是預(yù)測(cè)公司下一季度的回報(bào)率則顯得太過草率。因此,本文考慮將因變量的時(shí)間窗口拉長(zhǎng)為一年,從而增加模型預(yù)測(cè)的穩(wěn)健性。
在后續(xù)的估計(jì)結(jié)果評(píng)價(jià)中,本文以“選股正確率”,即模型的預(yù)測(cè)值為1且真實(shí)值也為1的概率這一指標(biāo)作為評(píng)價(jià)對(duì)模型估計(jì)效果好壞的唯一標(biāo)準(zhǔn)。
(一)模型的估計(jì)結(jié)果
在分析時(shí),本文選擇高斯函數(shù)作為核函數(shù),其參數(shù)σ選擇自動(dòng),相應(yīng)的懲罰因子C=30。因?yàn)槟P偷念A(yù)測(cè)能力達(dá)到了一年,而目前所能獲得的最新測(cè)試數(shù)據(jù)為11年4季度,因此選擇2008年1季度至2011年3季度的數(shù)據(jù)作為訓(xùn)練樣本。
一季度模型的訓(xùn)練樣本誤差為0.022036,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.15219。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為85%,我們所關(guān)注的選股正確率(預(yù)測(cè)值為1且真實(shí)值也為1的正確率)為65%>50%,模型整體估計(jì)效果較好。
兩季度模型估計(jì)結(jié)果。兩季度模型的訓(xùn)練樣本誤差為0.063952,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.2。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為80%,我們所關(guān)注的選股正確率為56.7%>50%,模型整體估計(jì)效果較好。
三季度模型估計(jì)結(jié)果。三季度模型的訓(xùn)練樣本誤差為0.072,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.21195。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為79%,我們所關(guān)注的選股正確率為45.5%<50%,模型整體估計(jì)效果并不理想。
四季度模型估計(jì)結(jié)果。四季度模型的訓(xùn)練樣本誤差為0.073293,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.2254791。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為77%,我們所關(guān)注的選股正確率為36.4%<50%,模型整體估計(jì)效果并不理想。
從上文四個(gè)模型的回歸結(jié)果可以看出,隨著預(yù)測(cè)區(qū)間的增加,模型的預(yù)測(cè)精度逐漸下降,當(dāng)預(yù)測(cè)區(qū)間達(dá)到一年時(shí),模型的正確率為77%<80%,選股正確率也遠(yuǎn)低于50%,模型的預(yù)測(cè)作用。因此模型最佳的預(yù)測(cè)區(qū)間為一季度到半年。
(二)模型的測(cè)試結(jié)果
從預(yù)測(cè)結(jié)果可以發(fā)現(xiàn):首先,模型在未來一季度的預(yù)測(cè)正確率最高為84%,隨后一直維持在76%至77%之間,可見預(yù)測(cè)期間的增長(zhǎng)并沒有對(duì)模型總體的預(yù)測(cè)精度產(chǎn)生較大影響,這與我們模型估計(jì)的結(jié)果是相似的。另一方面,選股正確率則出現(xiàn)較為明顯的下降趨勢(shì),未來一季度的選股正確率達(dá)到了77%,這可能是與模型引入預(yù)測(cè)期下一月份的收益率為解釋變量有關(guān),但是隨后的選股正確率快速下降,當(dāng)預(yù)測(cè)期達(dá)到未來一年時(shí),模型的選股正確率只有28.75%,還不到30%,此時(shí)的模型已經(jīng)幾乎失去了我們所關(guān)注預(yù)測(cè)功能。
(三)模型的預(yù)測(cè)結(jié)果
本文在實(shí)際預(yù)測(cè)時(shí)為了確保正確率,僅選用一季度及半年度模型進(jìn)行預(yù)測(cè),使用的預(yù)測(cè)數(shù)據(jù)為12年3季度的財(cái)務(wù)數(shù)據(jù)及交易數(shù)據(jù)。
三、總結(jié)
SVM是一種尋找特征空間線性邊界的分類方法,與普通判方法相比,它有適應(yīng)性很強(qiáng),且是在更高維度的線性判別,得到的效果也更好。但是SVM也不是萬能的,若數(shù)據(jù)中噪音數(shù)量過多時(shí),SVM的的方差則會(huì)受噪音的影響而變大,估計(jì)結(jié)果會(huì)受到影響,因此在使用SVM之前應(yīng)該適當(dāng)?shù)倪M(jìn)行變量選擇以增加SVM的效果。同樣的,SVM也對(duì)核函數(shù)的選擇非常敏感,正確的選擇核函數(shù)對(duì)分類的結(jié)果也起著重要的作用。endprint
【摘要】擇時(shí)與選股永遠(yuǎn)是資本市場(chǎng)不老的研究課題,近年來,數(shù)量化分析在投資實(shí)務(wù)界和學(xué)術(shù)界都取得了豐碩的成果和關(guān)注,本文就支持向量機(jī)這一新興方法應(yīng)用到股票投資中,給出了短期和長(zhǎng)期的預(yù)測(cè),并與實(shí)際情況相比較,以探查選股結(jié)果的好壞。
【關(guān)鍵詞】數(shù)據(jù)挖掘 支持向量機(jī) 選股
一、引言
支持向量機(jī),英文為SupportVectorMachine,簡(jiǎn)稱SV機(jī)(一般簡(jiǎn)稱SVM),由Vapnik(Vapnik,1999)等人提出,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中?;赟VM在分類上的優(yōu)勢(shì),本文使用這一方法來對(duì)股票進(jìn)行選取,并觀察效果的好壞。
二、基于SVM的選股模型
本文選取了2007年1月1日起自2012年11月31日建筑業(yè)的財(cái)務(wù)數(shù)據(jù)和交易數(shù)據(jù)作為我們的研究對(duì)象,并通過向后選擇選取了解釋變量如下表所示:
其中return00、Return-1、Return-2都是按月度回報(bào)率進(jìn)行算術(shù)平均后的回報(bào)率。Performance00是對(duì)return00進(jìn)行排序后的得分情況。需要注意的是,模型中引入了一個(gè)新的解釋變量:return01。該解釋變量表示的是股票在下一個(gè)月的回報(bào)率。從字面上看,這一變量似乎是一個(gè)預(yù)期值,并非可以通過觀測(cè)得到。實(shí)際上在模型中引入這一變量是因?yàn)榭紤]到財(cái)務(wù)報(bào)表的公布往往具有很強(qiáng)的滯后性,我們可以直接得到。所以,在模型中引入這一變量不單是為了使模型的估計(jì)更加貼近實(shí)際情況,同時(shí)另一方面也是為了增加模型的實(shí)用性。
每個(gè)因變量都是計(jì)算相應(yīng)時(shí)期的平均回報(bào)率后對(duì)收益率進(jìn)行排序打分得到的二分類變量。之所以選擇四個(gè)因變量,是因?yàn)榭紤]到公司的經(jīng)營(yíng)狀況,財(cái)務(wù)狀況對(duì)公司收益率往往具有緩慢且長(zhǎng)期的影響,如果模型僅僅只是預(yù)測(cè)公司下一季度的回報(bào)率則顯得太過草率。因此,本文考慮將因變量的時(shí)間窗口拉長(zhǎng)為一年,從而增加模型預(yù)測(cè)的穩(wěn)健性。
在后續(xù)的估計(jì)結(jié)果評(píng)價(jià)中,本文以“選股正確率”,即模型的預(yù)測(cè)值為1且真實(shí)值也為1的概率這一指標(biāo)作為評(píng)價(jià)對(duì)模型估計(jì)效果好壞的唯一標(biāo)準(zhǔn)。
(一)模型的估計(jì)結(jié)果
在分析時(shí),本文選擇高斯函數(shù)作為核函數(shù),其參數(shù)σ選擇自動(dòng),相應(yīng)的懲罰因子C=30。因?yàn)槟P偷念A(yù)測(cè)能力達(dá)到了一年,而目前所能獲得的最新測(cè)試數(shù)據(jù)為11年4季度,因此選擇2008年1季度至2011年3季度的數(shù)據(jù)作為訓(xùn)練樣本。
一季度模型的訓(xùn)練樣本誤差為0.022036,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.15219。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為85%,我們所關(guān)注的選股正確率(預(yù)測(cè)值為1且真實(shí)值也為1的正確率)為65%>50%,模型整體估計(jì)效果較好。
兩季度模型估計(jì)結(jié)果。兩季度模型的訓(xùn)練樣本誤差為0.063952,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.2。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為80%,我們所關(guān)注的選股正確率為56.7%>50%,模型整體估計(jì)效果較好。
三季度模型估計(jì)結(jié)果。三季度模型的訓(xùn)練樣本誤差為0.072,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.21195。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為79%,我們所關(guān)注的選股正確率為45.5%<50%,模型整體估計(jì)效果并不理想。
四季度模型估計(jì)結(jié)果。四季度模型的訓(xùn)練樣本誤差為0.073293,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.2254791。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為77%,我們所關(guān)注的選股正確率為36.4%<50%,模型整體估計(jì)效果并不理想。
從上文四個(gè)模型的回歸結(jié)果可以看出,隨著預(yù)測(cè)區(qū)間的增加,模型的預(yù)測(cè)精度逐漸下降,當(dāng)預(yù)測(cè)區(qū)間達(dá)到一年時(shí),模型的正確率為77%<80%,選股正確率也遠(yuǎn)低于50%,模型的預(yù)測(cè)作用。因此模型最佳的預(yù)測(cè)區(qū)間為一季度到半年。
(二)模型的測(cè)試結(jié)果
從預(yù)測(cè)結(jié)果可以發(fā)現(xiàn):首先,模型在未來一季度的預(yù)測(cè)正確率最高為84%,隨后一直維持在76%至77%之間,可見預(yù)測(cè)期間的增長(zhǎng)并沒有對(duì)模型總體的預(yù)測(cè)精度產(chǎn)生較大影響,這與我們模型估計(jì)的結(jié)果是相似的。另一方面,選股正確率則出現(xiàn)較為明顯的下降趨勢(shì),未來一季度的選股正確率達(dá)到了77%,這可能是與模型引入預(yù)測(cè)期下一月份的收益率為解釋變量有關(guān),但是隨后的選股正確率快速下降,當(dāng)預(yù)測(cè)期達(dá)到未來一年時(shí),模型的選股正確率只有28.75%,還不到30%,此時(shí)的模型已經(jīng)幾乎失去了我們所關(guān)注預(yù)測(cè)功能。
(三)模型的預(yù)測(cè)結(jié)果
本文在實(shí)際預(yù)測(cè)時(shí)為了確保正確率,僅選用一季度及半年度模型進(jìn)行預(yù)測(cè),使用的預(yù)測(cè)數(shù)據(jù)為12年3季度的財(cái)務(wù)數(shù)據(jù)及交易數(shù)據(jù)。
三、總結(jié)
SVM是一種尋找特征空間線性邊界的分類方法,與普通判方法相比,它有適應(yīng)性很強(qiáng),且是在更高維度的線性判別,得到的效果也更好。但是SVM也不是萬能的,若數(shù)據(jù)中噪音數(shù)量過多時(shí),SVM的的方差則會(huì)受噪音的影響而變大,估計(jì)結(jié)果會(huì)受到影響,因此在使用SVM之前應(yīng)該適當(dāng)?shù)倪M(jìn)行變量選擇以增加SVM的效果。同樣的,SVM也對(duì)核函數(shù)的選擇非常敏感,正確的選擇核函數(shù)對(duì)分類的結(jié)果也起著重要的作用。endprint
【摘要】擇時(shí)與選股永遠(yuǎn)是資本市場(chǎng)不老的研究課題,近年來,數(shù)量化分析在投資實(shí)務(wù)界和學(xué)術(shù)界都取得了豐碩的成果和關(guān)注,本文就支持向量機(jī)這一新興方法應(yīng)用到股票投資中,給出了短期和長(zhǎng)期的預(yù)測(cè),并與實(shí)際情況相比較,以探查選股結(jié)果的好壞。
【關(guān)鍵詞】數(shù)據(jù)挖掘 支持向量機(jī) 選股
一、引言
支持向量機(jī),英文為SupportVectorMachine,簡(jiǎn)稱SV機(jī)(一般簡(jiǎn)稱SVM),由Vapnik(Vapnik,1999)等人提出,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。基于SVM在分類上的優(yōu)勢(shì),本文使用這一方法來對(duì)股票進(jìn)行選取,并觀察效果的好壞。
二、基于SVM的選股模型
本文選取了2007年1月1日起自2012年11月31日建筑業(yè)的財(cái)務(wù)數(shù)據(jù)和交易數(shù)據(jù)作為我們的研究對(duì)象,并通過向后選擇選取了解釋變量如下表所示:
其中return00、Return-1、Return-2都是按月度回報(bào)率進(jìn)行算術(shù)平均后的回報(bào)率。Performance00是對(duì)return00進(jìn)行排序后的得分情況。需要注意的是,模型中引入了一個(gè)新的解釋變量:return01。該解釋變量表示的是股票在下一個(gè)月的回報(bào)率。從字面上看,這一變量似乎是一個(gè)預(yù)期值,并非可以通過觀測(cè)得到。實(shí)際上在模型中引入這一變量是因?yàn)榭紤]到財(cái)務(wù)報(bào)表的公布往往具有很強(qiáng)的滯后性,我們可以直接得到。所以,在模型中引入這一變量不單是為了使模型的估計(jì)更加貼近實(shí)際情況,同時(shí)另一方面也是為了增加模型的實(shí)用性。
每個(gè)因變量都是計(jì)算相應(yīng)時(shí)期的平均回報(bào)率后對(duì)收益率進(jìn)行排序打分得到的二分類變量。之所以選擇四個(gè)因變量,是因?yàn)榭紤]到公司的經(jīng)營(yíng)狀況,財(cái)務(wù)狀況對(duì)公司收益率往往具有緩慢且長(zhǎng)期的影響,如果模型僅僅只是預(yù)測(cè)公司下一季度的回報(bào)率則顯得太過草率。因此,本文考慮將因變量的時(shí)間窗口拉長(zhǎng)為一年,從而增加模型預(yù)測(cè)的穩(wěn)健性。
在后續(xù)的估計(jì)結(jié)果評(píng)價(jià)中,本文以“選股正確率”,即模型的預(yù)測(cè)值為1且真實(shí)值也為1的概率這一指標(biāo)作為評(píng)價(jià)對(duì)模型估計(jì)效果好壞的唯一標(biāo)準(zhǔn)。
(一)模型的估計(jì)結(jié)果
在分析時(shí),本文選擇高斯函數(shù)作為核函數(shù),其參數(shù)σ選擇自動(dòng),相應(yīng)的懲罰因子C=30。因?yàn)槟P偷念A(yù)測(cè)能力達(dá)到了一年,而目前所能獲得的最新測(cè)試數(shù)據(jù)為11年4季度,因此選擇2008年1季度至2011年3季度的數(shù)據(jù)作為訓(xùn)練樣本。
一季度模型的訓(xùn)練樣本誤差為0.022036,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.15219。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為85%,我們所關(guān)注的選股正確率(預(yù)測(cè)值為1且真實(shí)值也為1的正確率)為65%>50%,模型整體估計(jì)效果較好。
兩季度模型估計(jì)結(jié)果。兩季度模型的訓(xùn)練樣本誤差為0.063952,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.2。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為80%,我們所關(guān)注的選股正確率為56.7%>50%,模型整體估計(jì)效果較好。
三季度模型估計(jì)結(jié)果。三季度模型的訓(xùn)練樣本誤差為0.072,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.21195。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為79%,我們所關(guān)注的選股正確率為45.5%<50%,模型整體估計(jì)效果并不理想。
四季度模型估計(jì)結(jié)果。四季度模型的訓(xùn)練樣本誤差為0.073293,核函數(shù)參數(shù)σ=0.041,模型的整體誤差為0.2254791。通過誤差矩陣進(jìn)行簡(jiǎn)單計(jì)算可以得到模型總體的正確率為77%,我們所關(guān)注的選股正確率為36.4%<50%,模型整體估計(jì)效果并不理想。
從上文四個(gè)模型的回歸結(jié)果可以看出,隨著預(yù)測(cè)區(qū)間的增加,模型的預(yù)測(cè)精度逐漸下降,當(dāng)預(yù)測(cè)區(qū)間達(dá)到一年時(shí),模型的正確率為77%<80%,選股正確率也遠(yuǎn)低于50%,模型的預(yù)測(cè)作用。因此模型最佳的預(yù)測(cè)區(qū)間為一季度到半年。
(二)模型的測(cè)試結(jié)果
從預(yù)測(cè)結(jié)果可以發(fā)現(xiàn):首先,模型在未來一季度的預(yù)測(cè)正確率最高為84%,隨后一直維持在76%至77%之間,可見預(yù)測(cè)期間的增長(zhǎng)并沒有對(duì)模型總體的預(yù)測(cè)精度產(chǎn)生較大影響,這與我們模型估計(jì)的結(jié)果是相似的。另一方面,選股正確率則出現(xiàn)較為明顯的下降趨勢(shì),未來一季度的選股正確率達(dá)到了77%,這可能是與模型引入預(yù)測(cè)期下一月份的收益率為解釋變量有關(guān),但是隨后的選股正確率快速下降,當(dāng)預(yù)測(cè)期達(dá)到未來一年時(shí),模型的選股正確率只有28.75%,還不到30%,此時(shí)的模型已經(jīng)幾乎失去了我們所關(guān)注預(yù)測(cè)功能。
(三)模型的預(yù)測(cè)結(jié)果
本文在實(shí)際預(yù)測(cè)時(shí)為了確保正確率,僅選用一季度及半年度模型進(jìn)行預(yù)測(cè),使用的預(yù)測(cè)數(shù)據(jù)為12年3季度的財(cái)務(wù)數(shù)據(jù)及交易數(shù)據(jù)。
三、總結(jié)
SVM是一種尋找特征空間線性邊界的分類方法,與普通判方法相比,它有適應(yīng)性很強(qiáng),且是在更高維度的線性判別,得到的效果也更好。但是SVM也不是萬能的,若數(shù)據(jù)中噪音數(shù)量過多時(shí),SVM的的方差則會(huì)受噪音的影響而變大,估計(jì)結(jié)果會(huì)受到影響,因此在使用SVM之前應(yīng)該適當(dāng)?shù)倪M(jìn)行變量選擇以增加SVM的效果。同樣的,SVM也對(duì)核函數(shù)的選擇非常敏感,正確的選擇核函數(shù)對(duì)分類的結(jié)果也起著重要的作用。endprint