馬耀蘭
(北方民族大學(xué) 信息與計算科學(xué)學(xué)院,寧夏 銀川 750021)
基于支持向量機方法的股票預(yù)測模型
馬耀蘭
(北方民族大學(xué) 信息與計算科學(xué)學(xué)院,寧夏 銀川 750021)
利用支持向量機方法建立股票投資預(yù)測模型,經(jīng)過與多項式函數(shù)及Sigmoid核函數(shù)的對比,選用Gauss徑向基函數(shù)作為SVM核函數(shù);抽取223支上市公司的股票作為研究樣本,并選取對股票投資影響顯著的財務(wù)指標(biāo)構(gòu)造樣本數(shù)據(jù)集,代入支持向量機模型進(jìn)行實證測算;實驗表明,與BP神經(jīng)網(wǎng)絡(luò)模型相比,在樣本有限的情況下,基于支持向量機的股票投資模型預(yù)測精度更高。
支持向量機;BP神經(jīng)網(wǎng)絡(luò);預(yù)測模型
目前,在我國上海和深圳兩家證券交易所上市的公司已達(dá)兩千多家,投資者購買其中的一種股票,就等于選擇了這家上市公司,投資者投資股市如何合理規(guī)避風(fēng)險、獲得一定的投資收益呢,除進(jìn)行宏觀經(jīng)濟(jì)分析和行業(yè)經(jīng)濟(jì)分析外,還必須對上市公司本身進(jìn)行科學(xué)合理的分析,其中上市公司的內(nèi)部財務(wù)狀況是構(gòu)成分析的主要內(nèi)容。但是由于股票價格現(xiàn)象是一個非線性的復(fù)雜系統(tǒng),傳統(tǒng)的股票投資研究方法有諸多不足,其中計量模型方法或是用簡單的財務(wù)指標(biāo)做影響因子來解釋股票收益,或是用未來現(xiàn)金流的貼現(xiàn)值來估計股票的內(nèi)在價值,因此采用傳統(tǒng)的模型方法研究股票投資問題,無法克服模型檢驗困難和推廣泛化能力差這兩個難題。[1]
隨著非線性技術(shù)的發(fā)展,人們提出了神經(jīng)網(wǎng)絡(luò)( ANN )方法,在實際應(yīng)用中80%90%的人工神經(jīng)網(wǎng)絡(luò)模型是采用誤差反傳算法或其變化形式的網(wǎng)絡(luò)模型(簡稱BP神經(jīng)網(wǎng)絡(luò))。許多學(xué)者對經(jīng)典ANN 進(jìn)行改進(jìn),將其應(yīng)用于股票預(yù)測,相對于經(jīng)典的ANN,在收斂精度、收斂速度和全局優(yōu)化方面有所改善,但ANN方法是基于經(jīng)驗風(fēng)險最小原則,最終解過于依賴初值,存在過學(xué)習(xí)的現(xiàn)象,訓(xùn)練過程中容易陷入局部最優(yōu)問題等。[2-3]
支持向量機(簡稱SVM)方法是統(tǒng)計學(xué)習(xí)理論的一種實現(xiàn)方法,它也是一種前向型神經(jīng)網(wǎng)絡(luò),可以用于分類和非線性回歸。SVM方法的基本思想是:基于Mercer核展開定理,通過非線性映射把特征空間映射到Hilbert空間,在Hilbert空間中用線性學(xué)習(xí)機方法解決非線性分類和回歸等問題。此外,SVM還是一種專門研究小樣本情況下機器學(xué)習(xí)規(guī)律的理論,[4-5]被認(rèn)為是目前針對小樣本統(tǒng)計估計和預(yù)測學(xué)習(xí)的最佳理論。本文嘗試采用支持向量機方法建立股票投資預(yù)測模型,并重點考察支持向量機股票投資模型的預(yù)測效果。
支持向量機(SVM)是基于統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小化(SRM)原則的學(xué)習(xí)機器。而SRM原則是針對二值分類問題(兩類的分類問題)提出的,因此,關(guān)于SVM的基本問題是二值分類問題,有關(guān)SVM的詳細(xì)介紹,請參考文獻(xiàn)。[4-5]
設(shè)線性可分樣本集T={(x1,y1),(x2,y2),…,(xn,yn)}∈(X×Y)n,其中xi∈X=Rn,
yi∈Y={-1,1},是類別標(biāo)號,i=1,2,…,n,要求在X=Rn上找一個實值函數(shù)g(x),使之可以用決策函數(shù)f (x)=sgn(g(x))推斷每一個x相對應(yīng)的y,也就是找到一個把Rn上的點分成兩部分的規(guī)則。
下式定義一個判別函數(shù),它是n維向量空間中的一個超平面:
g(x)=(w·x)+b=0
(1)
(2)
(2)式可統(tǒng)一表示為:
yi[(w·xi)+b]≥1 i=1,2,…,n
(3)
(4)
則稱τ為判別函數(shù)(1)式的余量,它表示樣本點與超平面之間的最小距離。余量越大,基于該超平面的分類推廣能力越好。對同一組分類樣本,可做出許多超平面,其中余量最大者稱為最優(yōu)分類超平面。從(4)式可知,余量最大即表示‖w‖最小,因此求最優(yōu)分類超平面的問題可表述為下列二次優(yōu)化問題。
s.t. yi[(w·xi)+b]≥1 i=1,2,…,n
(5)
以上目標(biāo)函數(shù)是嚴(yán)格上凹的二次型,約束函數(shù)是下凹的,這是一個嚴(yán)格凸規(guī)劃問題,可以轉(zhuǎn)換成拉格朗日(Lagrange)問題進(jìn)行求解。因此,可以定義如下的Lagrange函數(shù):
(6)
其中αi≥0為Lagrange乘子。由Karush-Kuhn-Tucker(KKT)條件,可將(6)式中的w和b僅用αi表示,得到原優(yōu)化問題的對偶優(yōu)化問題如下:
(7)
訓(xùn)練集線性不可分時,任何超平面都不可能完全正確的劃分,此時對第i個訓(xùn)練點(xi,yi)引入松弛變量ξi≥0,把約束條件yi[(w·xi)+b]≥1放松為
yi[(w·xi)+b]+ξi≥1
(8)
s.t. yi[(w·xi)+b]+ξi≥1, i=1,2,…,n
(9)
其中懲罰參數(shù)Cgt;0為某個指定的常數(shù),這一優(yōu)化問題同樣需要變換為用拉格朗日乘子表示的對偶問題,在高維情況下才容易求解。變換的過程與前面推導(dǎo)線性可分樣本的對偶問題類似,得到如下對偶優(yōu)化問題
其結(jié)果和可分的情況幾乎完全相同,只是αi的條件有所不同。
對非線性分類問題,通過引入核函數(shù)K(xi,xj)轉(zhuǎn)化為線性分類,優(yōu)化問題如下:
1.SVM模型輸入變量的選取。
文中訓(xùn)練樣本的指標(biāo)數(shù)據(jù)來自于清華大學(xué)中國金融研究數(shù)據(jù)庫公布的上市公司2008年年報的財務(wù)數(shù)據(jù)。我們隨機抽取了除ST、*ST和B股以外的223支股票作為訓(xùn)練數(shù)據(jù)集進(jìn)行分類研究,即共有223條記錄,每一條記錄由9個屬性組成,其中前8個屬性是模型的輸入變量,它們是公司盈利能力、資產(chǎn)管理能力、償債能力和成長能力的描述,包括:每股收益、主營業(yè)務(wù)凈利率、凈資產(chǎn)收益率、市盈率、流動比率、速動比率、總資產(chǎn)周轉(zhuǎn)率以及資產(chǎn)負(fù)債率。最后一個屬性,即輸出變量,是對股票類別的定義,我們構(gòu)造的SVM模型共分為2個類別:其中“1” 表示績優(yōu)股,“-1”表示非績優(yōu)股。有關(guān)績優(yōu)股和非績優(yōu)股的定義為:“績優(yōu)股”是指每股稅后利潤在全體上市公司中處于中上地位,公司上市后凈資產(chǎn)收益率連續(xù)三年顯著超過10%的股票,“非績優(yōu)股”則是不滿足以上約束條件的股票。受篇幅所限,這里只給出一部分股票訓(xùn)練數(shù)據(jù),如表1所示。
表1 部分股票訓(xùn)練數(shù)據(jù)
2.預(yù)測結(jié)果。
本文采用SVM模型、決策樹和改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比實驗,利用基于損失函數(shù)的標(biāo)準(zhǔn)來評價模型的預(yù)測精度,也就是用混淆矩陣作為分類規(guī)則特征的表示,它是分析分類器識別不同樣本情況的有用工具。BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)為8×24×1,決策樹采用的是C5.0算法,由于處理實際問題中的樣本信息量較大,我們利用數(shù)據(jù)挖掘軟件SPSS Clementine12.0進(jìn)行模型的構(gòu)建,預(yù)測結(jié)果如表2所示。
表2 SVM、BP神經(jīng)網(wǎng)絡(luò)和決策樹對訓(xùn)練樣本的分類結(jié)果
3.實驗結(jié)果分析。
由表2可以看出:在利用SVM建立的預(yù)測模型對股票投資價值進(jìn)行預(yù)測時,其預(yù)測的正確率和誤差率分別是96.86%和3.14%,223支股票中有216支分類正確,7支分類錯誤。而用BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測的正確率和誤差率分別是94.62%和5.38%,223支股票中有211支分類正確,12支分類錯誤。決策樹模型預(yù)測的正確率為96.86%,誤差率3.14%。預(yù)測結(jié)果表明:與神經(jīng)網(wǎng)絡(luò)方法相比,基于SVM股票投資模型的預(yù)測在平均正確性和平均錯誤性都有明顯提高。另外一方面也說明,在本文中SVM模型的預(yù)測精度與決策樹模型的預(yù)測精度一樣。
本文嘗試用支持向量機來預(yù)測公司股票是否有投資價值,以上市公司財務(wù)指標(biāo)作為輸入變量,以績優(yōu)股作為輸出變量,并與BP神經(jīng)網(wǎng)絡(luò)和決策樹股票投資預(yù)測模型的實證結(jié)果進(jìn)行對比。最后得出支持向量機股票投資模型的預(yù)測效果較優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。同時該研究結(jié)果也表明,在模型建立過程中,最重要的四個輸入變量依次為每股收益、凈資產(chǎn)收益率、市盈率(PEI)和總資產(chǎn)周轉(zhuǎn)率。利用支持向量機來挑選優(yōu)質(zhì)股票的預(yù)測模型具有一定的科學(xué)性和可行性。
[1]韓兆洲,謝銘杰.上市公司投資價值評價模型及其實證分析[J].中央財經(jīng)大學(xué)學(xué)報,2004, 24(11):71-75.
[2]C Burges.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998,2(2):121-127.
[3]Francis E H Tay, Cao Li- juan. Application of Support Vector Machines in Financial Time Series Forecasting[J].The International Journal of Management Science, 2001(29):309-317.
[4]Vladimir N. Vapnik. The nature of statistical learning theory[M].New York: Springer-Verlag,1995.
[5]Cortes C, Vapnik V. Support vector machine [J].Machine Learning,1995(20):273-297.
[6]吳曉求,等.證券投資分析[M].北京:中國人民大學(xué)出版社,2001.
[7]鄧乃揚,田英杰.數(shù)據(jù)挖掘中的新方法—支持向量機[M].北京:科學(xué)出版社,2004.
[8]張秋水,羅林開,劉晉明.基于支持向量機的中國上市公司財務(wù)困境預(yù)測[J].計算機應(yīng)用,2006,26(6):105-107.
ClassNo.:O212DocumentMark:A
(責(zé)任編輯:蔡雪嵐)
ForecastModelsforStocksBasedontheSupportVectorMachineApproach
Ma Yaolan
(College of Information and Computing Science, Bei Fang University of Nationality, Yinchuan, Ningxia, 750021,China)
With the SVM approach , a forecast model of stock investment value was built . By comparing with polynomial function and sigmoid function, radial basic function was selected as the kernel function of SVM. 223 stocks of Listed Companies was selected as research sample, and the financial data which influenced the stock investment value was selected to construct the sample feature set which is put into the SVM model for empirical calculation. Experimental results show that SVM-based model performed significantly better than the neural network based model in both prediction precision and speed, especially under the condition of limited training samples.
SVM; BP neural network; prediction model
馬耀蘭,碩士,講師,北方民族大學(xué)。研究方向:應(yīng)用概率統(tǒng)計。
北方民族大學(xué)科學(xué)研究項目(項目編號:2010Y040)資助。
1672-6758(2013)04-0124-2
O212
A