亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

GA－SVM對(duì)上證綜指走勢(shì)的預(yù)測(cè)研究

2012-12-27 03:51:10李泓儀蘭書梅

東北師大學(xué)報(bào)(自然科學(xué)版) 2012年1期

關(guān)鍵詞：二進(jìn)制適應(yīng)度染色體

張偉，李泓儀，蘭書梅，張潔

（1.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，吉林長春 130012；2.吉林大學(xué)經(jīng)濟(jì)學(xué)院，吉林長春 130012）

GA－SVM對(duì)上證綜指走勢(shì)的預(yù)測(cè)研究

張偉1，李泓儀2，蘭書梅1，張潔1

（1.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，吉林長春 130012；2.吉林大學(xué)經(jīng)濟(jì)學(xué)院，吉林長春 130012）

將支持向量機(jī)和遺傳算法結(jié)合，建立了一種智能數(shù)據(jù)挖掘技術(shù)（GA－SVM），并用于對(duì)上證綜指市場(chǎng)走勢(shì)進(jìn)行了探索.在這個(gè)混合的數(shù)據(jù)挖掘方法中，GA用于RBF參數(shù)的設(shè)定以及特征集的選擇，從而智能的找到SVM的最佳參數(shù)，減少SVM特征值的復(fù)雜度，提高了SVM算法速度.SVM用于判斷未來股票市場(chǎng)的走勢(shì)，并與統(tǒng)計(jì)模型、時(shí)間序列模型方法、神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比.實(shí)驗(yàn)證明，GA－SVM優(yōu)于其他幾種方法，這種方法對(duì)于股票上漲或下跌的預(yù)測(cè)研究是有效的.

支持向量機(jī)；遺傳算法；GA－SVM；股票走勢(shì)預(yù)測(cè)

自股票誕生以來，對(duì)股票趨勢(shì)的預(yù)測(cè)便成為眾多投資者密切關(guān)注的問題.眾多金融、計(jì)算機(jī)學(xué)界的專家、學(xué)者對(duì)此投入了極大的熱情.由于股市高復(fù)雜和高噪聲的特點(diǎn)，研究股票市場(chǎng)的走勢(shì)被認(rèn)為是一項(xiàng)具有挑戰(zhàn)的工作.早期通過人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks，簡(jiǎn)稱ANNs）對(duì)股票市場(chǎng)進(jìn)行了預(yù)測(cè)，但ANNs有諸多不足，結(jié)構(gòu)難以確定，訓(xùn)練過程學(xué)習(xí)率等參數(shù)不好確定，計(jì)算量大、算法收斂速度慢，易于陷入局部極值和過學(xué)習(xí)的問題［1－2］.

針對(duì)ANNs的局限性，近年來，人們提出了SVM方法預(yù)測(cè)證券市場(chǎng)趨勢(shì)［3－4］.SVM在理論上充分保證了模型的泛化能力，克服了局部極值和過學(xué)習(xí)的問題，計(jì)算復(fù)雜度大大降低.為了提高預(yù)測(cè)率和運(yùn)行速度，本文提出了一種新穎的GA－SVM智能算法，該方法利用GA的全局自動(dòng)尋優(yōu)能力智能的找到SVM的最佳參數(shù)、最優(yōu)的輸入特征，優(yōu)化了核函數(shù)的參數(shù)，剔除了冗余特征，提高了預(yù)測(cè)的命中率，減少了計(jì)算量和預(yù)測(cè)時(shí)間.

1 建模

1.1 建立SVM模型

SVM是由Vapnik提出的支持向量分類（SVC）.SVM建立在統(tǒng)計(jì)學(xué)習(xí)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論基礎(chǔ)之上，其基本思想是利用線性模型通過非線性映射將向量統(tǒng)一到高維空間［5］.一個(gè)非線性邊界在新的高維平面中可以構(gòu)造成線性模型.在新的空間，一個(gè)可分超平臺(tái)將會(huì)被建立.因此，SVM是著名的尋找最優(yōu)超平面邊界即線性模型的算法.最優(yōu)超平面對(duì)二分類問題最有效，這種最接近最優(yōu)超平面的向量叫做支持向量（Support Vector，簡(jiǎn)稱SV），見圖1所示.

SVM是通過核函數(shù)來實(shí)現(xiàn)從低維線性不可分向高維線性可分即最優(yōu)超平面映射.這時(shí)，SVM核函數(shù)可記為

核函數(shù)的選取對(duì)于創(chuàng)建最優(yōu)超平面意義重大，本文根據(jù)股票數(shù)據(jù)特點(diǎn)確定采用徑向基核函數(shù)，公式為

1.2 遺傳算法的基礎(chǔ)理論

遺傳算法（Genetic Algorithm，簡(jiǎn)稱GA）是一類借鑒自然界生物進(jìn)化和遺傳機(jī)理而發(fā)展起來的自適應(yīng)全局優(yōu)化隨機(jī)搜索算法，其本質(zhì)是一種不依賴具體問題的直接搜索方法［6］.GA作為具有高性能計(jì)算、建模、尋優(yōu)的方法漸趨成熟.GA的基本流程圖如圖2所示.

圖1 SVM二分類問題的原理圖

圖2 GA基本流程圖

1.3 建立GA－SVM模型

利用GA對(duì)SVM分類器進(jìn)行改進(jìn)的關(guān)鍵是正確建立GA模型，以優(yōu)化特征選擇問題為例，對(duì)建立GA模型進(jìn)行介紹.

圖3 特征編碼示意圖

1.3.1 編碼

每一個(gè)特征被定義為一位基因，如圖3所示.所有特征用一個(gè)長度為特征個(gè)數(shù)的二進(jìn)制串表示，這個(gè)二進(jìn)制串就是染色體.如果染色體的第k位為1，就表示第k個(gè)特征被選中，如果為0，則表示這個(gè)特征被屏蔽.在這里，每一個(gè)染色體代表不同的特征子集.

1.3.2 初始化

通常初始種群是由隨機(jī)產(chǎn)生的，這也是較為常用的方式.例如，種群中染色體的每一位可以用拋硬幣的方式確定.然而通過這種方式獲得的種群，每一個(gè)染色體的“1”或者“0”的數(shù)量是大致相同的，每個(gè)染色體的特征數(shù)量大致相同.但是，我們想獲得代表不同數(shù)量特征的染色體種群.于是，本文用2次隨機(jī)化方式，首先隨機(jī)產(chǎn)生每個(gè)染色體所含“1”的個(gè)數(shù)，然后再把這些“1”隨機(jī)分布在對(duì)應(yīng)的染色體中.采用這種方法能更有效地反映特征的多樣性.

1.3.3 適應(yīng)度的評(píng)價(jià)

選擇特征子集的目的是使用較少的特征達(dá)到相同或更好的分類效果，因此評(píng)價(jià)適應(yīng)度應(yīng)從兩方面考慮：（1）分類的準(zhǔn)確率；（2）分類器輸入的特征子集的特征數(shù)量.不同的特征子集包含不同數(shù)量的特征，如果2個(gè)特征子集驗(yàn)證產(chǎn)生的準(zhǔn)確率相同，那么特征數(shù)量比較少的子集就被選中.當(dāng)訓(xùn)練分類器時(shí)，我們僅使用特征子集中確定的特征來訓(xùn)練，用分類結(jié)果評(píng)價(jià)分類器的性能，并以此來指導(dǎo)GA的進(jìn)一步搜索.

本文在確定適應(yīng)度函數(shù)時(shí)，綜合考慮了準(zhǔn)確率和特征數(shù)量這2個(gè)因素，其中重點(diǎn)考慮的仍然是準(zhǔn)確率，但并非只是簡(jiǎn)單地將適應(yīng)度等同于準(zhǔn)確率.

結(jié)合以上內(nèi)容，GA的適應(yīng)度函數(shù)可表示為：

1.3.4 遺傳操作

本文沒有使用傳統(tǒng)的一點(diǎn)交叉的方法，因?yàn)槿绻恢捞卣髦g的依賴關(guān)系，一點(diǎn)交叉的方法可能會(huì)分離染色體相互依賴的特征.為了避免上述情況的發(fā)生，在這里使用均勻交叉的方法.

變異操作的作用是使種群突變，跳出局部極值，它僅改變?nèi)旧w的一位，并且概率非常小.

選擇是從父代中選擇個(gè)體組成新的一代，選擇既要保證優(yōu)勝劣汰，即適應(yīng)度高的個(gè)體被選中，又要考慮種群的多樣性，避免“早熟”.我們選擇操作方法采用經(jīng)典的賭輪法.

利用GA尋找SVM中最佳的尺度參數(shù)σ和懲罰因子C，其方法與上面基本相同，主要區(qū)別是染色體編碼上.首先定義染色體中基因個(gè)數(shù)為20，并按經(jīng)驗(yàn)設(shè)定尺度參數(shù)σ和懲罰因子C的范圍；然后按設(shè)定的范圍進(jìn)行離散化及二進(jìn)制編碼，如σ∈（0，10］，步長為10／1 024，二進(jìn)制編碼為0000000001～1111111111，這樣二進(jìn)制的每一位可以看作是一個(gè)基因，得到尺度參數(shù)σ的二進(jìn)制串為X＝x1x2…x10.懲罰因子C∈（0，100］，步長為100／1 024，二進(jìn)制串為0000000001～1111111111，得到Y(jié)＝y(tǒng)1y2…y10，于是染色體為XY＝x1x2…x10y1y2…y10，映射函數(shù)記為σ＝fσ·X，C＝f C·Y，其中fσ和f C為參數(shù)與二進(jìn)制編碼間的映射關(guān)系.結(jié)束后還需要進(jìn)行解碼，將染色體轉(zhuǎn)換成實(shí)際的尺度參數(shù)σ和懲罰因子C.

1.4 GA－SVM模型方法

為方便起見，我們把GA優(yōu)化SVM參數(shù)和特征的方法稱為GA－SVM方法.在GA－SVM方法中雖然兩處優(yōu)化都用到了GA算法，但這2處優(yōu)化不能同時(shí)進(jìn)行.為了獲得最佳效果，采用先優(yōu)化參數(shù)再優(yōu)化特征的辦法.步驟如下：

Step1：選定原始特征向量；

Step2：按照1.3.2的步驟用對(duì)參數(shù)進(jìn)行優(yōu)化，獲得最優(yōu)尺度參數(shù)σ和懲罰因子C；

Step3：按照1.3.1的步驟用對(duì)特征向量進(jìn)行優(yōu)化，獲得最佳特征向量集；

Step4：用改進(jìn)后的SVM對(duì)測(cè)試集進(jìn)行測(cè)試，得到準(zhǔn)確率.

2 實(shí)例研究

2.1 實(shí)際過程

綜合考慮影響數(shù)據(jù)的各方面因素，采用2000年1月1日到2010年3月24日的上證綜指數(shù)據(jù)作為樣本，并將該樣本中未來三日漲幅超過1%的樣本標(biāo)記為“＋1”，跌幅超過1%的樣本標(biāo)記為“0”，其他樣本暫不作考慮.

每一個(gè)樣本選用20個(gè)特征，建立訓(xùn)練樣本集合S＝（（x1，y1），…，（x20，y20））?（X×Y）20，并用“＋1”和“0”對(duì)數(shù)據(jù)進(jìn)行標(biāo)記.在標(biāo)記好的樣本數(shù)據(jù)中，漲跌數(shù)據(jù)各取20組作為訓(xùn)練樣本存入訓(xùn)練集中.20種技術(shù)指標(biāo)的公式見表1［7］.

表1 股票分析的重要指標(biāo)及表達(dá)式

續(xù)表1

為了評(píng)價(jià)GA－SVM模型的預(yù)測(cè)能力，我們將該方法與一些常用的方法進(jìn)行比較，如靜態(tài)時(shí)間序列模型和神經(jīng)網(wǎng)絡(luò)模型，以及不帶GA優(yōu)化的獨(dú)立SVM模型和其他優(yōu)化SVM模型的方法.我們選擇了隨機(jī)漫步模型（RW），自動(dòng)回歸綜合移動(dòng)平均模型（ARIMA），獨(dú)立BP神經(jīng)網(wǎng)絡(luò)（BPNN）模型，獨(dú)立SVM模型和蟻群優(yōu)化的SVM模型作為基準(zhǔn).實(shí)驗(yàn)?zāi)Ｐ偷闹饕獏?shù)設(shè)置見表2—4.

表2 SVM主要參數(shù)

表3 GA主要參數(shù)

對(duì)于GA－SVM模型，首先通過GA找到適合樣本特性的RBF核參數(shù)σ和懲罰因子C，從而消除了因SVM參數(shù)設(shè)置不當(dāng)導(dǎo)致的預(yù)測(cè)準(zhǔn)確率低下的風(fēng)險(xiǎn).然后用GA對(duì)輸入SVM分類器的特征進(jìn)行選擇，濾掉大部分與股票預(yù)測(cè)無關(guān)或關(guān)聯(lián)不大的特征，找到最佳特征集.這對(duì)沒有先驗(yàn)知識(shí)的使用者來說是極具意義的，同時(shí)這也加速了SVM分類搜索的過程.

2.2 交叉驗(yàn)證

采用10折交叉驗(yàn)證，先將全部實(shí)驗(yàn)數(shù)據(jù)平均分成10份，取其中后20套上漲數(shù)據(jù)、20套下跌數(shù)據(jù)，共40套數(shù)據(jù)作為訓(xùn)練樣本，其余數(shù)據(jù)作為測(cè)試數(shù)據(jù)，對(duì)所確定的參數(shù)及特征進(jìn)行交叉驗(yàn)證，對(duì)所得準(zhǔn)確率求數(shù)學(xué)平均值，得到最終結(jié)論.

2.3 實(shí)驗(yàn)結(jié)果

分別用以上模型對(duì)上證綜指進(jìn)行預(yù)測(cè)驗(yàn)證，得到實(shí)驗(yàn)結(jié)果見表5—7.

表4 ANNs主要參數(shù)

表5 SVM與其他股票預(yù)測(cè)效果比較 %

表6 SVM與GA優(yōu)化的SVM的預(yù)測(cè)效果比較

表7 GA－SVM與其他主要非線性預(yù)測(cè)方法效果比較

由表5—7可見，通過對(duì)比各模型對(duì)上證綜指的預(yù)測(cè)效果，發(fā)現(xiàn)GA－SVM模型表現(xiàn)是最好的.其準(zhǔn)確性最高，預(yù)測(cè)的時(shí)效性也最好，這同時(shí)也說明GA－SVM的預(yù)測(cè)模型可以應(yīng)用于對(duì)股票市場(chǎng)趨勢(shì)的預(yù)測(cè)研究.

［1］RAY TSAIH，YENSHAN HSU，CHARIES C LAI.Forecasting S＆P 500 stock index futures with a hybrid AI system［J］.Decision Support System，1998，23：161－174.

［2］GRUDNITSKE G，OSBURN L.Foreeasting S＆P and gold future prices an application of neural networks［J］.Futures Markets，1993，13（6）：631－643.

［3］KIN KYOUNG－JAE.Financial time series forecasting using support vector machines［J］.Neurocomputing，2003，55：307－319.

［4］MUKHEJEE S，OSUNA E GIROSI F.Nonlinear prediction of chaotic time series using support vector machines［C］／／Proceedings of the IEEE Workshop on Neural Networks for Signal Processing，State of Florida：Amelia Island，1997：511－520.

［5］VAPNIK V.The Nature of statistical learning theory［M］.New York：Springer－Verlag，1995：203－232.

［6］周明，孫樹棟.遺傳算法原理及應(yīng)用［M］.北京：國防工業(yè)出版，1999：121－185.

［7］YU L A，WANG S Y，LAI K K.Mining stock market tendency using GA－based support vector machines［C］.WINE 2005，LNCS 3828.Berlin：Springer，2005：336－345.

A study on prediction of market tendency on the shanghai stock index based on GA－SVM method

ZHANG Wei1，LI Hong－yi2，LAN Shu－mei1，ZHANG Jie1

（1.College of Computer Science and Technology，Jilin University，Changchun 130012，China；2.College of Economics，Jilin University，Changchun 130012，China）

Support vector machine is an effective data mining technology for limited sample data，genetic algorithm is an excellent tool for global optimization.In this study，a hybrid data mining model which combine support vector machine with genetic algorithm（GA－SVM）is proposed to the prediction of market tendency on the shanghai stock index.In this hybrid data mining approach，GA is used to select the RBF parameters and the features，so that to find the best parameters of SVM.That can reduce model complexity of SVM and improve the speed of SVM；SVM is used to judge the future movement direction of the stock market based on the use of historical data.To validate GA－SVM method，we compared its performance with that of other methods（such as statistical method，time series method and neural network method）.The experimental results show that GA－SVM is superior to other methods，implying that the GA－SVM approach is a promising alternative to stock market tendency prediction.

support vector machine；genetic algorithm；GA－SVM；stock market tendency prediction

TP 301

520·2040

1000－1832（2012）01－0055－05

2011－10－27

國家科技支撐計(jì)劃子課題資助項(xiàng)目（2006BAJ18B02－06）.

張偉（1977—），男，碩士研究生，講師；通訊作者：蘭書梅（1963－），女，碩士，副教授，主要從事計(jì)算機(jī)應(yīng)用研究.

石紹慶）