亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

SOM-T2 FLS在股市預(yù)測(cè)中的應(yīng)用研究

2020-04-07 10:48:56袁順杰葉貞成程培鑫

計(jì)算機(jī)工程與應(yīng)用 2020年7期

袁順杰，程輝，葉貞成，程培鑫

華東理工大學(xué) 信息科學(xué)與工程學(xué)院自動(dòng)化系，上海200237

1 引言

隨著機(jī)器學(xué)習(xí)的發(fā)展，越來越多的算法被用于金融市場(chǎng)的預(yù)測(cè)。由于金融市場(chǎng)存在諸多復(fù)雜的因素，比如國(guó)家政策、宏觀調(diào)控、國(guó)際環(huán)境、市場(chǎng)情緒等，這些因素使得金融市場(chǎng)是一個(gè)高度復(fù)雜、不確定、非線性的時(shí)變系統(tǒng)[1]，而投資者更關(guān)注算法的可解釋性、處理不確定性因素的能力，以及在不同市場(chǎng)環(huán)境下的收益能力和抗風(fēng)險(xiǎn)能力。

BP神經(jīng)網(wǎng)絡(luò)、RNN、SVM和LR回歸[2-5]等算法是最先被用于股市預(yù)測(cè)的算法。近年來，算法的可解釋性越來越受到學(xué)者和機(jī)構(gòu)的重視。具備可解釋性意味著算法能清晰地解釋數(shù)據(jù)由輸入到輸出的整個(gè)過程，在金融市場(chǎng)應(yīng)用中具有實(shí)際意義。有學(xué)者將決策樹、隨機(jī)森林、關(guān)聯(lián)規(guī)則[6-9]等方法用于對(duì)金融市場(chǎng)的預(yù)測(cè)。在金融市場(chǎng)中，輸入特征會(huì)受到諸多因素的干擾而具有不確定性，而上述算法不能很好地描述這種不確定性因素。

為了增強(qiáng)算法處理不確定性因素的能力，有學(xué)者將模糊理論用于金融市場(chǎng)的預(yù)測(cè)中。在最近的研究中，Mehmanpazir[10]提出了DEFES（Data mining-based Evolutionary Fuzzy Expert System）算法用于預(yù)測(cè)股票未來走勢(shì)并取得了效果。Tryus[11]采用模糊神經(jīng)網(wǎng)絡(luò)（FNN）預(yù)測(cè)短期內(nèi)指數(shù)漲跌情況，并在S&P500、NASDAC 兩個(gè)指數(shù)上驗(yàn)證了算法的可行性。Bernardo[12]提出了一種用于金融的建模和預(yù)測(cè)的離散2 型模糊邏輯分類器（IT2 FLS），通過數(shù)據(jù)建模生成指定數(shù)量的規(guī)則，并選擇最優(yōu)的規(guī)則輸出作為模型的輸出。Antonelli[13]提出了基于多目標(biāo)優(yōu)化的2 型模糊邏輯分類器（IT2-PAESRCS），通過對(duì)模糊隸屬度函數(shù)參數(shù)的編碼優(yōu)化，得到更優(yōu)的模糊隸屬度函數(shù)。考慮到中國(guó)股市中常呈現(xiàn)出牛市和熊市兩種不同走勢(shì)，而現(xiàn)有的算法在不同行情下的性能具有明顯差異，這使得算法的性能不能進(jìn)一步提高。

針對(duì)以上問題，提出基于SOM和T2 FLS的分類算法（SOM-T2 FLS），其主要?jiǎng)?chuàng)新點(diǎn)在于：

（1）采用無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)相結(jié)合的學(xué)習(xí)方法，利用SOM自組織特性，將原始樣本集劃分成具有空間差異性的子集，再針對(duì)每個(gè)子集分別學(xué)習(xí)T2 FLS 分類器。

（2）模糊推理規(guī)則庫(kù)由C4.5 算法生成，通過生成的決策樹提取規(guī)則，由規(guī)則庫(kù)表示數(shù)據(jù)的非線性關(guān)系，增強(qiáng)算法的可解釋性。

（3）使用遺傳算法對(duì)模糊隸屬度函數(shù)的參數(shù)以及規(guī)則庫(kù)進(jìn)行優(yōu)化，提出將規(guī)則庫(kù)長(zhǎng)度作為正則項(xiàng)加入到適應(yīng)度函數(shù)的計(jì)算中，提升模型的泛化性能。

2 算法原理與流程

2.1 自組織特征映射神經(jīng)網(wǎng)絡(luò)

自組織特征映射神經(jīng)網(wǎng)絡(luò)（Self-Organizing feature Map，SOM）由Kohonen[14]提出，是一種無監(jiān)督學(xué)習(xí)方式。在訓(xùn)練階段，對(duì)網(wǎng)絡(luò)輸入的樣本，輸出層會(huì)有某個(gè)神經(jīng)元產(chǎn)生最大響應(yīng)而獲勝，獲勝神經(jīng)元以及其優(yōu)勝鄰域內(nèi)的所有神經(jīng)元所連接的權(quán)向量均向輸入向量的方向做不同程度的調(diào)整。其中，對(duì)優(yōu)勝鄰域內(nèi)所有神經(jīng)元調(diào)整權(quán)值公式為：

η( t,N )為學(xué)習(xí)率，是訓(xùn)練時(shí)間t 和該神經(jīng)元與獲勝神經(jīng)元j*之間的拓?fù)渚嚯xN 的函數(shù)。SOM 網(wǎng)絡(luò)訓(xùn)練結(jié)束后，輸出層各神經(jīng)元與各輸入模式的映射關(guān)系就完全確定了。利用SOM 的自組織特性，采用無監(jiān)督學(xué)習(xí)的方法，將樣本集分成兩個(gè)子集，使兩個(gè)子集的樣本具有空間差異性。

2.2 T2 FLS分類算法

2 型模糊邏輯系統(tǒng)（T2 FLS）[15]是傳統(tǒng)模糊系統(tǒng)的擴(kuò)展，其特征是隸屬度值本身為模糊集合，增強(qiáng)了模型描述不確定性因素的能力。設(shè){C1, C2,…,CK}是目標(biāo)類別組成的集合，令x={ x1, x2,…,xF} 是樣本空間的一個(gè)點(diǎn)，Uf(f=1,2,…,F)是第f 維的向量的值域，是每一個(gè)特征的模糊子集。采用三角形隸屬度函數(shù)來定義模糊集合如圖1所示。圖中，藍(lán)色線部分是弱隸屬度函數(shù)，紅色線部分是對(duì)應(yīng)的強(qiáng)隸屬度函數(shù)。其中，使用(a,b,c)定義一個(gè)三角隸屬度函數(shù)參數(shù)，(a,0)和(c,0)分別定義為三角形的左端點(diǎn)和右端點(diǎn)，(b,1)定義為三角形頂點(diǎn)。首先，通過定義強(qiáng)隸屬度函數(shù)然后，計(jì)算弱隸屬度函數(shù)參數(shù)。弱隸屬度函數(shù)參數(shù)計(jì)算規(guī)則如下：

圖1 2型模糊隸屬度函數(shù)

基于（2）、（3）、（4），可以得到：

因此，當(dāng)Tf=3 時(shí)，只需確定這3 個(gè)參數(shù)，即可確定整個(gè)2型模糊隸屬度函數(shù)。由于只需要確定，即可確定整個(gè)2型模糊隸屬度函數(shù)。

設(shè)規(guī)則庫(kù)有M 條規(guī)則，其中第m 條規(guī)則可描述為：

其中，Y 是分類器的輸出，Cjm是第m 條規(guī)則的輸出類別標(biāo)簽，jm,f是條件部分特征的模糊值，RWm用來描述規(guī)則對(duì)于當(dāng)前輸入模式的確信度。

圖2 分類器訓(xùn)練以及測(cè)試流程圖

2.3 SOM-T2 FLS算法流程

利用SOM 網(wǎng)絡(luò)的自組織特性，將樣本集分為兩個(gè)不同子集，子集之間的樣本具有一定空間差異性，利用這種差異性提升算法在不同行情背景下的預(yù)測(cè)精度。子集劃分完成，即對(duì)子集分別學(xué)習(xí)分類器，采用改進(jìn)的T2 FLS算法對(duì)子集內(nèi)樣本進(jìn)行分類。提出將規(guī)則庫(kù)長(zhǎng)度作為正則項(xiàng)加入到遺傳算法適應(yīng)度函數(shù)中，通過進(jìn)化算法得到泛化能力強(qiáng)，收益高，抗風(fēng)險(xiǎn)能力強(qiáng)的模型。圖2展示了本文算法工作的流程圖。從圖中可以看出，提出的SOM-T2 FLS算法將分類分成了兩步，首先利用SOM 網(wǎng)絡(luò)進(jìn)行模式判斷，再根據(jù)模式選擇對(duì)應(yīng)子分類器進(jìn)行細(xì)粒度分類。

2.3.1 歸一化

為了防止不同變量之間因數(shù)量級(jí)差異產(chǎn)生“信息淹沒”，本文使用線性歸一化的方法，將變量范圍線性歸一化到[0，1]，變換公式如下：

2.3.2 生成初始規(guī)則庫(kù)

在生成規(guī)則庫(kù)之前，進(jìn)行無監(jiān)督學(xué)習(xí)，分析SOM網(wǎng)絡(luò)聚類結(jié)果并將樣本分成兩個(gè)子集，在各子集下，分別建立規(guī)則庫(kù)。通過模糊C 均值（FCM）算法[17]將特征模糊化，C4.5算法用于提取規(guī)則庫(kù)。決策樹上的一個(gè)根節(jié)點(diǎn)到葉節(jié)點(diǎn)整條路徑為一條規(guī)則，這條路徑經(jīng)過的所有屬性及其屬性值是規(guī)則的條件部分（IF部分），葉節(jié)點(diǎn)上的輸出標(biāo)簽是規(guī)則的輸出（THEN 部分）。取覆蓋樣本量多的規(guī)則并設(shè)置規(guī)則庫(kù)上限。圖3 是由C4.5 算法生成的一棵決策樹，其中，輸入特征Xf,f=1,2,3,4，每個(gè)變量分為3個(gè)模糊子集，輸出是( C1, C2)。根據(jù)圖3的決策樹，可以提取到的規(guī)則庫(kù)如圖4所示，一共生成7條規(guī)則。

圖3 C4.5決策樹實(shí)例

圖4 規(guī)則庫(kù)實(shí)例

2.3.3 編碼

模型編碼一共分兩個(gè)部分，第一部分是參數(shù)編碼，即2 型模糊隸屬度函數(shù)的參數(shù)編碼，染色體記為CDB；第二部分是規(guī)則編碼，染色體記為CRB。根據(jù)第2.2節(jié)，模糊隸屬度函數(shù)參數(shù)的個(gè)數(shù)是由設(shè)置的模糊子集個(gè)數(shù)以及輸入樣本特征數(shù)決定，所以CDB采用實(shí)數(shù)編碼。CRB部分編碼規(guī)則如下，對(duì)于規(guī)則庫(kù)中的每一條規(guī)則由整數(shù)向量υm=[υm,1,…,υm,F,υm,F+1] 表示。其中，υm,f(f=1,2,…,F)是條件部分每一個(gè)特征的模糊子集，υm,f=0,1,2,3。υm,F+1=0,1 是輸出類別標(biāo)簽（本文討論二分類問題），則每條染色體的長(zhǎng)度為( F+1)×Mmax，其中Mmax是規(guī)則數(shù)。

2.3.4 遺傳操作

在子代迭代過程中，交叉和變異算子根據(jù)編碼方式的不同，對(duì)CRB和CDB部分分別采用不同的算子。對(duì)CRB部分，采用單點(diǎn)交叉算子，對(duì)CDB部分，采用BLX-α 交叉算子(α=0.7)，即兩個(gè)個(gè)體的線性組合產(chǎn)生兩個(gè)新的個(gè)體，則新個(gè)體計(jì)算如下：

適應(yīng)度函數(shù)計(jì)算如下：

其中，ACC 是模型的準(zhǔn)確率，ωi是各項(xiàng)指標(biāo)的權(quán)值，precision 是模型預(yù)測(cè)查準(zhǔn)率，查準(zhǔn)率是金融預(yù)測(cè)的重要指標(biāo)之一，代表預(yù)測(cè)為漲有多少實(shí)際也是漲，可以用交易的勝率來理解查準(zhǔn)率，是描述模型穩(wěn)健性的重要指標(biāo)；return_ratio 是模型在訓(xùn)練區(qū)間內(nèi)年化平均收益，獲得更高的年化收益是最終的目標(biāo)；rule_length 是規(guī)則庫(kù)總長(zhǎng)度，nr 是規(guī)則數(shù)，nf 是樣本特征數(shù)，因此第四項(xiàng)的的范圍是[0，1]，與前三項(xiàng)數(shù)量級(jí)保持一致。為了增強(qiáng)模型泛化能力，規(guī)則庫(kù)總長(zhǎng)度應(yīng)該盡量的小，使模型更加簡(jiǎn)單，所以此項(xiàng)為模型正則項(xiàng)用于控制模型復(fù)雜度。

3 實(shí)證結(jié)果及分析

本章使用中國(guó)A 股市場(chǎng)的歷史數(shù)據(jù)對(duì)SOM-T2 FLS算法進(jìn)行驗(yàn)證分析。首先介紹數(shù)據(jù)集、交易策略以及交易成本和滑點(diǎn)設(shè)置。作為對(duì)比實(shí)驗(yàn)，將SOM-T2 FLS 算法與DEFES、FNN、IT2 FLS、IT2-PAES-RCS 算法以及量化交易策略買入并持有策略（BH）、均線策略（MA）、經(jīng)典技術(shù)指標(biāo)策略（TA）[18-20]相比較，證明提出的SOM-T2 FLS有更好的預(yù)測(cè)效果和抗風(fēng)險(xiǎn)能力。

3.1 數(shù)據(jù)集

采用的歷史數(shù)據(jù)來源于2011年1月1日到2018年8月1 日之間中國(guó)A 股市場(chǎng)。SOM-T2 FLS 算法用于預(yù)測(cè)漲停股票能否繼續(xù)上漲，篩選出每個(gè)交易日（T）收盤價(jià)達(dá)到漲停的股票，在T+1交易日開盤十分鐘記錄當(dāng)前價(jià)格為買入價(jià)，再在T+2個(gè)交易日收盤時(shí)再記錄當(dāng)前價(jià)格為賣出價(jià)，計(jì)算收益率（若收益為正及標(biāo)注為“漲”，若收益為負(fù)則標(biāo)記為“跌”）。在這期間，A 股市場(chǎng)單日收盤漲停一共29 987 次，考慮到買單應(yīng)該能夠及時(shí)成交，去除掉T+1交易日開盤漲停（買不進(jìn)）的樣本，一共余下26 507個(gè)樣本。其中，取前70%（2011年11月1日—2017年2 月2 日）的樣本作為訓(xùn)練集，后30%（2017 年2 月12日—2018年8月1日）的數(shù)據(jù)作為測(cè)試集。此外，本文一共選取22 個(gè)與價(jià)格走勢(shì)相關(guān)的指標(biāo)作為樣本特征，如表1所示。

3.2 交易成本以及滑點(diǎn)

在實(shí)際交易中，必然要考慮交易成本，中國(guó)股票交易手續(xù)費(fèi)就是指投資者在委托買賣證券時(shí)應(yīng)支付的各種稅收和費(fèi)用的總和，由印花稅、傭金、過戶費(fèi)等組成。本文引入滑點(diǎn)的設(shè)置，該設(shè)置將在一定程度上使最后的成交價(jià)“惡化”，也就是買得更貴，賣得更便宜。本文使用成交額的0.3%作為每單交易的滑點(diǎn)損失。實(shí)證過程假設(shè)如下：

（1）每次掛單交易均可順利成交；

（2）初始投入資金100 萬元，每次買入資金不超過總資產(chǎn)的30%，每只個(gè)股的買入金額不超過10萬元；

（3）每個(gè)交易日對(duì)需要買入建倉(cāng)的股票的資金分配是均勻分配。

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 算法的準(zhǔn)確率和復(fù)雜度分析

表2 展示了經(jīng)拓?fù)浣Y(jié)構(gòu)為2×2 的SOM 網(wǎng)絡(luò)將樣本集分成兩個(gè)子集的統(tǒng)計(jì)信息。表中，兩個(gè)子集的樣本數(shù)量相差不大，集合1的正負(fù)樣本比例要略高于集合2，表明集合1 中正樣本占比更大，而集合1 的平均收益是集合2 的平均收益率的13 倍，表明SOM 網(wǎng)絡(luò)將原始樣本集劃分成兩個(gè)具有差異性的子集。由平均收益率和正負(fù)樣本比率可以看出，集合1中的樣本具有更高的平均收益率，有更高的概率為“漲”，反之，集合2中的樣本有更高的概率為“跌”。表3列出在相同的數(shù)據(jù)集下，SOMT2 FLS 預(yù)測(cè)算法與DEFES、FNN、IT2 FLS、IT2-PAESRCS 預(yù)測(cè)結(jié)果的比較，表3 中9 項(xiàng)指標(biāo)分別是訓(xùn)練集精度ACCTr、查準(zhǔn)率precisionTr、召回率recallTr和測(cè)試集精度ACCTs、查準(zhǔn)率precisionTs、召回率recallTs和算法的F1分?jǐn)?shù)以及模型訓(xùn)練時(shí)間TT（Training Time）和計(jì)算復(fù)雜度O(t)。由表中數(shù)據(jù)不難看出，提出的SOM-T2 FLS算法在測(cè)試集的精度和查準(zhǔn)率高于其他算法，分別為63.57%和68.99%，模型的召回率低于IT2-PAES-RCS算法，F(xiàn)1 分?jǐn)?shù)也為最高的0.649 7，體現(xiàn)出更好的分類性能。數(shù)據(jù)表明模型可以將勝率提高，卻降低了召回率。主要原因在于，求解模型時(shí)，并沒有僅僅考慮精度，而是將查準(zhǔn)率、模型收益、規(guī)則長(zhǎng)度都加入到適應(yīng)度函數(shù)的計(jì)算中，查準(zhǔn)率的在股市預(yù)測(cè)中的含義是預(yù)測(cè)的勝率，更高勝率意味著更小的風(fēng)險(xiǎn)。因此，在股市預(yù)測(cè)中SOM-T2 FLS 算法有更好的抗風(fēng)險(xiǎn)能力。而SOM-T2 FLS 算法的預(yù)測(cè)性能與適應(yīng)度函數(shù)中各指標(biāo)的權(quán)重分配相關(guān)，將在3.3.3小節(jié)中討論。從訓(xùn)練時(shí)間可以看出，提出的SOM-T2FLS 算法的訓(xùn)練時(shí)間達(dá)到了5.8 h，略好于IT2-PAES-RCS 算法，較其他算法沒有體現(xiàn)出訓(xùn)練時(shí)間上的優(yōu)勢(shì)。O(t)代表對(duì)單個(gè)樣本預(yù)測(cè)的計(jì)算復(fù)雜度，其中，R 指規(guī)則數(shù)，M 指模糊集合的個(gè)數(shù)，F(xiàn) 指樣本特征個(gè)數(shù)，從表中可以看出，本文提出的SOM-T2 FLS 算法的O(t)要略大于其他算法。值得一提的是，本文的交易策略以日線為單位進(jìn)行預(yù)測(cè)，對(duì)于算法的實(shí)時(shí)性要求不高，額外的計(jì)算開銷可以忽略不計(jì)。因此，從計(jì)算復(fù)雜度來分析，雖然SOM-T2 FLS模型的訓(xùn)練需要大量的時(shí)間和計(jì)算資源，但是不影響實(shí)際的應(yīng)用效率。

表1 數(shù)據(jù)集樣本的特征

表2 SOM聚類結(jié)果統(tǒng)計(jì)

3.3.2 績(jī)效指標(biāo)評(píng)價(jià)結(jié)果

從算法的收益能力和抗風(fēng)險(xiǎn)能力角度來分析，本文將SOM-T2 FLS 分類算法與DEFES、FNN、IT2 FLS、IT2-PAES-RCS算法以及量化交易策略BH（買入并持有策略）、MA（均線策略）、TA策略（經(jīng)典技術(shù)指標(biāo)策略）進(jìn)行比較，圖5展示了各個(gè)算法在測(cè)試區(qū)間內(nèi)的資金走勢(shì)圖。由圖5可以看出，基于SOM-T2 FLS算法的交易策略能獲得最大的累計(jì)收益。圖中BH曲線由滬深300指數(shù)計(jì)算，滬深300 指數(shù)是反映中國(guó)A 股市場(chǎng)全貌的指數(shù)?？梢钥闯?，在測(cè)試區(qū)間分別經(jīng)歷了牛市和熊市兩種行情。值得注意的是，基于SOM-T2 FLS算法的交易策略在牛市中可以跟蹤趨勢(shì)獲取超額收益，而在熊市中可以最大程度減小指數(shù)下行的風(fēng)險(xiǎn)。根據(jù)資金走勢(shì)可以分別計(jì)算出年化平均收益ANR（Annual revenue Rate）、交易次數(shù)Transaction、勝率Win、最大回撤MD（Max-Drawdown）、夏普比率（Shape Ratio）以及索提諾比率（Sortino Ratio）指標(biāo)見表4。不難看出，基于SOM-T2 FLS 算法的交易策略的ANR 最大，說明模型收益能力優(yōu)于其他模型。同時(shí)，從交易次數(shù)和勝率可以看出，基于SOM-T2 FLS 算法的交易策略具有更少的交易次數(shù)和更高的勝率，較其他策略具有更強(qiáng)的抵抗風(fēng)險(xiǎn)能力。最大回撤方面，基于SOM-T2 FLS 算法的交易策略可達(dá)到8.53%好于其他策略，體現(xiàn)出了更好的算法穩(wěn)健性和抗風(fēng)險(xiǎn)能力。在夏普比率和索提諾比率方面，基于SOM-T2 FLS 算法的交易策略分別達(dá)到2.217 4 和0.015 4。夏普比率說明在相同風(fēng)險(xiǎn)情況下，基于SOMT2 FLS算法的交易策略有更高的期望收益。索提諾比率表明在相同下行風(fēng)險(xiǎn)情況下，基于SOM-T2 FLS算法的交易策略有更高的回報(bào)率。綜上所述，基于SOMT2 FLS 算法的交易策略不僅有良好的收益能力，還具有更好的抗風(fēng)險(xiǎn)能力。

圖5 模型收益比較

表3 分類算法預(yù)測(cè)結(jié)果對(duì)比

表4 各交易策略收益情況對(duì)比

3.3.3 模型分析

上述實(shí)證結(jié)果表明，提出算法在學(xué)習(xí)過程中最重要的參數(shù)在于適應(yīng)度函數(shù)中各項(xiàng)式的權(quán)值比例關(guān)系，因?yàn)槠渲苯佑绊懽顑?yōu)模型的求解方向。圖6～9 展示了在權(quán)值分配為1∶1∶1∶1、1∶2∶1∶1、1∶1∶2∶1 和1∶1∶1∶2 時(shí)，各項(xiàng)指標(biāo)隨迭代過程的變化情況。理論上，當(dāng)某一項(xiàng)權(quán)重增大權(quán)重的時(shí)候，模型會(huì)在該項(xiàng)指標(biāo)上表現(xiàn)出一定的提高。從圖中可以看出，結(jié)果與理論情況一致。圖6是權(quán)值分配為1∶1∶1∶1時(shí)各個(gè)指標(biāo)隨迭代次數(shù)的變化情況，從迭代次數(shù)變化情況圖中可以看出，在第2 500 次迭代時(shí)，各項(xiàng)指標(biāo)收斂到最優(yōu)解。

圖7展示了權(quán)值比例為1∶2∶1∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系圖，從圖中可以看出，在2 500 次迭代時(shí)指標(biāo)收斂。增加precision的權(quán)重，訓(xùn)練集中precision值提高了3%，同時(shí)，ACC 和ANR 分別提高3%和1.12%，而規(guī)則長(zhǎng)度增加到了440。在測(cè)試集中，各項(xiàng)指標(biāo)均發(fā)生了反向的變化，首先，precision 降低了2%，與此同時(shí)，ACC和ANR都降低了2%。由此可以看出，算法在訓(xùn)練集上的性能表現(xiàn)更好，但是在測(cè)試集上的性能表現(xiàn)變差，所以只增加precision 的權(quán)重情況下，模型存在過擬合的風(fēng)險(xiǎn)。

圖8展示了權(quán)值比例為1∶1∶2∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系圖，從圖中可以看出，在2 500 次迭代時(shí)指標(biāo)收斂。增加ANR 的權(quán)重，在訓(xùn)練集中ANR 增加了4.5%，同時(shí)，ACC 和precision 分別降低了4%和1%，而規(guī)則長(zhǎng)度提高到432。在測(cè)試集中，ANR提高了1%，但是ACC和precision分別下降了3%和6%。由此可以看出，增加ANR 權(quán)重可以提高模型的收益能力，但是分類算法的性能發(fā)生了一定程度的下降，與此同時(shí)，規(guī)則長(zhǎng)度增加使模型更加復(fù)雜。在最優(yōu)模型選取時(shí)，不僅要考量模型的收益能力，也要考量模型防范風(fēng)險(xiǎn)能力。在增加ANR的情況，交易模型通過增大交易次數(shù)來增加收益，而模型的勝率卻減小了，造成交易風(fēng)險(xiǎn)更大。

圖6 權(quán)值比例為1∶1∶1∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系

圖7 權(quán)值比例為1∶2∶1∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系

圖8 權(quán)值比例為1∶1∶2∶1時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系

圖9 權(quán)值比例為1∶1∶1∶2時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系

圖9 展示了權(quán)值比例為1∶1∶1∶2時(shí)各指標(biāo)隨迭代次數(shù)關(guān)系圖，從圖中可以看出，在2 500 次迭代時(shí)指標(biāo)收斂。增加規(guī)則長(zhǎng)度權(quán)重，最優(yōu)解的規(guī)則長(zhǎng)度下降到350，模型復(fù)雜程度降低。但是，從圖中可以看出，訓(xùn)練集中ACC、precision 和ANR 三項(xiàng)指標(biāo)分別下降了4%、3%和0.1%，而在測(cè)試集中這三項(xiàng)指標(biāo)也分別下降了5%、6%和0.15%。由此可以看出，雖然模型復(fù)雜度降低，但是性能也出現(xiàn)了下降，即模型存在欠擬合的風(fēng)險(xiǎn)。

通過以上的分析，可以得出結(jié)論：如果只增加其中一項(xiàng)指標(biāo)的權(quán)重，算法將會(huì)出現(xiàn)過擬合或者欠擬合的風(fēng)險(xiǎn)，從而影響交易模型的勝率和抗風(fēng)險(xiǎn)能力。本文采用1∶1∶1∶1的等權(quán)值配比，相對(duì)其他模型表現(xiàn)出了更好的分類效果、收益能力以及抗風(fēng)險(xiǎn)能力。

4 結(jié)束語(yǔ)

本文提出了一種SOM-T2 FLS的股市預(yù)測(cè)算法，基于特定的交易策略建立樣本集，采用無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)相結(jié)合的方式建立預(yù)測(cè)模型。使用SOM網(wǎng)絡(luò)將樣本集分成了兩個(gè)子集，子集中樣本的統(tǒng)計(jì)特性呈現(xiàn)明顯差異，證明了無監(jiān)督學(xué)習(xí)的方法對(duì)樣本進(jìn)行了有效劃分。采用T2 FLS 方法對(duì)子集分別進(jìn)行有監(jiān)督學(xué)習(xí)，其中，利用C4.5算法生成決策樹并提取規(guī)則庫(kù)，并利用遺傳算法對(duì)規(guī)則庫(kù)和模糊隸屬度函數(shù)的參數(shù)進(jìn)行了優(yōu)化，在適應(yīng)度函數(shù)中加入正則項(xiàng)提高了模型的泛化性能。通過歷史數(shù)據(jù)驗(yàn)證了本文提出的SOM-T2 FLS 預(yù)測(cè)模型在牛市行情下能跟隨趨勢(shì)獲得超額收益，而在熊市行情下能最大程度地減小損失，展現(xiàn)出了更好的抗風(fēng)險(xiǎn)能力。此外，在本文仿真實(shí)驗(yàn)過程中，遺傳算法的迭代耗費(fèi)了大量的時(shí)間和計(jì)算資源，有效降低訓(xùn)練時(shí)間將是未來研究的重點(diǎn)。