謝心蕊,雷秀仁,趙 巖
1.華南理工大學(xué) 數(shù)學(xué)學(xué)院 信息與計(jì)算科學(xué)系,廣州 510640
2.華南理工大學(xué) 數(shù)學(xué)學(xué)院 統(tǒng)計(jì)與金融數(shù)學(xué)系,廣州 510640
隨著信息時(shí)代的到來(lái),數(shù)據(jù)的獲取更加便捷,不論是在維度上或樣本數(shù)目上都呈現(xiàn)爆炸性的增長(zhǎng)。由于高維樣本數(shù)據(jù)可能帶有噪聲信息、冗余信息、不相關(guān)信息等特點(diǎn),容易造成后續(xù)的學(xué)習(xí)算法速度慢、效果差,計(jì)算復(fù)雜度高等問(wèn)題[1]。恰當(dāng)?shù)乩媒稻S算法能夠消除噪聲,以及不相關(guān)和冗余的特征,從而提升學(xué)習(xí)模型的泛化能力。降維算法主要包括兩大類:特征選擇和特征提取。特征選擇通常是從原始特征集X={x1,x2,…,xn} 挑選出一個(gè)真子集X′={x1,x2,…,xm} ,滿足m <n,其中n是原始特征集的大小,而m是選擇以后特征集的大小[2]。此類特征選擇方法常用的如互信息(Mutual Information,MI)[3-5]、灰色關(guān)聯(lián)分析(Grey Relational Analysis,GRA)[6]、隨機(jī)森林(Random Forest,RF)[7]、遺傳算法(Genetic Algorithm,GA)[8]等。而特征提取通常適用于原特征集無(wú)法生成一個(gè)對(duì)數(shù)據(jù)內(nèi)容進(jìn)行最優(yōu)描述的特征空間的情況,所以特征提取通過(guò)變換原特征空間,生成一個(gè)維數(shù)更低、各維之間關(guān)聯(lián)度更低的新特征空間,這類特征提取算法常用的如主成分分析(Principal Component Analysis,PCA)[9-10]、獨(dú)立成分分析(Independent Component Analysis,ICA)[11]、線性判別分析(Linear Discriminant Analysis,LDA)[12-13]等線性方法。
主成分分析方法是目前應(yīng)用較廣的特征提取方法,意在于消除特征之間的多重共線性,通過(guò)將原特征集所在的特征空間變換到新的主成分空間,新的特征即為每一個(gè)主成分。在計(jì)算完原數(shù)據(jù)集的協(xié)方差陣、相關(guān)系數(shù)陣或互信息陣的特征值后,通常會(huì)用累積方差貢獻(xiàn)率大于某一個(gè)閾值(通常為85%[14])的方法來(lái)確定需保留的主成分個(gè)數(shù),這種方法簡(jiǎn)單且容易操作,能夠保留大多數(shù)原始信息,但卻不能較好地從相關(guān)性方面揭示主成分空間的信息存量,主觀性較大?;バ畔?lái)源于信息論中熵的概念,可以用來(lái)衡量?jī)蓚€(gè)隨機(jī)變量的相互依賴度,它對(duì)樣本的分布類型要求較低,對(duì)特征之間的非線性關(guān)系能夠有效地捕捉,非常適用于有監(jiān)督的多元數(shù)據(jù)特征選擇問(wèn)題。
針對(duì)有監(jiān)督任務(wù)的特征選擇任務(wù),同時(shí)考慮特征與標(biāo)簽相關(guān)度和特征之間冗余度的問(wèn)題,以及PCA 單純用累積方差貢獻(xiàn)率確定主元數(shù)主觀性較大的問(wèn)題,提出一種基于互信息和改進(jìn)PCA的雙重降維算法。首先利用互信息方法過(guò)濾掉一部分與標(biāo)簽關(guān)聯(lián)度過(guò)低的特征,再利用累積方差貢獻(xiàn)率與復(fù)相關(guān)系數(shù)共同確定主元個(gè)數(shù)的PCA 方法對(duì)剩余的特征進(jìn)行提取,這樣不僅保證了特征相關(guān)度、消除了特征冗余度,還提高了主元模型的精度。通過(guò)股票數(shù)據(jù)的實(shí)例分析,驗(yàn)證了此方法的有效性。
互信息通常用于度量?jī)蓚€(gè)隨機(jī)變量的關(guān)聯(lián)程度,不同于相關(guān)系數(shù)僅能對(duì)兩個(gè)隨機(jī)變量的線性相關(guān)性進(jìn)行捕捉,互信息可以捕捉兩個(gè)變量之間的任何統(tǒng)計(jì)依賴性,互信息值越大,則兩者共享的信息就越多,關(guān)聯(lián)程度就越高。當(dāng)進(jìn)行特征選擇時(shí),分別計(jì)算各個(gè)特征與標(biāo)簽之間的互信息值,選出互信息值大于事先設(shè)定的某一閾值的自變量,即可初步篩選出對(duì)因變量提供信息量較多的特征子集。
兩個(gè)離散型隨機(jī)變量X和Y的互信息定義為:
其中,p(ξ,η)是Y和X的聯(lián)合概率分布函數(shù),p(ξ)和p(η)分別是X和Y的邊緣概率分布函數(shù),式(1)適用于學(xué)習(xí)器為分類模型的情形。當(dāng)學(xué)習(xí)器為回歸模型時(shí),即在X和Y為連續(xù)型隨機(jī)變量時(shí),只需將求和號(hào)替換成積分號(hào)即可:
2.2.1 PCA原理
主成分分析是一種經(jīng)典的線性降維算法,具有消除特征之間存在信息冗余問(wèn)題的強(qiáng)大功能,能為后續(xù)學(xué)習(xí)器的學(xué)習(xí)效果奠定良好的數(shù)據(jù)基礎(chǔ)。假定原始數(shù)據(jù)集共包含n個(gè)樣本和m個(gè)特征,記為X=(x1,x2,…,xn)T。PCA 旨在找到一組標(biāo)準(zhǔn)正交的基向量pi(i=1,2,…,k),當(dāng)X通過(guò)這組正交基投影為新數(shù)據(jù)集T后,T的特征之間兩兩不相關(guān),并且提取的這前k個(gè)主元應(yīng)包含原始數(shù)據(jù)集X的絕大部分信息,用式子表示如下[15]:
其中,pi(i=1,2,…,k)即是協(xié)方差矩陣的特征值對(duì)應(yīng)的特征向量,且滿足λ1>λ2>…>λk,ti(i=1,2,…,k)∈Rn為變換后的新特征,稱為主成分或主元。主元個(gè)數(shù)k的選取至關(guān)重要,若k值選取過(guò)大,可能會(huì)包含太多噪聲信息進(jìn)來(lái),但k值若選取過(guò)小,又會(huì)容易丟失重要的信息,這兩種情況都會(huì)使得最終的預(yù)測(cè)誤差增大。一種常用的確定主元個(gè)數(shù)的方法有累積方差貢獻(xiàn)率(Cumulative Percent Variance,CPV)準(zhǔn)則:
式(4)為t1,t2,…,tk這k個(gè)主成分的累積貢獻(xiàn)率,CPV值的大小表明t1,t2,…,tk綜合m個(gè)原始變量的能力,反應(yīng)了主元模型的精度,此準(zhǔn)則通常取CPV≥85%時(shí)的k值作為主元個(gè)數(shù),從而保證主元模型的精度能達(dá)到進(jìn)行PCA分析的標(biāo)準(zhǔn)。
2.2.2 PCA主元選取方法的改進(jìn)(Improve Principal Component Analysis,IPCA)
單一的CPV 方法確定主元個(gè)數(shù)具有較大的主觀性,且不能較好地反映選取的部分主元與原始特征的相關(guān)程度,復(fù)相關(guān)系數(shù)(Multi-Correlation Coefficient,MCC)是反映單個(gè)變量s與多個(gè)變量t1,t2,…,tk相關(guān)程度的指標(biāo),具體過(guò)程為[16]:
(1)用s對(duì)t1,t2,…,tk做線性回歸,得到:
(2)計(jì)算簡(jiǎn)單相關(guān)系數(shù):
式(5)則為s與t1,t2,…,tk間的復(fù)相關(guān)系數(shù)。
設(shè)T=[t1,t2,…,tk]T為主成分得分矩陣,原始數(shù)據(jù)集X∈Rn×m中每個(gè)特征表示為sj∈Rn(j=1,2,…,m)。MCC反映了主元與原始變量的相關(guān)程度,隨著主元個(gè)數(shù)k的增加,原變量與k個(gè)主元的復(fù)相關(guān)系數(shù)也在逐步遞增至1,取MCC值大于0.85保證這一強(qiáng)相關(guān)性進(jìn)而確定此時(shí)的主元個(gè)數(shù)。復(fù)相關(guān)系數(shù)能較好地從相關(guān)性方面揭示主元空間中的信息存量,而取CPV大于85%是基于方差貢獻(xiàn)方面來(lái)保證足夠的主元信息,兩者相輔相成,均需滿足。綜合兩種主元選取方法對(duì)單一使用累積貢獻(xiàn)率的PCA方法進(jìn)行改進(jìn),則改進(jìn)的PCA算法步驟如下:
步驟1將原始數(shù)據(jù)陣X進(jìn)行中心化和標(biāo)準(zhǔn)化處理,計(jì)算協(xié)方差矩陣的特征值,并從小到大排列。
步驟2計(jì)算累積方差貢獻(xiàn)率,并選出累積方差貢獻(xiàn)率恰好大于85%時(shí)的特征值個(gè)數(shù)作為主元個(gè)數(shù),用k1表示。
步驟3分別計(jì)算當(dāng)主元個(gè)數(shù)為k1 至m時(shí),每個(gè)原始特征與成分得分矩陣的復(fù)相關(guān)系數(shù),以及平均復(fù)相關(guān)系數(shù),最終得到m-k1 維數(shù)組mcc。
步驟4逐個(gè)驗(yàn)證數(shù)組mcc從第1 至第m-k1 個(gè)數(shù)的大小,記恰好大于0.85時(shí)的相關(guān)系數(shù)的索引為k2。
步驟5記最終的主元數(shù)k=k1+k2,既保證了85%以上的累積方差貢獻(xiàn)率,也保證了原始數(shù)據(jù)與主元陣相關(guān)系數(shù)為0.85以上的強(qiáng)相關(guān)性。
由上述介紹可知,互信息可以幫助人們選擇出與標(biāo)簽關(guān)聯(lián)程度較高的特征,而主成分分析方法可以幫助人們消除特征之間的多重共線性,其中改進(jìn)后的PCA 方法更能準(zhǔn)確、多方位地保證主元模型的精度,于是本文提出MI與改進(jìn)的PCA相融合的雙重特征選擇算法,此算法會(huì)事先設(shè)定互信息的閾值δ,先做初步的篩選,將那些與標(biāo)簽關(guān)聯(lián)程度低的特征先舍去,再利用PCA 進(jìn)行二次降維,消除特征之間的多重共線性。后續(xù)將還會(huì)利用神經(jīng)網(wǎng)絡(luò)對(duì)股票實(shí)例進(jìn)行預(yù)測(cè)。
雙重特征選擇算法流程圖如圖1所示。
BP 網(wǎng) 絡(luò) 是 1986 年 由 Rumelhart 和 McCelland 為 首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一[17]。BP 網(wǎng)絡(luò)將真實(shí)值與網(wǎng)絡(luò)輸出值的誤差逆向傳播,通過(guò)梯度下降算法來(lái)調(diào)整各連接權(quán)值從而確定最終模型,三層的BP網(wǎng)絡(luò)結(jié)構(gòu)如圖2。
圖2 三層BP網(wǎng)絡(luò)結(jié)構(gòu)
算法大致步驟如下:
步驟1網(wǎng)絡(luò)初始化,分別賦予各連接權(quán)一個(gè)(-1,1)區(qū)間的隨機(jī)數(shù),給定誤差函數(shù)e、最大學(xué)習(xí)次數(shù)M,和精度值ε,給定n個(gè)學(xué)習(xí)樣本。
步驟2隨機(jī)選取第k個(gè)樣本輸入及相應(yīng)的期望輸出:分別為輸入和輸出層神經(jīng)元個(gè)數(shù)。
2.4 播種前1~2天用食用豆油與玉米種子,按1∶100 比例拌種,即:1 兩豆油拌10斤種子。具有增溫、保溫、補(bǔ)充有機(jī)營(yíng)養(yǎng)的功效,可有效的抵御春季土壤溫度變幅大,對(duì)玉米扎根出苗造成不良影響,利于苗齊苗壯、葉色油綠。
步驟3計(jì)算隱藏層和輸出層各神經(jīng)元的輸入和輸出,記輸出層實(shí)際輸出為。
步驟4利用網(wǎng)絡(luò)的實(shí)際輸出Ok和期望輸出Yk,計(jì)算誤差函數(shù)e對(duì)輸出層各神經(jīng)元的偏導(dǎo)數(shù)。
步驟5利用輸出層的、隱藏層的輸出及隱藏層到輸出層的連接權(quán)計(jì)算誤差函數(shù)對(duì)隱藏層各神經(jīng)元的偏導(dǎo)數(shù)。
步驟6利用輸出層的和隱藏層各神經(jīng)元的輸出來(lái)調(diào)整權(quán)值。
步驟7利用隱藏層和輸入層各神經(jīng)元的輸入來(lái)調(diào)整權(quán)值。
步驟9判斷網(wǎng)絡(luò)誤差是否達(dá)到預(yù)先設(shè)定的最大學(xué)習(xí)次數(shù)M或精度ε,若達(dá)到則結(jié)束算法。否則,繼續(xù)隨機(jī)選取下一個(gè)學(xué)習(xí)樣本和對(duì)應(yīng)期望輸出,返回步驟3,進(jìn)入下一輪學(xué)習(xí)。
本文選取一支指數(shù)以及分別屬于金融、電子信息兩個(gè)不同行業(yè)的股票數(shù)據(jù)進(jìn)行測(cè)試。其中指數(shù)數(shù)據(jù)為sz399001(深證成指)1999年6月4日至2019年6月5日的日線數(shù)據(jù),樣本數(shù)目共計(jì)4 848 條,股票數(shù)據(jù)一支為sh600601(方正科技)1999年8月3日至2019年6月5日的日線數(shù)據(jù),樣本數(shù)目共計(jì)4 742條,另一支為SZ000001(平安銀行)1999 年 7 月 20 日至 2019 年 5 月9 日的日線數(shù)據(jù),樣本數(shù)目共計(jì)4 635條。
選取次日收盤價(jià)作為因變量,所選指數(shù)因變量不僅包含當(dāng)日開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、成交額、成交量、次日開盤價(jià)共7 個(gè)行情指標(biāo),還包括情緒指標(biāo)中威廉變異離散量WVAD、意愿指標(biāo)BR、6 日均幅指標(biāo)ATR6、12 日量變動(dòng)速率指標(biāo) VROC12、成交量的 10 日指數(shù)移動(dòng)平均VEMA10,以及隨機(jī)抽取的alpha101因子中的alpha_003、alpha_015、alpha_022、alpha_033、alpha_054,共計(jì)17個(gè)指標(biāo)。兩支股票所選自變量不僅包括上述7個(gè)行情指標(biāo),還包含市值、換手率、市凈率PB、市現(xiàn)率PC、市盈率PE、市銷率PS共6個(gè)市值指標(biāo),還包括21日移動(dòng)平均MA21、平滑移動(dòng)平均MACD、20 日收盤價(jià)標(biāo)準(zhǔn)差20SD、指數(shù)移動(dòng)平均EMA共4個(gè)技術(shù)指標(biāo),共計(jì)17個(gè)指標(biāo);較大范圍地考慮了影響股價(jià)或指數(shù)變動(dòng)的因素。本文采用均方誤差(MSE)作為后續(xù)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)器的評(píng)價(jià)指標(biāo),MSE的計(jì)算公式如下:
其中,yi和分別為真實(shí)值與網(wǎng)絡(luò)輸出值,n為樣本個(gè)數(shù)。
實(shí)驗(yàn)共分為三大部分,一是數(shù)據(jù)歸一化,二是特征選擇,三是神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)。首先數(shù)據(jù)按照式(7)進(jìn)行歸一化操作,轉(zhuǎn)換到[0,1]的范圍:
4.2.1 利用互信息和改進(jìn)PCA進(jìn)行降維
利用互信息選擇變量的方法進(jìn)行第一次特征篩選,計(jì)算出兩支股票以及一支指數(shù)17個(gè)變量分別與標(biāo)簽之間的互信息值如圖3所示。
圖3 變量與標(biāo)簽的互信息值
互信息值的大小范圍為[0,1]之間,這里將其劃分為三個(gè)程度認(rèn)為是弱相關(guān),認(rèn)為是中等相關(guān)認(rèn)為是強(qiáng)相關(guān)。由圖1 可以看出只有極少數(shù)幾個(gè)特征的互信息值處于弱相關(guān)水平,此處設(shè)定閾值δ大小為,將少數(shù)幾個(gè)互信息值低于的特征過(guò)濾掉,認(rèn)為是對(duì)標(biāo)簽信息量貢獻(xiàn)較低的特征。最終過(guò)濾后兩支股票得到剩余13 個(gè)變量,以及一支指數(shù)得到剩余10個(gè)變量。
然后利用改進(jìn)的PCA方法對(duì)上述股票剩余的13個(gè)變量以及指數(shù)剩余的10個(gè)變量進(jìn)行二次降維。當(dāng)利用累積貢獻(xiàn)率和復(fù)相關(guān)系數(shù)法方法確定主元數(shù)時(shí),CPV值與平均復(fù)相關(guān)系數(shù)值在前6個(gè)主成分的變化如表1和圖4所示。
表1 主元數(shù)為1~6時(shí)的CPV值及平均復(fù)相關(guān)系數(shù)
圖4 主元數(shù)為1~6時(shí)的CPV值及平均復(fù)相關(guān)系數(shù)
由表1 可以看出,當(dāng)主元個(gè)數(shù)為2 時(shí),平安銀行的CPV 指標(biāo)的值為0.849 7,大約已達(dá)到85%,方正科技的CPV指標(biāo)為0.929 2,已超85%,基本滿足了進(jìn)行PCA分析的要求。此時(shí)平安銀行的平均復(fù)相關(guān)系數(shù)僅僅達(dá)到了0.827 3,還未滿足事先設(shè)定大小為0.85 的閾值,若僅此決定取2個(gè)主元,可能會(huì)丟失部分重要的原始信息,而此時(shí)方正科技的平均復(fù)相關(guān)系數(shù)為0.898 3,已超過(guò)0.85。
當(dāng)主元個(gè)數(shù)為3時(shí),平安銀行和方正科技的CPV值已經(jīng)分別達(dá)到0.922 3 和0.958 8,平均復(fù)相關(guān)系數(shù)的值也分別達(dá)到0.873 6 和0.943 0,均超過(guò)0.85。此時(shí)無(wú)論從方差貢獻(xiàn)或者是相關(guān)性方面去衡量主元陣,主元陣都已包含了原始數(shù)據(jù)的絕大部分信息。但相比于2 個(gè)主元的情況,方正科技盡管有更高的CPV 值和平均復(fù)相關(guān)系數(shù),卻已增長(zhǎng)較少。
當(dāng)主元個(gè)數(shù)為4時(shí),平安銀行CPV的值為0.947 8,盡管此時(shí)CPV和平均復(fù)相關(guān)系數(shù)擁有更高的值,但是相對(duì)于3個(gè)主元的情況,CPV的值僅增加了0.025 5,變化極少。
同時(shí)結(jié)合圖4分析,當(dāng)主元個(gè)數(shù)為1~3時(shí),平安銀行的CPV 指標(biāo)與平均復(fù)相關(guān)系數(shù)的值增長(zhǎng)得較快,而主元數(shù)超過(guò)3 時(shí),變化就趨于平緩,所以認(rèn)為平安銀行的最優(yōu)主元數(shù)為3。而方正科技在主元數(shù)為1~2時(shí)增長(zhǎng)較快,且CPV 與平均復(fù)相關(guān)系數(shù)在主元數(shù)為2 時(shí)都超過(guò)0.85,而之后CPV 值的變化極少,所以認(rèn)為方正科技的最優(yōu)主元數(shù)為2。
深證成指在主元數(shù)為1 時(shí),CPV 的值就已經(jīng)高達(dá)86%,而此時(shí)平均復(fù)相關(guān)系數(shù)的值僅為0.704 7,還未達(dá)到0.85,當(dāng)主元個(gè)數(shù)為2時(shí)平均復(fù)相關(guān)系數(shù)才超過(guò)0.85,此時(shí)CPV 的值已經(jīng)達(dá)到了0.97,之后增長(zhǎng)迅速減緩,所以最終確定最優(yōu)主元個(gè)數(shù)為2。
4.2.2 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)
考慮到股票數(shù)據(jù)集的實(shí)際意義,總是用歷史數(shù)據(jù)去預(yù)測(cè)未來(lái)數(shù)據(jù),所以將上述歸一化及降維后的數(shù)據(jù)按時(shí)間序列排列后,取前80%作為訓(xùn)練集,共計(jì)3 708 條數(shù)據(jù),剩余后的20%作為測(cè)試集,共計(jì)927條數(shù)據(jù),構(gòu)建三層的神經(jīng)網(wǎng)絡(luò),隱藏層節(jié)點(diǎn)按經(jīng)驗(yàn)公式(8)設(shè)定:
h為隱層節(jié)點(diǎn)個(gè)數(shù),n為輸入層節(jié)點(diǎn)個(gè)數(shù),m為輸出層節(jié)點(diǎn)個(gè)數(shù),a為0~10之間的調(diào)節(jié)常數(shù)。
設(shè)置最大迭代次數(shù)為5 000次,最終預(yù)測(cè)結(jié)果如表2和圖5、6所示。
圖5 主元數(shù)為1~6時(shí)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)均方誤差
如表2和圖5所示,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)后,深證成指和方正科技的MSE在主元數(shù)為2時(shí)達(dá)到了最小,而平安銀行的均方誤差MSE 在主元數(shù)為3 時(shí)達(dá)到了最小。雖然平安銀行在主元數(shù)為4~6 時(shí)MSE 仍然處于較低值,但卻不是使數(shù)據(jù)達(dá)到最精簡(jiǎn)的主元數(shù),而方正科技和深證成指在MSE達(dá)到最低值后又有緩緩上升的趨勢(shì),再一次驗(yàn)證了利用CPV和mcc共同確定主元數(shù)的客觀性和合理性。
由圖6 可看出,當(dāng)按上述方法取最佳主元個(gè)數(shù)時(shí),預(yù)測(cè)值曲線與真實(shí)值曲線大致擬合,此時(shí)深證成指、方正科技、平安銀行的MSE 的值分別為0.000 383 9、0.000 178 7、0.000 224 9。為了說(shuō)明互信息篩選的有效性,圖7為不利用互信息進(jìn)行第一重特征篩選,而直接利用改進(jìn)后的PCA降維的BP預(yù)測(cè)結(jié)果,此時(shí)平安銀行的MSE值為0.000 475 5,明顯高于前者M(jìn)SE的值0.000 224 9,而方正科技和深證成指的MSE 分別為0.000 190 6、0.000 426 5,也都略高于前者M(jìn)SE 的值0.000 178 7、0.000 383 9,說(shuō)明先利用互信息挑選再進(jìn)行PCA 降維,可以使預(yù)測(cè)結(jié)果更加準(zhǔn)確。
表2 主元數(shù)為1~6時(shí)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)均方誤差(MSE)
圖6 主元數(shù)最佳時(shí)的MI-PCA和BP預(yù)測(cè)結(jié)果
圖7 僅用IPCA和BP的預(yù)測(cè)結(jié)果
利用互信息和改進(jìn)的PCA相結(jié)合共同提取特征的降維算法,不僅保證了在初步篩選時(shí)將不相關(guān)的特征舍去,僅留下與因變量關(guān)聯(lián)程度較高的特征,還利用了CPV和MCC共同確定主元數(shù)的方法對(duì)PCA進(jìn)行改進(jìn),從方差貢獻(xiàn)及相關(guān)性兩方面進(jìn)行考慮,保證主元陣重要信息容量的同時(shí)也避免了多余噪聲的加入,與后續(xù)預(yù)測(cè)過(guò)程緊密結(jié)合。通過(guò)上述神經(jīng)網(wǎng)絡(luò)對(duì)個(gè)股的預(yù)測(cè)結(jié)果可以說(shuō)明,此雙重降維算法具有一定的有效性和可實(shí)踐性。