亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向組合投資預測的大數(shù)據(jù)生成算法

        2021-02-25 09:12:12趙會群
        計算機工程與設計 2021年2期
        關鍵詞:歷史數(shù)據(jù)貝葉斯節(jié)點

        趙會群,曲 藝

        (北方工業(yè)大學 信息學院,北京 100144)

        0 引 言

        為了解決組合投資預測問題,我們不僅需要各個投資項信息數(shù)據(jù),還需要宏觀經(jīng)濟因素、微觀經(jīng)濟因素、行業(yè)因素等大量數(shù)據(jù)。然而真實、大量、多樣的金融數(shù)據(jù)由于保密性、時間等一些問題的限制不易獲取,因此需要一種可以基于真實數(shù)據(jù)集建模并保持真實數(shù)據(jù)集特征的大數(shù)據(jù)生成方法。

        真實的金融數(shù)據(jù)一般以時間序列的形式表現(xiàn)?,F(xiàn)關于時間序列數(shù)據(jù)模擬和生成的方法主要有:回歸移動平均模型(autogressive integrated moving average,ARIMA)[1]、自回歸條件異方差模型(autoregressive conditional hete-roscedasticity model,ARCH)[2]、支持向量回歸模型(support vector regression,SVR)[3]、長短期記憶網(wǎng)絡模型(long short term memory,LSTM)[4]等。由于本文所需模擬生成的數(shù)據(jù)表現(xiàn)出較明顯的季度或月度的周期性變化,所以將采用季節(jié)性差分自回歸移動模型(seasonal autogressive integrated moving average,SARIMA)來對各項時間序列數(shù)據(jù)進行自動模擬生成,為原有歷史數(shù)據(jù)集補充部分未來數(shù)據(jù),用于后續(xù)組合投資數(shù)據(jù)生成模型的更新。

        為了解決組合投資預測的數(shù)據(jù)生成問題,需要先將其轉化為影響因素和投資項的組合優(yōu)化問題,通過模型分析各數(shù)據(jù)項之間的關系,最終生成大規(guī)模數(shù)據(jù)集。近年來,已有學者使用遺傳算法[5]、粒子群算法[6]、蟻群算法[7]等解決組合優(yōu)化問題的經(jīng)典算法,來實現(xiàn)測試數(shù)據(jù)的自動生成。此外,由于貝葉斯網(wǎng)絡模型[8]可清晰揭示節(jié)點變量間的關系及概率分布,該模型同樣已應用于數(shù)據(jù)生成領域。但隨著時間的變化和金融數(shù)據(jù)的增加,將更新的信息應用到投資組合預測之中是十分必要的。本文提出一種基于增量式貝葉斯網(wǎng)絡的投資組合數(shù)據(jù)生成方法,可以實現(xiàn)基于動態(tài)更新的數(shù)據(jù)集,生成具有大數(shù)據(jù)4V(variety, volume, velocity, value)特性的[9]、保持一定準確度的數(shù)據(jù)集。

        1 相關工作

        迄今為止,已經(jīng)有一些應用于大數(shù)據(jù)領域的數(shù)據(jù)生成器和數(shù)據(jù)生成算法的研究。金澈清等[10]在介紹數(shù)據(jù)管理系統(tǒng)評測基準的發(fā)展同時,也詳細介紹了數(shù)據(jù)驅動的數(shù)據(jù)生成方式和查詢驅動的生成方式在各數(shù)據(jù)庫系統(tǒng)基準中的實現(xiàn)。詹劍鋒等[11]詳細介紹了其研制的BigDataBench,即一種開源的大數(shù)據(jù)系統(tǒng)評測基準。并提供了一種通過真實數(shù)據(jù)的建模分析,快速生成保持真實數(shù)據(jù)特征的指定規(guī)模數(shù)據(jù)集的大數(shù)據(jù)生成工具(BDGS)。目前該工具可生成文本、表和圖這3種類型的數(shù)據(jù)。

        本文中所用到的各項金融數(shù)據(jù)本質上是一種時間序列數(shù)據(jù)。所以,當涉及到對數(shù)據(jù)集進行生成擴展時,可以通過訓練時間序列模型來生成數(shù)據(jù)。目前已有時間序列模型和時間序列分析方法,通過序列的歷史統(tǒng)計數(shù)據(jù)揭示現(xiàn)象隨時間變化的規(guī)律,并按照需要將該規(guī)律延伸到未來。孫亞圣等[12]提出基于注意力機制的行人軌跡預測生成模型(AttenGAN),生成器使用LSTM算法根據(jù)行人過去的軌跡對未來的可能性進行預測,判別器用來判斷一個軌跡是否真實,進而促進生成器生成符合社會規(guī)范的預測軌跡。敖建松等[13]針對數(shù)據(jù)的時序性,利用ARIMA模型對未來時刻數(shù)據(jù)進行預測生成,計算出各個狀態(tài)數(shù)據(jù)偏離正常狀態(tài)空間的程度,再使用滑動窗口對過去和未來的數(shù)據(jù)進行融合計算,實現(xiàn)工控系統(tǒng)網(wǎng)絡的態(tài)勢感知。Vasantha Kumar S等[14]通過SARIMA模型利用有限的歷史數(shù)據(jù),分析出長期趨勢和季節(jié)性模式,并利用該模型對交通流量數(shù)據(jù)進行短期的準確預測,且發(fā)現(xiàn)SARIMA模型性能優(yōu)于簡單ARIMA模型。

        用時間序列模型生成數(shù)據(jù),擴展數(shù)據(jù)集,只保證了生成數(shù)據(jù)的時序性,但本文主要解決如何生成組合投資數(shù)據(jù)的問題,還需要生成的數(shù)據(jù)保持數(shù)據(jù)相關性等真實特征。本文將組合投資數(shù)據(jù)的生成模型構建轉化成組合優(yōu)化問題,并根據(jù)模型生成大數(shù)據(jù)集。以下是目前外關于該類問題的部分研究成果:曾夢凡等[7]采用一種解決組合優(yōu)化問題的搜索算法——蟻群算法,應用于求解覆蓋表的生成問題。為了挖掘蟻群算法生成覆蓋表的潛力,文章對參數(shù)配置、演化策略等進行調整,并引入并行計算來節(jié)省時間開支。馬驪等[15]先利用支持向量機對匯率進行短期的預測,然后提出基于Pareto排序理論的雙目標非支配排序人工魚群算法(nondominated sorting artificial fish swarm algorithm,NSAFSA)來求解生成外匯投資組合方案。

        上述生成模型,可以生成各項變量的組合方案,但未能清晰體現(xiàn)各變量之間的相關關系。而本文通過增量式貝葉斯網(wǎng)絡模型體現(xiàn)各項變量之間潛在的關系,并且可以隨著新生成的數(shù)據(jù)集的加入,對原有的歷史網(wǎng)絡進行更新。以不同時間段的網(wǎng)絡中各變量之間的關系及概率為基礎,按照需求對網(wǎng)絡進行路徑搜索,并生成所需數(shù)據(jù)。目前已有研究將增量式貝葉斯網(wǎng)絡模型應用于海量數(shù)據(jù)流的分析處理[16]和金融數(shù)據(jù)的預測等領域,但尚未被應用于組合投資數(shù)據(jù)內在關系的挖掘、生成用于組合投資預測的大數(shù)據(jù)集方向。

        2 算法研究

        2.1 時間序列生成算法

        時間序列數(shù)據(jù)作為數(shù)據(jù)的表現(xiàn)形式之一,真實地記錄了不同時間點(或時間片)的各種重要信息,其中蘊含著豐富而有價值的知識。本文使用SARIMA對多列金融時間序列數(shù)據(jù)進行生成。SARIMA模型來源于差分自回歸移動平均模型(ARIMA)。ARIMA(p,d,q)模型中,p為自回歸項數(shù),q為移動平均項數(shù),d為時間序列成為平穩(wěn)序列所做的差分次數(shù)。若時間序列{Yt}是一個非平穩(wěn)序列,ARIMA模型可表示為

        Φ(B)ΔdYt=c+Θ(B)εt

        (1)

        SARIMA(p,d,q)(P,D,Q)s模型主要用于分析由于周期性(包括周度、月度、季度、年度等)變化或因其它因素引起的具有周期性變化的時間序列,對ARIMA模型進行基于周期的季節(jié)差分。設季節(jié)性序列的變化周期為s,季節(jié)差分算子定義為

        Δs=1-Bs

        (2)

        Bs為s步滯后算子。若季節(jié)性時間序列用{Yt}表示,則一次季節(jié)差分表示為

        Δs·yt=(1-Bs)yt=yt-yt-s

        (3)

        若{Yt}為非平穩(wěn)季節(jié)性時間序列,則需進行D次季節(jié)差分,并建立關于周期為s的P階自回歸Q階移動平均季節(jié)時間序列模型

        (4)

        現(xiàn)有的SARIMA模型建立方法中通常先對數(shù)據(jù)進行平穩(wěn)性檢驗及處理:觀察序列是否為平穩(wěn)的時間序列,如果序列是非平穩(wěn)的時間序列,則需要對原序列進行普通差分和季節(jié)差分,并由此確定參數(shù)d,D;通過觀察時間序列的自相關、偏自相關函數(shù)的截尾或者拖尾特性,確定模型的p,q,P,Q參數(shù)。

        但本文中需要對數(shù)據(jù)集中多列時間序列數(shù)據(jù)進行數(shù)據(jù)自動生成。上述步驟大多需要人工觀察確定參數(shù)取值,且對于不同的時間序列數(shù)據(jù),模型的參數(shù)也會不盡相同。但通過文獻閱讀和多次實驗發(fā)現(xiàn),p,q,d,P,Q,D的取值范圍都較為常規(guī),所以本文使用網(wǎng)格搜索法確定模型最優(yōu)參數(shù)組合。之后使用確定的參數(shù)組合,對模型進行檢驗和測試,若實用測試集中數(shù)據(jù)得出的預測值與實際值的相對誤差小于5%,則說明建立的模型準確度較高,該模型可準確地模擬生成未來的數(shù)據(jù)。

        算法1:SARIMA模型建模及數(shù)據(jù)生成算法

        input:歷史數(shù)據(jù)集D中的m列時間序列數(shù)據(jù),參數(shù)的取值范圍[i,j],需要生成的數(shù)據(jù)數(shù)量n

        output:生成的n行m列新數(shù)據(jù)集D’

        (1)begin

        (2)fori←1…m/*處理數(shù)據(jù)集D中第i列時間序列數(shù)據(jù)*/

        (3) 對讀取的差分后平穩(wěn)數(shù)據(jù)進行歸一化處理

        (4)pSet=(1,1,1)(1,1,1) /*為最優(yōu)參數(shù)組合設置初始值*/

        (5)minAic=-231

        (6)forp,d,q,P,D,Q←i…j//尋找最優(yōu)參數(shù)

        (7) 將(p,d,q)(P,D,Q)帶入SARIMA模型中,計算當前參數(shù)對應的模型aic值nAic

        (8)IfnAic

        (9)minAic=nAic

        (10)pSet=(p,d,q)(P,D,Q)

        (11)fork←1…n

        (12)通過SARIMA(p,d,q)(P,D,Q)s模型進行滾動預測生成第k個值Pk

        (13)D’=D’∪Pk

        (14)End

        2.2 貝葉斯網(wǎng)絡更新算法

        貝葉斯網(wǎng)絡是一種基于概率論和圖論的不確定性知識表示和推理的模型,可以定量且定性地描述隨機變量之間關系,可以形象、直觀展示數(shù)據(jù)中所蘊涵的知識信息。但股票、房產、以及經(jīng)濟、政策等影響因素,均具有很強的時效性;而且模型在建立時本身就會有一定的誤差,再加上數(shù)據(jù)隨著時間而變化,就會出現(xiàn)構建的歷史模型無法適應新數(shù)據(jù)的情況。所以若想生成長期的組合投資方案數(shù)據(jù),網(wǎng)絡需要隨著新產生的數(shù)據(jù)進行調整。貝葉斯網(wǎng)絡更新技術可以讓原有的歷史模型隨著新數(shù)據(jù)加入發(fā)生變化,使貝葉斯網(wǎng)絡模型具有更全面的描述能力,以便后續(xù)生成更可靠的數(shù)據(jù)。

        目前常用的貝葉斯網(wǎng)絡更新算法主要有兩種:一種方法是naive方法,這是一種批量式算法,該算法在新數(shù)據(jù)到來時將新舊數(shù)據(jù)集整合到一起,在一個更大的數(shù)據(jù)集下舍棄已有結構重新學習,如圖1所示,但這種方法需要消耗大量的存儲空間和計算時間。另一種解決方法MAP方法,是把通過學習歷史數(shù)據(jù)訓練得到的模型看作歷史數(shù)據(jù)的代表,這樣可以避免重復多次地處理歷史數(shù)據(jù),如圖2所示。但是這一模型過于依賴歷史模型,可能會在多次迭代后,不能再根據(jù)新數(shù)據(jù)更新模型。

        圖1 naive方法

        圖2 MAP方法

        本文將采用一種增量式學習方法對貝葉斯網(wǎng)絡模型進行更新。該方法的主要思想是,從歷史數(shù)據(jù)中隨機抽取一定量的數(shù)據(jù)樣本,與新數(shù)據(jù)集合并之后,訓練出貝葉斯網(wǎng)絡結構,再將此貝葉斯網(wǎng)絡結構與歷史模型做并集處理,以完善貝葉斯網(wǎng)絡結構。最后進行參數(shù)的學習,對網(wǎng)絡參數(shù)進行更新,如圖3所示。

        圖3 增量式方法

        使用上述算法1時間序列生成結果作為新加入的數(shù)據(jù)集,結合歷史數(shù)據(jù)及歷史貝葉斯網(wǎng)絡,得到更新的貝葉斯網(wǎng)絡,并以時間為新貝葉斯網(wǎng)絡命名保存于對應矩陣中,以便后續(xù)按照時間調用查詢。具體實現(xiàn)算法如下。

        算法2:貝葉斯網(wǎng)絡模型更新算法

        input:歷史數(shù)據(jù)集D, 其中的變量集合為V={X1,X2,…,Xn},歷史數(shù)據(jù)集訓練的貝葉斯網(wǎng)絡S(G,θ),其有向無環(huán)圖G(V,E),新數(shù)據(jù)集Dnew,且其變量集合Vnew={X1,X2,…,Xm}

        output:更新的貝葉斯網(wǎng)絡S(G’,θ’)

        (1)Begin

        (2)ifn!=mthen:

        (3) 從D中隨機抽取p條數(shù)據(jù),組成數(shù)據(jù)集D’

        (4)Dt=D’∪Dnew

        (5) 使用K2算法通過Dt訓練出貝葉斯網(wǎng)絡結構

        (6)Gnew(Vnew,Enew)

        (7)V’=V∪Vnew

        (8)E’=E∪Enew

        (9)G’=(V’,E’) #更新的貝葉斯網(wǎng)絡結構

        (10)Endif

        (11) 原參數(shù)θ變成貝葉斯網(wǎng)絡中的先驗參數(shù)

        (12) 通過Dt內數(shù)據(jù),使用最大似然估計求得更新的參數(shù)θ’

        (13)End

        2.3 數(shù)據(jù)生成算法

        用于組合投資預測的大數(shù)據(jù)生成算法主要分成兩步實現(xiàn)。首先是在分析對應的貝葉斯網(wǎng)絡結構及其概率分布表,按照需求在貝葉斯網(wǎng)絡模型上進行路徑搜索,生成可用于組合投資方案測試的路徑數(shù)據(jù)集合,及集合中各路徑的概率;之后,根據(jù)集合中的路徑節(jié)點取值及對應的概率生成所需數(shù)量的大數(shù)據(jù)集。

        選取指定時間段的貝葉斯網(wǎng)絡,此貝葉斯網(wǎng)絡是對該段時間內新舊數(shù)據(jù)中各項關系的精確刻畫。按需求選取起始節(jié)點Xs和終止節(jié)點Xe,按照給定的條件概率閾值Pmin和每條組合數(shù)據(jù)的規(guī)模Len,使用回溯法生成出以Xs為起始節(jié)點,Xe為終止節(jié)點的所有路徑長度大于最低閾值的節(jié)點序列,并計算每個序列節(jié)點不同取值的概率,保留概率大于設定概率閾值的序列變量的取值。最后根據(jù)需求,對不同貝葉斯網(wǎng)絡迭代生成數(shù)據(jù)集。

        以圖4為例,圖中X1節(jié)點到X4、X5節(jié)點的路徑:X1->X3->X4,X1->X4,X1->X3->X5,X1->X2->X5。以X1到X4路徑為例,假設概率最低閾值為0.7,由概率表計算X1->X4路徑上節(jié)點不同取值概率,P(X4=1|X1=1,X3)=P(X4=1|X3=0,X1=1)*P(X3=0|X1=1)+P(X4=1|X3=1,X1=1)*P(X3=1|X1=1)=0.676,同理可求P(X4=0|X1=1,X3)=0.324,P(X4=0|X1=1,X3)=0.028,P(X4=1|X1=1,X3)=0.972,在這條路徑上,X4=1,X1=1時概率最大且超過所定閾值,保存該路徑節(jié)點取值及相應概率。按照此方法,生成網(wǎng)絡路徑節(jié)點取值及概率的集合,此集合可用于組合投資預測的分析研究。

        圖4 貝葉斯網(wǎng)絡例圖

        算法3:組合數(shù)據(jù)集生成算法

        input:貝葉斯網(wǎng)絡集,需要預測生成的年份y,開始節(jié)點Xs,終止節(jié)點Xe

        output:貝葉斯結點不同取值的路徑序列,及其概率的集合

        (1)Begin

        (2)G=BN[y],SS{}=?,ES=?,Xvisit[n]=0/*取時間標記為y的貝葉斯網(wǎng)絡矩陣,初始化序列集合,其中n為網(wǎng)絡結構中的節(jié)點數(shù)目*/

        (3)Generate_ES(Xs,Xe,Len,Pmin) /*生成Xs…Xe節(jié)點序列,Len是序列長度的閾值,Pmin是概率的最低閾值*/

        (4){

        (5)ES∪Xs

        (7) {

        (8)SS∪ES

        (9)ES=ES-Xlast/*回溯到上一個訪問節(jié)點*/

        (10) return

        (11) }

        (12)Xvisit[Xs]=1 //標記Xs已被訪問過

        (13)if(Xs存在鄰接點)

        (14) {

        (15)for(k←1…m) //m為Xs的鄰接點數(shù)

        (16)if(Xvisit[Xk] == 0) //Xk未被訪問過

        (17) Generate_ES(Xk,Xe,Len,Pmin)

        (18)ES=ES-Xlast//回溯

        (19) }

        (20)else

        (21)ES=ES-Xlast//回溯

        (22) }

        (23)generate_probablity_ES()

        (24){

        (25) generate_ES(Xs,Xe)

        (26)if(SS!= null)

        (27) {

        (28)for(i←1…n) /*計算每個序列發(fā)生的聯(lián)合概率,保留概率大于最低閾值的序列*/

        (29) P(Si) =P(Xi|X1…Xi-1)P(Xi-1|X1…Xi-2)…P(X1)

        (30) if(P(Si)>Pmin)

        (31) {

        (32)OutS=Si

        (33) }

        (34) }

        (35)else

        (36)Xs,Xe條件獨立

        (37) }

        (38)End

        可根據(jù)已有網(wǎng)絡路徑和路徑節(jié)點取值概率數(shù)據(jù)集,通過權重隨機生成方法,生成所需數(shù)量的大數(shù)據(jù)集。

        3 實驗分析

        3.1 實驗環(huán)境搭建

        在配置為Intel Xeon 3.00 GHz,NVIDIA Tesla K40c GPU,64 G內存,Windows10操作系統(tǒng),Python 3.6的實驗平臺環(huán)境下編程實現(xiàn)本文算法。

        3.2 實驗數(shù)據(jù)來源和處理

        投資項2008年12月到2019年10月歷史數(shù)據(jù)來源如下:選取在十大行業(yè)中具有較大影響力的10支股票,分別為中國石油、寶鋼股份、中國建筑、中國聯(lián)通、中國中車、長江電力、格力電器、恒瑞醫(yī)藥、貴州茅臺和中國平安,在Tushare數(shù)據(jù)庫中,獲取以上10支股票的收益率,以及滬深300指數(shù)的收益率數(shù)據(jù);房價數(shù)據(jù)來源于安居客網(wǎng)站北京市石景山區(qū)房價月平均數(shù)據(jù)。

        另外,宏觀經(jīng)濟因素2008年12月到2019年10月數(shù)據(jù)來源如下:央行存款利率、存款準備金率、貸款利率均下載自中國人民銀行官網(wǎng);貨幣和準貨幣供應量M2、商品消費總額、證券投資者信心指數(shù)來自東方財富網(wǎng)數(shù)據(jù)中心;商品住宅銷售額、房地產投資額來自于國家統(tǒng)計局網(wǎng)站公布的月度數(shù)據(jù)。其中2008年12月到2018年12月的所有數(shù)據(jù)為訓練數(shù)據(jù),2019年1月到10月數(shù)據(jù)作為測試數(shù)據(jù)。

        首先,由于數(shù)據(jù)時間頻率不一致,我們按照月份做平均值重采樣處理。另外,由于構建貝葉斯網(wǎng)絡的需要,對數(shù)據(jù)進行離散化處理。先對數(shù)據(jù)做一階差分,對于時間序列數(shù)據(jù){Xt},p階差分運算公式為

        ΔPXt=ΔP-1Xt-ΔP-1Xt-1

        (5)

        一階差分后即獲得所有數(shù)據(jù)的變化值,然后對求得的變化值做如式(6)的離散映射處理,用于貝葉斯網(wǎng)絡的訓練。式(6)的意義為,當某變量數(shù)據(jù)值呈上升趨勢時取值為1,下跌趨勢時為0,平穩(wěn)趨勢時為2。離散化處理完后的部分數(shù)據(jù)見表1

        (6)

        表1 離散后的部分數(shù)據(jù)

        3.3 歷史數(shù)據(jù)模型構建

        利用處理好的歷史數(shù)據(jù)訓練模型,得到貝葉斯網(wǎng)絡結構結果如圖5所示,淺灰色的節(jié)點表示宏觀經(jīng)濟因素,白色節(jié)點為股票和房地產等投資項。表2為網(wǎng)絡中節(jié)點變量對照。

        圖5 歷史數(shù)據(jù)生成的貝葉斯網(wǎng)絡

        表2 貝葉斯網(wǎng)絡變量聲明

        3.4 新時間序列數(shù)據(jù)集的生成

        央行存款、貸款利率、存款準備金率數(shù)據(jù)值較穩(wěn)定,采用權重隨機生成方法,此方法較于隨機生成更符合現(xiàn)實情況。本實驗中,生成3年數(shù)據(jù)。實驗結果如圖6所示。

        圖6 存款利率、貸款利率、存款準備金率數(shù)據(jù)生成結果

        對其余數(shù)據(jù)使用SARIMA算法生成新數(shù)據(jù),以便后續(xù)貝葉斯網(wǎng)絡的更新。由于生成數(shù)據(jù)種類較多,此處以第一列數(shù)據(jù)貨幣和準貨幣供應量M2變化量為例,展示使用SARIMA時間序列算法,通過學習歷史數(shù)據(jù)對未來3年新數(shù)據(jù)進行生成的過程。由于處理過的數(shù)據(jù)已較為平穩(wěn)但數(shù)值較大,實驗中使用min-max標準化處理數(shù)據(jù)。其中2009年1月-2016年12月的數(shù)據(jù)用于模型標定,2017年1月-2018年12月數(shù)據(jù)用于模型預測評估。

        數(shù)據(jù)處理完后對SARIMA(p,d,q)(P,D,Q)s模型參數(shù)進行確定。由于進行1階差分已使數(shù)據(jù)平穩(wěn),d=D=1,s為時間序列的周期,本實驗中使用的是月度數(shù)據(jù),s取12。運用算法1確定其余參數(shù),并將確定的參數(shù)組合帶入模型中,對兩年數(shù)據(jù)進行預測。如圖7所示,灰色實線表示真實值,黑色點線為預測值。

        圖7 2年數(shù)據(jù)預測結果

        從圖中可看出預測結果與真實值較為接近,且基本擬合真實值的變化趨勢。計算出預測的MSE(均方誤差)為0.02,驗證該模型的預測精確度較高。模型建立且經(jīng)過評估后,生成未來3年的數(shù)據(jù)。最后將生成的數(shù)據(jù)從歸一化的形式還原,結果見表3。

        表3 生成3年數(shù)據(jù)部分結果

        按照以上方法,生成其余各項的3年數(shù)據(jù),按照年份分成3個數(shù)據(jù)集,且分別加入歷史數(shù)據(jù)集中未使用的股票數(shù)據(jù),模擬新數(shù)據(jù)集中出現(xiàn)的新變量。

        3.5 貝葉斯網(wǎng)絡的更新

        按照算法2從歷史數(shù)據(jù)集中隨機抽取部分數(shù)據(jù),與上一節(jié)新生成的2019年數(shù)據(jù)集合并,并用此合并的數(shù)據(jù)集訓練出一個新的貝葉斯網(wǎng)絡。如圖8所示。

        圖8 合并數(shù)據(jù)集生成的貝葉斯網(wǎng)絡

        與圖5對比可看出,新數(shù)據(jù)集訓練的網(wǎng)絡中,有編號16的深灰色新節(jié)點,該節(jié)點代表貴州茅臺,且增加了以下邊:(1, 12),(7, 9), (2, 9), (2, 7), (1, 3), (3, 4), (1, 6), (9, 10), (13, 16), (15, 16), (3, 5), (13, 15), (5, 7), (6, 9), (11, 16), (2, 6), (6, 7), (3, 6), (5, 11)。合并歷史數(shù)據(jù)、新數(shù)據(jù)集訓練出的貝葉斯網(wǎng)絡,實現(xiàn)貝葉斯網(wǎng)絡更新,生成可以對2019年各節(jié)點關系更準確描述的貝葉斯網(wǎng)絡,結果如圖9所示。并對該網(wǎng)絡進行參數(shù)學習,獲得各節(jié)點的概率分布表。

        圖9 更新后的2019年數(shù)據(jù)貝葉斯網(wǎng)絡模型

        按照以上方法,繼續(xù)生成對應2020年數(shù)據(jù)的貝葉斯網(wǎng)絡,其中的新節(jié)點17,18分別代表恒瑞醫(yī)藥,格力電器的收益率;以及2021年數(shù)據(jù)的貝葉斯網(wǎng)絡,圖中新加入的節(jié)點19,20分別代表長江電力,中國中車股票的收益率。最后結果如圖10所示。

        圖10 2020年、2021年數(shù)據(jù)的貝葉斯網(wǎng)絡模型

        3.6 組合數(shù)據(jù)及大數(shù)據(jù)集生成

        以圖9:2019年數(shù)據(jù)的貝葉斯網(wǎng)絡模型為例,根據(jù)該模型生成可用于2019年的組合投資測試數(shù)據(jù)集。將聯(lián)合概率閾值設置為0.6,實驗起始節(jié)點設置為9,終止節(jié)點為16,生成投資項的組合,結合算法3生成的節(jié)點序列和節(jié)點取值數(shù)據(jù)見表4。

        可根據(jù)上述方法生成網(wǎng)絡中所有節(jié)點路徑序列集合,及路徑中節(jié)點不同取值對應的概率,確定節(jié)點之間取值變化趨勢的關系,用于指導生成可用于組合投資預測的大數(shù)據(jù)集。本實驗中生成以天為時間單位的365行,16列的2019年的離散數(shù)據(jù)集,部分數(shù)據(jù)見表5;生成的離散數(shù)據(jù)集可確定數(shù)據(jù)變化的趨勢,數(shù)據(jù)集中每列數(shù)據(jù)的均值和方差可用來確定生成數(shù)據(jù)值的范圍,可由此進一步生成連續(xù)值數(shù)據(jù)。

        表4 部分路徑節(jié)點取值及概率

        表5 生成的離散數(shù)據(jù)集

        將生成的2019年前10個月每月所有的離散數(shù)據(jù),與測試集中2019年的10個月真實數(shù)據(jù)分別進行比較,使用余弦相似度來衡量生成數(shù)據(jù)與真實數(shù)據(jù)的接近程度,余弦值越接近1,表示兩個向量相似度越高。測試集相似度值如圖11所示,從圖中可看出,生成數(shù)據(jù)集與樣本數(shù)據(jù)集相似度均超過70%,基本保留真實數(shù)據(jù)的事件分布特征。

        圖11 2019年生成數(shù)據(jù)相似度

        4 結束語

        針對當下組合投資預測對數(shù)據(jù)需求問題,本文提出一個基于增量式貝葉斯網(wǎng)絡模型的大數(shù)據(jù)生成方法。本文涉及時間序列生成算法,可自動批量地對多列時間序列數(shù)據(jù)進行較準確的生成;構建增量式貝葉斯網(wǎng)絡,使得貝葉斯網(wǎng)絡可以隨著新數(shù)據(jù)的產生動態(tài)更新,便于后續(xù)生成長期準確數(shù)據(jù);對貝葉斯網(wǎng)絡進行路徑搜索生成各節(jié)點的路徑集合,在集合中各個路徑節(jié)點取值及其對應的概率基礎上,生成大數(shù)據(jù)集。結果表明,大數(shù)據(jù)生成系統(tǒng)可以生成保持時序性與相關性特征的數(shù)據(jù),彌補了實際數(shù)據(jù)的不足,生成數(shù)據(jù)可滿足組合投資預測研究所需。然而本文在更新貝葉斯網(wǎng)絡選取歷史數(shù)據(jù)的方法較為簡單,只是選取歷史數(shù)據(jù)最后幾項數(shù)據(jù);另外,由生成的離散值轉換為連續(xù)值數(shù)據(jù)的方法也有待進一步研究。

        猜你喜歡
        歷史數(shù)據(jù)貝葉斯節(jié)點
        基于充電策略估算動力電池容量的方法
        汽車電器(2025年1期)2025-02-03 00:00:00
        CM節(jié)點控制在船舶上的應用
        基于設備PF性能曲線和設備歷史數(shù)據(jù)實現(xiàn)CBM的一個應用模型探討
        智能制造(2021年4期)2021-11-04 08:54:36
        Analysis of the characteristics of electronic equipment usage distance for common users
        基于故障歷史數(shù)據(jù)和BP神經(jīng)網(wǎng)絡的接地選線方案研究
        基于AutoCAD的門窗節(jié)點圖快速構建
        基于Hadoop技術實現(xiàn)銀行歷史數(shù)據(jù)線上化研究
        貝葉斯公式及其應用
        基于貝葉斯估計的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        一卡二卡三卡视频| 四虎在线中文字幕一区| 日本视频一区二区三区在线| 欧美老妇交乱视频在线观看| 国产97在线 | 中文| 国产精品一区高清在线观看| 久久伊人网久久伊人网| 亚洲第一黄色免费网站| 国产免费一区二区三区免费视频 | 影音先锋久久久久av综合网成人| 国产顶级熟妇高潮xxxxx| 国产日b视频| 成人性生交大片免费看7| 日韩精品视频久久一区二区| 无码av天堂一区二区三区| 自拍偷拍亚洲一区| 亚洲精品一区二区三区蜜臀| 职场出轨的人妻中文字幕| 免费无码一区二区三区蜜桃大 | 亚洲精品高清av在线播放| 午夜精品免费视频一区二区三区| 中文字幕一区日韩精品| 人体内射精一区二区三区| 草莓视频在线观看无码免费| 一本色道久久综合亚洲精品不 | 欧美成人片在线观看| 亚洲视频毛片| 午夜日韩视频在线观看| 国产自拍在线视频91| 国精品午夜福利视频不卡| 亚洲国产精品一区二区久| 久草视频华人在线观看| 视频一区二区三区黄色| 久久婷婷人人澡人人喊人人爽| 人人妻人人澡人人爽精品欧美| 白白青青视频在线免费观看| 国产一区二区av免费观看| 色综合久久精品亚洲国产 | 久久久精品国产亚洲AV蜜| 精品国产麻豆免费人成网站| 极品少妇被黑人白浆直流|