亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高維序列數(shù)據(jù)降維方法在證券市場的應(yīng)用研究

        2023-04-21 13:10:50劉文杰黃國耀盧凌峰李華康孫國梓
        關(guān)鍵詞:方法模型

        陳 賽,劉文杰,黃國耀,盧凌峰,李華康,孫國梓*

        (1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210023;2.西交利物浦大學(xué) 人工智能與高級(jí)計(jì)算學(xué)院(太倉),江蘇 蘇州 215123)

        0 引 言

        易經(jīng)是中國古代人類文明智慧的結(jié)晶,其包含了宇宙間萬事萬物的規(guī)律,能引導(dǎo)人類社會(huì)的正向發(fā)展,易經(jīng)作為一種高維序列數(shù)據(jù)的降維方法,降維后能夠幫助人們做出合理的預(yù)測(cè),趨利避害。如今,有的周易研究者利用這種高維序列數(shù)據(jù)降維方法來預(yù)測(cè)股票未來的發(fā)展趨勢(shì)。陳永偉[1]通過研究易經(jīng)中的四個(gè)卦象來指導(dǎo)企業(yè)如何面對(duì)困境;郭儀等人[2]通過易經(jīng)中的象數(shù)模型來預(yù)測(cè)股市未來的行情變化。目前利用高維序列數(shù)據(jù)降維方法實(shí)現(xiàn)股市預(yù)測(cè)的研究存在以下問題:

        (1)研究所使用的股票數(shù)據(jù)不夠全面,只研究一個(gè)經(jīng)濟(jì)指標(biāo)如收盤價(jià),容易忽略其他重要的經(jīng)濟(jì)指標(biāo)。

        (2)由于采用的數(shù)據(jù)太少,不具有統(tǒng)計(jì)意義,實(shí)驗(yàn)結(jié)果缺少說服力。

        (3)高維序列數(shù)據(jù)降維方法中的重要概念在預(yù)測(cè)過程中沒有很好的進(jìn)行抽象和應(yīng)用。

        針對(duì)以上問題,論文結(jié)合大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法從《易經(jīng)》中抽取出一套基于高維序列數(shù)據(jù)降維方法的宏觀預(yù)測(cè)模型來預(yù)測(cè)股票的發(fā)展趨勢(shì)。高維序列數(shù)據(jù)降維方法通過卦象和爻的變化,并通過相應(yīng)的規(guī)則結(jié)合卦象和爻的解釋對(duì)股票未來的發(fā)展進(jìn)行一定范圍內(nèi)的預(yù)測(cè),引導(dǎo)人們做出正確判斷并指導(dǎo)公司進(jìn)行相應(yīng)的政策調(diào)整。特征選擇是構(gòu)建宏觀預(yù)測(cè)模型的重要一步,特征選擇主要是使用機(jī)器學(xué)習(xí)算法從大量的特征中選取出對(duì)標(biāo)簽重要的特征。過往的學(xué)者用高維序列數(shù)據(jù)降維方法預(yù)測(cè)股市行情時(shí)都是人為選擇經(jīng)濟(jì)指標(biāo)進(jìn)行預(yù)測(cè),這種方法經(jīng)實(shí)驗(yàn)證明效果較差。而論文提出的特征選擇方法可以從大量復(fù)雜的特征中找到重要性排名較高的一些特征。目前,特征選擇方法有很多研究,大都是傳統(tǒng)的機(jī)器學(xué)習(xí)算法。黃新等人[3]提出基于變量重要性的偏最小二乘特征篩選法來選擇對(duì)紅外光譜變量起重要作用的指標(biāo)。劉云翔等人[4]使用隨機(jī)森林算法篩選出造成肝癌原因的重要因子,實(shí)驗(yàn)證明隨機(jī)森林算法的效果好于決策樹。因此如何利用數(shù)學(xué)思想抽象易經(jīng),結(jié)合機(jī)器學(xué)習(xí)算法來構(gòu)建易經(jīng)宏觀模型是論文的核心。

        論文首先使用機(jī)器學(xué)習(xí)算法進(jìn)行特征重要性排名,再借助高維序列數(shù)據(jù)降維方法中的天地人思想,將眾多的特征進(jìn)行重要性排序并選擇最重要的6個(gè)特征。之后根據(jù)動(dòng)態(tài)時(shí)間滑動(dòng)窗口將特征對(duì)應(yīng)的數(shù)值轉(zhuǎn)化成四象值,下一步根據(jù)高維序列數(shù)據(jù)降維方法中的陰陽爻的變化規(guī)則將四象值進(jìn)行轉(zhuǎn)化形成本卦和變卦。最后根據(jù)高維序列數(shù)據(jù)降維方法中解卦原則綜合本卦和變卦的卦辭得到最終的解卦結(jié)果,使用解卦結(jié)果和標(biāo)簽值進(jìn)行對(duì)比得到最后的預(yù)測(cè)結(jié)果。

        傳統(tǒng)機(jī)器學(xué)習(xí)受限于數(shù)據(jù)集本身特性,普適性較差。而基于高維序列數(shù)據(jù)降維方法的模型能夠根據(jù)天地人、四象等思想,并通過卦象和爻的變化來構(gòu)建出不同場景下的宏觀預(yù)測(cè)模型,并將股價(jià)漲跌的預(yù)測(cè)結(jié)果展示給公司。實(shí)驗(yàn)結(jié)果表明,論文提出的預(yù)測(cè)模型在股票未來發(fā)展的預(yù)測(cè)效果上要好于對(duì)比實(shí)驗(yàn)中的其他機(jī)器學(xué)習(xí)方法。因此,基于高維序列數(shù)據(jù)降維方法構(gòu)建的宏觀模型有實(shí)際的研究意義和應(yīng)用價(jià)值。

        1 相關(guān)工作

        證券數(shù)據(jù)預(yù)測(cè)是近年來的研究熱點(diǎn),很多學(xué)者使用不同的算法對(duì)證券進(jìn)行預(yù)測(cè)。例如,文獻(xiàn)[5]使用不同機(jī)器學(xué)習(xí)方法預(yù)測(cè)股票未來趨勢(shì),實(shí)驗(yàn)表明Adaboost和貝葉斯網(wǎng)絡(luò)效果相對(duì)較好。文獻(xiàn)[6]提出一種基于財(cái)務(wù)指標(biāo)和數(shù)據(jù)挖掘相結(jié)合的模型來對(duì)股票未來進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果顯示,各行業(yè)的準(zhǔn)確率在60%左右。Kannan K S和Sekar P S[7]等提出使用五種方法來挖掘歷史交易數(shù)據(jù)中隱藏的信息并對(duì)股票未來發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),結(jié)果表明,該方法的預(yù)測(cè)準(zhǔn)確率大于50%。Ou P和Wang H[8]等使用十種不同的數(shù)據(jù)挖掘技術(shù)來預(yù)測(cè)香港股市恒生指數(shù)的價(jià)格走勢(shì),最終表明SVM和LS-SVM算法具有更好的預(yù)測(cè)性能。綜上可見,很多算法在證券領(lǐng)域預(yù)測(cè)趨勢(shì)任務(wù)中表現(xiàn)一般。因此,論文結(jié)合數(shù)據(jù)挖掘技術(shù)和高維序列數(shù)據(jù)降維方法構(gòu)建一套預(yù)測(cè)模型。高維序列數(shù)據(jù)降維方法能夠通過卦象實(shí)現(xiàn)對(duì)證券數(shù)據(jù)的宏觀預(yù)測(cè)。該方法中的天地人思想結(jié)合數(shù)據(jù)挖掘技術(shù)能夠篩選出重要的6個(gè)特征,并通過四象思想將6個(gè)特征轉(zhuǎn)化成6位序列,形成本卦,接著通過變爻思想形成變卦,最后綜合本卦和變卦得到最終的卦象結(jié)果,實(shí)現(xiàn)預(yù)測(cè)。

        1.1 變量重要性評(píng)分-隨機(jī)森林算法

        隨機(jī)森林(Random Forest,RF)是Breiman等人于2001年提出的[9],至今為止RF已經(jīng)被普遍應(yīng)用到數(shù)據(jù)挖掘等領(lǐng)域。RF具有較高的預(yù)測(cè)準(zhǔn)確率,對(duì)于離異值和噪聲較多的數(shù)據(jù)有著非常強(qiáng)的容忍度,可以處理高維數(shù)據(jù),能夠在分析高維數(shù)據(jù)的同時(shí),給出不同變量的重要性評(píng)分。這些優(yōu)勢(shì)讓RF非常適用于高維數(shù)據(jù)的研究,在數(shù)據(jù)挖掘領(lǐng)域有著較高的使用價(jià)值。楊明悅和毛獻(xiàn)忠[10]通過隨機(jī)森林算法對(duì)水環(huán)境中的各個(gè)影響因子進(jìn)行特征重要性評(píng)分,最終選取重要的5個(gè)水質(zhì)指標(biāo)用于水環(huán)境的評(píng)估。肖美麗、晏春麗等人[11]采用隨機(jī)森林算法通過變量重要性評(píng)分對(duì)產(chǎn)后抑郁影響因素進(jìn)行重要程度排序,最終獲取排名前10的影響因子,并針對(duì)影響因子進(jìn)行定量分析,有效進(jìn)行產(chǎn)后預(yù)診工作。

        由于RF在處理高維特征數(shù)據(jù)時(shí)能夠很好地對(duì)各變量進(jìn)行重要程度排序,因此論文通過RF進(jìn)行變量篩選工作。

        1.2 線性回歸

        線性回歸分析主要用于研究因變量與自變量間的線性關(guān)系,通過適當(dāng)?shù)臄?shù)學(xué)模型將變量間的關(guān)系準(zhǔn)確表達(dá),進(jìn)而通過自變量的取值來預(yù)測(cè)因變量的取值。很多研究中都把線性回歸方法用于股票價(jià)格預(yù)測(cè),通過線性回歸方法建立一個(gè)預(yù)測(cè)新股上市第一天開盤價(jià)的模型,該模型能夠較好地?cái)M合股票價(jià)格曲線。蘇晴[12]通過線性回歸并結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建融合模型對(duì)股票價(jià)格進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明預(yù)測(cè)未來10天的股價(jià)準(zhǔn)確率能達(dá)到70%,預(yù)測(cè)未來20天準(zhǔn)確率能達(dá)到60%,但隨著預(yù)測(cè)時(shí)間的增長,模型準(zhǔn)確率越來越低。

        論文通過線性回歸擬合股票價(jià)格,從而得到股票未來的發(fā)展趨勢(shì)并最終根據(jù)趨勢(shì)構(gòu)建標(biāo)簽數(shù)據(jù)。

        1.3 高維序列數(shù)據(jù)降維方法與證券市場

        高維序列數(shù)據(jù)降維方法的預(yù)測(cè)理論探析的文章中提到,在高維序列數(shù)據(jù)降維方法的六十四卦中,每個(gè)卦象的初爻、二爻對(duì)應(yīng)著地位,三爻、四爻對(duì)應(yīng)著人位、五爻、上爻對(duì)應(yīng)著天位,從卦象中也可以看出人處在天地之中,受限于天地,作用于天地。在一個(gè)研究證券市場上的天、地、人的文章中,提出了如下觀點(diǎn):在證券市場的場景下,天時(shí)指的是一種經(jīng)濟(jì)周期性的波動(dòng)規(guī)律以及國家政策的宏觀因素,若該證券所屬公司順著國家政策走,則該證券符合天時(shí);地利指的是當(dāng)下證券所屬公司的基本情況,若該證券的市場流動(dòng)性很高,則該證券符合人和;從而得出結(jié)論,在證券市場的場景下天對(duì)應(yīng)著國家政策調(diào)控(經(jīng)濟(jì)運(yùn)行規(guī)律),地對(duì)應(yīng)著公司基本面,人對(duì)應(yīng)著市場流動(dòng)性,且在證券市場的場景下,天地人的重要性等級(jí)如下:天>地>人[13]。文獻(xiàn)[14]提到易經(jīng)中有少陽、老陽、少陰和老陰,股票市場當(dāng)中對(duì)應(yīng)的則是小陽線、大陽線、小陰線和大陰線,大陰線到達(dá)一定程度股票價(jià)格就會(huì)上升,對(duì)應(yīng)易經(jīng)中的陰極必陽,與易經(jīng)時(shí)刻變化相同,社會(huì)經(jīng)濟(jì)一直在不停的發(fā)展著,有時(shí)這種發(fā)展還十分顯著和迅速,忽起忽落,一盛一衰,成為一種波浪起伏的動(dòng)蕩狀態(tài)。郭儀等人使用高維序列數(shù)據(jù)降維方法中的象數(shù)模型對(duì)股市行情進(jìn)行預(yù)測(cè),其通過收盤價(jià)進(jìn)行起卦,收盤價(jià)整數(shù)相加除八為上卦,一收盤價(jià)小數(shù)相加除八為下卦,以整數(shù)和小數(shù)相加除八為變爻。最終預(yù)測(cè)股票走勢(shì)實(shí)驗(yàn)發(fā)現(xiàn)效果一般。

        文獻(xiàn)[15-16]等提出使用證券市場中的一些因子作為特征并使用機(jī)器學(xué)習(xí)算法進(jìn)行證券預(yù)測(cè),實(shí)驗(yàn)表明算法準(zhǔn)確率在60%上下浮動(dòng)。文獻(xiàn)[17-18]等提出使用融合Attention機(jī)制的LSTM模型對(duì)證券歷史數(shù)據(jù)進(jìn)行建模和預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明該模型效果好于傳統(tǒng)的機(jī)器學(xué)習(xí)。

        高維序列數(shù)據(jù)降維方法能夠通過卦象進(jìn)行預(yù)測(cè),并通過卦象的千變?nèi)f化適應(yīng)證券市場的變化,從而能夠較好地預(yù)測(cè)證券市場的未來發(fā)展趨勢(shì)。

        2 基于高維序列數(shù)據(jù)降維方法的模型

        2.1 模型整體框架

        論文提出基于高維序列數(shù)據(jù)降維的方法,首先通過隨機(jī)森林算法將大量經(jīng)濟(jì)指標(biāo)進(jìn)行重要性排名,之后根據(jù)天地人思想最終選取6個(gè)指標(biāo)。之后通過動(dòng)態(tài)時(shí)間窗口和四象映射算法將數(shù)據(jù)轉(zhuǎn)化成四象值,最后通過四象值得到本卦和變卦,綜合本卦和變卦得到最終的卦象結(jié)果,實(shí)現(xiàn)預(yù)測(cè)功能,并通過與標(biāo)簽進(jìn)行對(duì)比統(tǒng)計(jì)得到預(yù)測(cè)準(zhǔn)確率等相關(guān)評(píng)價(jià)指標(biāo)的結(jié)果。該模型的整體架構(gòu)如圖1所示。

        圖1 模型整體架構(gòu)

        如圖1所示,本模型主要有三大模塊,標(biāo)簽構(gòu)造模塊、卦象生成模塊和卦象解釋模塊。標(biāo)簽構(gòu)造模塊主要是通過線性回歸的方法將股票價(jià)格進(jìn)行擬合,得到股票未來一段時(shí)間內(nèi)的漲跌趨勢(shì);卦象生成模塊主要有以下幾個(gè)步驟,通過隨機(jī)森林算法和天地人思想選取特征,并通過滑動(dòng)窗口將特征對(duì)應(yīng)的值轉(zhuǎn)化為四象值,最終得到本卦;卦象解釋模塊主要有兩個(gè)步驟,首先由本卦生成變卦,之后綜合本卦和變卦以及對(duì)應(yīng)的爻辭和卦辭得到預(yù)測(cè)的結(jié)果。

        2.2 標(biāo)簽構(gòu)造

        由于在股票數(shù)據(jù)中,存在較多的噪聲數(shù)據(jù),而huber regression具有很好的魯棒性,對(duì)異常的y的魯棒性較強(qiáng),能夠很好地解決數(shù)據(jù)中的噪聲點(diǎn)。論文主要通過huber regression擬合收盤價(jià)得到收盤價(jià)的變化趨勢(shì)。采用的是一元線性回歸,表達(dá)式為:y=ax+b。y表示因變量的預(yù)測(cè)值,x表示單個(gè)自變量,a、b是回歸模型的待定參數(shù),其中a又稱為回歸系數(shù)。

        huber regression 的損失函數(shù)為huber loss,其計(jì)算公式如下:

        Lδ(y,f(x))=

        (1)

        其中,δ為需要調(diào)整的超參數(shù)。

        通過不斷的迭代,使得損失值達(dá)到最小得到最優(yōu)擬合函數(shù),獲取函數(shù)中的回歸系數(shù)a以及偏移量b。

        提出的標(biāo)簽構(gòu)造算法的具體描述如算法1所示:

        算法1:標(biāo)簽構(gòu)造算法。

        輸入:每只股票在所選時(shí)間段內(nèi)的所有收盤價(jià)數(shù)據(jù)price_list。每只股票一個(gè)月的收盤價(jià)列表price_listi。

        輸出:股票各個(gè)月的漲跌趨勢(shì)對(duì)應(yīng)的標(biāo)簽集month_label_list。

        1. for price_listiin price_list

        2. 構(gòu)建一元線性函數(shù)y=ai*x+bi

        3.ai,bi=huber regression(price_listi)

        4. a.append(ai)

        5. end for

        6. 將a中的數(shù)據(jù)按正態(tài)分布劃分,設(shè)均值x,方差為μ

        7. foraiina

        8. ifai∈(-∞,x-μ)

        9.ai= 0 //表示股價(jià)這個(gè)月呈下降趨勢(shì)

        10. month_label_list.append(ai)

        11. else ifai∈(x-μ,x+μ)

        12.ai= 1 //表示股價(jià)這個(gè)月呈平穩(wěn)趨勢(shì)

        13. month_label_list.append(ai)

        14. else ifai∈(x+μ,+∞)

        15.ai= 2 //表示股價(jià)這個(gè)月呈上漲趨勢(shì)

        16. month_label_list.append(ai)

        17. end if

        18. end for

        19. return month_label_list

        算法1描述的是:首先根據(jù)線性回歸算法擬合每個(gè)月的股票價(jià)格并計(jì)算出一元線性函數(shù)中的變量ai,循環(huán)計(jì)算出所選時(shí)間段內(nèi)所有月份的ai,之后根據(jù)a的分布判斷每個(gè)月漲跌趨勢(shì)所對(duì)應(yīng)的標(biāo)簽。

        2.3 特征篩選

        可以比較每個(gè)特征在隨機(jī)森林中每棵分類樹上的貢獻(xiàn)大小并計(jì)算基尼指數(shù),以此判斷每個(gè)特征的重要程度。節(jié)點(diǎn)的基尼指數(shù)表示節(jié)點(diǎn)的不純度。以指標(biāo)的平均基尼減小值占所有指標(biāo)平均基尼減小值總和的百分比來評(píng)估每個(gè)風(fēng)險(xiǎn)指標(biāo)對(duì)總風(fēng)險(xiǎn)的貢獻(xiàn)程度。

        基尼指數(shù)計(jì)算公式如下:

        (2)

        (3)

        變量Xj在節(jié)點(diǎn)n的重要性,即節(jié)點(diǎn)n分枝前后Gini指數(shù)變化量的計(jì)算公式如下:

        (4)

        其中,GIl和GIr分別表示由節(jié)點(diǎn)n分裂而成的兩個(gè)新節(jié)點(diǎn)的Gini指數(shù)。

        如果變量Xj在第i棵數(shù)中出現(xiàn)M次,則變量Xj在第i棵樹的重要性為:

        (5)

        變量Xj在隨機(jī)森林中的Gini重要性定義為:

        (6)

        其中,m為隨機(jī)森林中分類樹的數(shù)量。

        通過將每個(gè)特征對(duì)標(biāo)簽的Gini指數(shù)的重要性進(jìn)行排序,最終選取Gini指數(shù)重要性排名前30的特征。

        將股票特征的物理含義與地人天思想進(jìn)行映射和歸類,將所有的特征分為地人天3類。通過隨機(jī)森林算法篩選出30個(gè)特征后,根據(jù)特征與地人天類別的對(duì)應(yīng)表,將30個(gè)特征映射到地人天3個(gè)類別中。選取每類中重要性排名靠前的2個(gè)特征,一共篩選出6個(gè)特征,將篩選后的特征按照地人天的順序依次排列。

        2.4 四象值的計(jì)算和卦象的生成

        得到6個(gè)特征之后,按照高維序列數(shù)據(jù)降維方法的相關(guān)理論,需將6個(gè)特征對(duì)應(yīng)的數(shù)值轉(zhuǎn)化成四象對(duì)應(yīng)的值。論文通過動(dòng)態(tài)時(shí)間窗的方法實(shí)現(xiàn)四象值的計(jì)算。

        論文提出的四象生成算法的具體描述如算法2所示:

        算法2:四象生成算法。

        輸入:窗口大小k,四象比例值old_rate=1/8,young_rate=3/8,時(shí)序數(shù)據(jù)列表vec={v1,v2,…,vn},已排好序的列表sortedvec,最早添加進(jìn)列表的元素對(duì)應(yīng)的下標(biāo)m。

        輸出:時(shí)序數(shù)據(jù)列表對(duì)應(yīng)的四象值列sixiang_list。

        1. fori=0→k-1 do

        2. inivec[i]=vec[i]

        3. end for

        4. 定義四象對(duì)應(yīng)數(shù)值,老陰:6,少陰:8,少陽:7,老陽:9

        5. forj=kton-1 do

        6. 排序,sortedvec=sort(inivec)

        7. maxv=max(sortedvec),minv= min(sortedvec)

        8. cha=maxv-minv

        9. A=old_rate*cha, B=young_rate*cha

        10. laoyin=[minv,minv+A),shaoyin=[minv+A,min+A+B),shaoyang=[min+A+B,min+A+2B),laoyang=[min+A+2B,maxv)

        11. if vec[j]∈ laoyin

        12. sixiang_list[j-k]=6

        13. else if vec[j]∈ shaoyin

        14. sixiang_list[j-k]=8

        15. else if vec[j]∈shaoyang

        16. sixiang_list[j-k] = 7

        17. else

        18. sixiang_list[j-k] = 9

        19. del sortedvec[m],sortedvec[k]=vec[j]

        20. end if

        21. end for

        22. returnsixiang_list

        卦由爻組成,根據(jù)高維序列數(shù)據(jù)降維方法的思想,定義陽爻為1,陰爻為0。得到四象值后,將四象值與1和0進(jìn)行映射,數(shù)值6和8代表陰爻,7和9為陽爻,隨著時(shí)間窗口的不斷滑動(dòng),得到每只股票在每個(gè)季度點(diǎn)對(duì)應(yīng)的6個(gè)特征組成的6位0和1的序列,將此6位0和1的序列按照地人天的排序得到本卦。

        根據(jù)陽極必陰和陰極必陽的思想,此高維序列數(shù)據(jù)降維方法中存在變卦現(xiàn)象,當(dāng)一個(gè)卦象的6個(gè)爻中存在老陽爻和老陰爻時(shí)會(huì)發(fā)生變化,即老陽爻轉(zhuǎn)化而成的1會(huì)變成0,老陰爻則相反。最終根據(jù)本卦中存在的變爻形成變卦。

        2.5 高維序列數(shù)據(jù)降維方法的解卦算法

        定義高維序列數(shù)據(jù)降維方法中64個(gè)卦象對(duì)應(yīng)的類別以及每個(gè)卦象中每個(gè)爻對(duì)應(yīng)的類別。

        《易經(jīng)》有六十四卦及每個(gè)卦對(duì)應(yīng)的卦辭,三百八十四爻及每個(gè)爻對(duì)應(yīng)的爻辭,每個(gè)卦辭都與該卦的卦象緊密關(guān)聯(lián);每一卦的爻辭也都與其對(duì)應(yīng)的陰爻或陽爻在其卦中所處的位置有關(guān)系。在形成本卦和變卦之后需要對(duì)卦象進(jìn)行解卦,論文解卦方法由此高維序列數(shù)據(jù)降維方法中解卦思想抽象而來。

        提出的解卦算法的具體描述如算法3所示。

        算法3:解卦算法。

        輸入:本卦O(shè)rigi,變卦Changei,變量flagi=0,爻變個(gè)數(shù)YbNumi,64個(gè)卦象和卦辭映射字典Gua_dict以及384個(gè)爻和爻辭映射字典Yao_dict,Origi中的變爻StaY,Origi中處于高位的變爻Hp_StaY,Origi中處于低位的不變爻Lp_UstaY,Origi中的不變爻UstaY。

        輸出:本卦和變卦對(duì)應(yīng)的解卦結(jié)果列表resi。

        1.fork=0→5 do

        2. if Origi[k]!=Changei[k]

        3. flagi=1,YbNumi=YbNumi+1

        4. end if

        5. end for

        6. if flagi=0

        7. resi=Gua_dicti[Origi]

        8. end if

        9. else

        10. if YbNumi=1

        11. resi=Yao_dict[StaY]

        12. else if YbNumi=2

        13. resi=Yao_dict[Hp_StaY]

        14. else if YbNumi=3

        15. resi=Gua_dict[Origi]

        16. else if YbNumi=4

        17. resi=Yao_dict[Lp_UstaY]

        18. else if YbNumi=5

        19. resi=Yao_dict[UstaY]

        20. else

        21. resi=Gua_dict[Changei]

        22. end if

        23. return resi

        地人天內(nèi)部的爻位排序不確定,需要分別在地人天對(duì)應(yīng)的兩個(gè)爻進(jìn)行排列,共2*2*2=8種排列組合。訓(xùn)練模型,每次選擇8種排列中的1種六位序列,將對(duì)應(yīng)的卦的解卦結(jié)果作為預(yù)測(cè)值,與真實(shí)標(biāo)簽值做比較,得到每種排列下的準(zhǔn)確率和F1值,通過8種情況下的比對(duì)結(jié)果,找到F1值最高的那種排序作為最后排序進(jìn)而構(gòu)建出最后的宏觀預(yù)測(cè)模型。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)所使用的證券數(shù)據(jù)是網(wǎng)易財(cái)經(jīng)網(wǎng)站上爬取的3 000只股票2010年3月至2020年3月這10年內(nèi)的歷史交易數(shù)據(jù)集。該數(shù)據(jù)集包含如下兩部分:(1)財(cái)務(wù)數(shù)據(jù)集;(2)資金流向數(shù)據(jù)集。其中財(cái)務(wù)數(shù)據(jù)集是以季度為單位的數(shù)據(jù)集,記錄了每個(gè)季度的公司凈利潤率、負(fù)債率等反映公司業(yè)績的數(shù)據(jù),資金流向數(shù)據(jù)集是以天為單位的數(shù)據(jù),記錄了每天的公司開盤價(jià)、收盤價(jià)、換手率等資金流向的數(shù)據(jù)。所有的股票分為10個(gè)行業(yè)。實(shí)驗(yàn)根據(jù)近一個(gè)季度的歷史數(shù)據(jù)來預(yù)測(cè)未來一年內(nèi)的發(fā)展趨勢(shì)。

        論文使用的主要參數(shù)有時(shí)間滑動(dòng)窗口win_len,由于論文所述的高維序列數(shù)據(jù)降維方法中四象的分布比例為1∶3∶3∶1,所以此處將win_len 設(shè)置為 8。

        3.2 評(píng)價(jià)指標(biāo)

        論文研究的分類問題常用的評(píng)價(jià)指標(biāo)包括結(jié)果的精確率(Precision)、召回率(Recall)和F1值。

        精確率P指所有預(yù)測(cè)正確的數(shù)量占總量的比例,計(jì)算公式如下:

        (7)

        召回率R指正確預(yù)測(cè)為正的占全部實(shí)際為正的比例,計(jì)算公式如下:

        (8)

        F1值是一個(gè)綜合了P和R的指標(biāo),是基于P和R的加權(quán)調(diào)和平均,計(jì)算公式如下:

        (9)

        其中,TP表示被模型預(yù)測(cè)為正類的正樣本,FP表示被模型預(yù)測(cè)為正類的負(fù)樣本,FN表示被模型預(yù)測(cè)為負(fù)類的正樣本。使用F1值來評(píng)價(jià)分類器性能時(shí),其值越高,說明分類器的性能越好。

        3.3 實(shí)驗(yàn)結(jié)果

        為驗(yàn)證模型的優(yōu)越性,主要進(jìn)行了兩組對(duì)比實(shí)驗(yàn),第一組是未分行業(yè)模型的各評(píng)價(jià)指標(biāo)與其他算法進(jìn)行對(duì)比驗(yàn)證本模型的優(yōu)越性。以下介紹對(duì)比模型的輸入和輸出。

        SVM:輸入數(shù)據(jù)為易經(jīng)模型選取的6個(gè)特征對(duì)應(yīng)的數(shù)據(jù)。輸出是分類的準(zhǔn)確率、召回率和F1值。

        XGBoost:輸入數(shù)據(jù)為易經(jīng)模型從原始特征中選取的6個(gè)特征對(duì)應(yīng)的每個(gè)季度的數(shù)據(jù)。輸出是分類的準(zhǔn)確率、召回率和F1值。

        RF:輸入為易經(jīng)模型從原始特征中選取的6個(gè)特征對(duì)應(yīng)的每個(gè)季度的數(shù)據(jù)。輸出是分類的準(zhǔn)確率、召回率和F1值。

        KNN:輸入數(shù)據(jù)為易經(jīng)模型從原始特征中選取的6個(gè)特征對(duì)應(yīng)的每個(gè)季度的數(shù)據(jù)。輸出是分類的準(zhǔn)確率、召回率和F1值。

        GRU:序列數(shù)據(jù)通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)建模,由于GRU參數(shù)少、速度快,能在一定程度上避免出現(xiàn)過擬合,因此本實(shí)驗(yàn)采用其作為對(duì)比模型。輸入數(shù)據(jù)與機(jī)器學(xué)習(xí)算法一致。

        Lstm-Att:在LSTM基礎(chǔ)上加入Attention機(jī)制,對(duì)于重要特征基于更高權(quán)重。輸入數(shù)據(jù)與機(jī)器學(xué)習(xí)算法一致。

        第二組是分行業(yè)建模后本模型與其他模型的對(duì)比以及與未分行業(yè)的結(jié)果對(duì)比。結(jié)果如表1所示。

        表1 各模型股票預(yù)測(cè)的性能對(duì)比

        從表1中可以看出,在本數(shù)據(jù)集中,論文提出的方法要優(yōu)于其他算法。在傳統(tǒng)的機(jī)器學(xué)習(xí)算法中,XGBoost和隨機(jī)森林算法的F1要稍優(yōu)于SVM和KNN算法。KNN算法的準(zhǔn)確率要優(yōu)于其他三個(gè)機(jī)器學(xué)習(xí)算法。兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)模型的效果要優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,表明在證券數(shù)據(jù)此種序列數(shù)據(jù)上循環(huán)神經(jīng)網(wǎng)絡(luò)效果較好。原因在于循環(huán)神經(jīng)網(wǎng)絡(luò)能夠捕捉到不同時(shí)刻數(shù)據(jù)之間的依賴信息,能夠提取到上一時(shí)刻的重要信息,因此GRU和Lstm-Att模型效果好于傳統(tǒng)的機(jī)器學(xué)習(xí),除此之外,Lstm-Att模型的F1值稍高于GRU,因?yàn)樵诩尤階ttention機(jī)制后,模型能夠加權(quán)學(xué)習(xí),對(duì)于重要信息給予更大權(quán)重,從而提高預(yù)測(cè)效果。

        論文提出的基于易經(jīng)的宏觀預(yù)測(cè)方法在3 000只股票數(shù)據(jù)集上除recall外各評(píng)價(jià)指標(biāo)都要高于其他方法,P值比SVM高20百分點(diǎn),比RF高19百分點(diǎn),比KNN高13.4百分點(diǎn),論文提出方法的F1值均高于其他模型且本模型各評(píng)價(jià)指標(biāo)之間相差較小,相對(duì)SVM、XGBoost和RF模型各指標(biāo)要更加穩(wěn)定。

        因此,基于高維序列數(shù)據(jù)降維方法和數(shù)據(jù)挖掘技術(shù)的證券預(yù)測(cè)模型的效果要好于其他算法。在宏觀預(yù)測(cè)方面,本模型比傳統(tǒng)的機(jī)器學(xué)習(xí)方法效果更好,主要在于高維序列數(shù)據(jù)降維方法能夠根據(jù)每個(gè)公司不同的經(jīng)營狀況以及市場流動(dòng)性進(jìn)行降維并選取不同的指標(biāo)作為基礎(chǔ)來進(jìn)行預(yù)測(cè),能夠很好地適應(yīng)證券市場的變化,因此在預(yù)測(cè)未來發(fā)展趨勢(shì)方面有很大優(yōu)勢(shì)。

        由于不同行業(yè)的公司發(fā)展速度和行業(yè)規(guī)律不同,接下來將分行業(yè)建模,驗(yàn)證分行業(yè)后的模型和不分行業(yè)的模型的性能對(duì)比。結(jié)果如表2和表3所示。

        從表2可以看出,在分行業(yè)建模后,大多數(shù)行業(yè)的P值都比總體建模的P值高,且每個(gè)行業(yè)P值的提升幅度不穩(wěn)定,比如提升幅度較低的行業(yè)如化學(xué)制品行業(yè)的P值比總體的P值高4.7百分點(diǎn),提升較高的行業(yè)如交通物流行業(yè)比總體的P值高13.4百分點(diǎn),最高的如水電燃?xì)庑袠I(yè)P為84.56,比總體建模F1高了將近20百分點(diǎn)。另外,從表中還可看出,9個(gè)行業(yè)中有7

        表2 本模型分行業(yè)和總體建模的實(shí)驗(yàn)結(jié)果

        個(gè)行業(yè)的各評(píng)價(jià)標(biāo)準(zhǔn)都比總體建模高,只有兩個(gè)行業(yè):專用設(shè)備制造行業(yè)和通信設(shè)備行業(yè)的效果比總體建模效果差。從表3中可得出,提出的模型的F1值要優(yōu)于其他對(duì)比模型。

        分析表2和表3的數(shù)據(jù)可得出如下結(jié)論:每個(gè)行業(yè)的行業(yè)規(guī)律和特點(diǎn)是不同的,而高維序列數(shù)據(jù)降維方法能夠根據(jù)每個(gè)行業(yè)不同的特點(diǎn)選取對(duì)該行業(yè)重要的指標(biāo)作為構(gòu)建易經(jīng)卦象的爻,因此得到的卦象結(jié)果也就更加準(zhǔn)確。而有兩個(gè)行業(yè)效果差于總體建模的原因則是因?yàn)閰?shù)win_len設(shè)置的值不是最優(yōu)值,因?yàn)樾畔⒓夹g(shù)行業(yè)發(fā)展速度較快,在短短幾個(gè)月內(nèi)該行業(yè)的發(fā)展情況就會(huì)有大變化,并且作為現(xiàn)在備受關(guān)注的行業(yè),會(huì)受到國家政策和新聞導(dǎo)向等更多不確定的宏觀因素影響,因此在預(yù)測(cè)該行業(yè)幾個(gè)月后的發(fā)展趨勢(shì)時(shí)不確定性高,導(dǎo)致最終的預(yù)測(cè)準(zhǔn)確率較低。

        圖2、圖4直觀地顯示了表1和分行業(yè)后各模型對(duì)于不同行業(yè)的F1值的實(shí)驗(yàn)對(duì)比結(jié)果,圖3顯示了本模型在整體建模下模型預(yù)測(cè)時(shí)長與模型預(yù)測(cè)準(zhǔn)確率的變化關(guān)系。

        圖4 各行業(yè)實(shí)驗(yàn)結(jié)果F1值對(duì)比

        從圖2中可看出,論文所提出模型的效果明顯優(yōu)于所列出的其他傳統(tǒng)機(jī)器學(xué)習(xí)算法,精確率和F1值比其他算法均高。因此,論文提出的算法在證券市場宏觀預(yù)測(cè)上表現(xiàn)出了較好的效果,除此之外,從圖3中可看出,論文提出的模型在整體建模下,模型預(yù)測(cè)時(shí)長在一年內(nèi)隨著時(shí)長的增加準(zhǔn)確率不斷提升,當(dāng)預(yù)測(cè)時(shí)長為12個(gè)月即一年時(shí),準(zhǔn)確率不再提升,模型收斂,此時(shí)預(yù)測(cè)準(zhǔn)確率最高為62%。

        圖2 各模型預(yù)測(cè)結(jié)果的性能對(duì)比 圖3 不同預(yù)測(cè)時(shí)長的準(zhǔn)確率

        從圖4中可看出,論文提出的模型在分行業(yè)后大多數(shù)行業(yè)預(yù)測(cè)的F1值均大于未分行業(yè)時(shí)的性能,然而其他機(jī)器學(xué)習(xí)算法則不然,大部分行業(yè)與總體建模時(shí)的指標(biāo)結(jié)果相比無明顯提高。因此本模型對(duì)于不同行業(yè)的證券的宏觀調(diào)控具有很好的指導(dǎo)性和實(shí)用性。

        4 結(jié)束語

        此高維序列數(shù)據(jù)降維方法中的六十四卦的理論在股市技術(shù)分析中雖已有不少的體現(xiàn),但都沒有結(jié)合大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)對(duì)股票各方面的經(jīng)濟(jì)指標(biāo)進(jìn)行分析和建模。論文結(jié)合機(jī)器學(xué)習(xí)算法針對(duì)股票數(shù)據(jù)構(gòu)建了一套基于高維序列數(shù)據(jù)降維方法的宏觀預(yù)測(cè)模型,該模型將陰陽、四象、爻、卦象等概念進(jìn)行提取和抽象,首先根據(jù)天地人思想并結(jié)合機(jī)器學(xué)習(xí)算法篩選得到6個(gè)特征,之后使用動(dòng)態(tài)滑動(dòng)窗口計(jì)算得到四象值,然后根據(jù)四象值得到本卦和變卦,最后結(jié)合本卦和變卦得到解卦值并與標(biāo)簽進(jìn)行對(duì)比,從而得到最終的預(yù)測(cè)結(jié)果。實(shí)驗(yàn)表明,本模型比SVM、XGBoost、RF、KNN、GRU和Lstm-Att等模型效果更好。另外,由于不同的行業(yè)其發(fā)展周期和指標(biāo)的重要性不同,因此論文還對(duì)股票數(shù)據(jù)進(jìn)行分行業(yè)建模,實(shí)驗(yàn)證明,論文提出的模型在分行業(yè)建模后的效果比總體建模效果好。

        但是,論文提出的模型中也存在一些問題:(1)論文在形成四象值時(shí)采用的動(dòng)態(tài)時(shí)間窗口大小是固定的,然而不同行業(yè)的公司有不同的發(fā)展周期,因此在形成四象值時(shí),應(yīng)該采取不同的時(shí)間窗口大小;(2)論文沒有使用證券新聞等文本數(shù)據(jù),現(xiàn)實(shí)中,新聞信息能側(cè)面看出證券公司的經(jīng)營狀況以及公司和國家出臺(tái)的經(jīng)濟(jì)政策,而這些信息對(duì)于證券的未來發(fā)展趨勢(shì)具有一定的影響;(3)論文只研究了證券未來漲跌趨勢(shì),而沒有研究證券未來漲跌的原因。因此,下一步的研究方向在于:針對(duì)不同的行業(yè)采取的時(shí)間窗口大小應(yīng)設(shè)置不同的值;使用文本數(shù)據(jù)作為預(yù)測(cè)的輔助工具;當(dāng)預(yù)測(cè)到證券未來發(fā)展情況不利時(shí),要能根據(jù)模型判斷出導(dǎo)致證券發(fā)展不利的原因,并根據(jù)原因指導(dǎo)公司調(diào)整經(jīng)營策略,避免危機(jī),從而使本模型達(dá)到診斷和預(yù)警的作用。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲不卡av一区二区三区四区 | 又黄又刺激的网站久久| 欧美私人情侣网站| 99国产精品99久久久久久| 国产一区二区精品网站看黄| 一区二区三区四区亚洲免费| 国产成人无码av| 精品少妇人妻av免费久久久| 亚洲aⅴ在线无码播放毛片一线天 中国国语毛片免费观看视频 | 国产成人综合久久三区北岛玲| 亚洲日本中文字幕乱码在线| 一本精品99久久精品77| 国产一在线精品一区在线观看| 熟女白浆精品一区二区| 少妇又色又爽又高潮在线看| 97丨九色丨国产人妻熟女| 国产精品沙发午睡系列990531| 久久精品国产亚洲5555| 久久开心婷婷综合中文| 综合五月激情二区视频| 国产乱人伦偷精品视频| 无码人妻专区一区二区三区| 中文字幕一区二区在线| 久久无码高潮喷水抽搐| 野花社区视频www官网| 国产成人亚洲欧美三区综合| 亚洲av熟女传媒国产一区二区| 国产乱对白刺激视频| 国产免费人成视频在线观看| 亚洲小说图区综合在线| 亚洲小少妇一区二区三区| 内射人妻无套中出无码| 中文无码制服丝袜人妻av| 久久久久亚洲AV无码去区首| 日本高清一区二区三区在线观看| 欧美亚洲色综久久精品国产| 国产在线无码免费视频2021| 亚洲日本中文字幕乱码| 国产人成无码视频在线观看| 中文字幕欧美一区| 一个人看的在线播放视频|