亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        C4.5算法在期貨價格預測中的應用

        2016-08-17 08:51:53陳磊何國輝五邑大學計算機學院廣東江門529020
        五邑大學學報(自然科學版) 2016年3期
        關鍵詞:數據挖掘模型

        陳磊,何國輝(五邑大學 計算機學院,廣東 江門 529020)

        C4.5算法在期貨價格預測中的應用

        陳磊,何國輝
        (五邑大學 計算機學院,廣東 江門 529020)

        期貨價格預測對投資者進行理性投資和規(guī)避投資風險具有重要指導作用,為了獲得較好的預測效果,本文通過應用C4.5決策樹算法對相關期貨數據進行訓練,并通過建立決策樹模型進行價格預測.實驗表明所建立的預測模型能有效預測期貨行情,具有一定的參考和應用價值.

        C4.5算法;決策樹;期貨預測

        隨著大數據時代的到來,數據挖掘技術開始在各行業(yè)得到廣泛應用.把數據挖掘技術應用到期貨預測中,對投資者分析期貨行情、規(guī)避投資風險、進行套期保值等具有重要意義[1-2].鑒于決策樹方法可以生成便于理解的規(guī)則等優(yōu)點,本文選擇C4.5算法進行期貨預測.與ID3等算法相比,C4.5算法能夠直接處理期貨連續(xù)屬性;其次,通過剪枝操作,C4.5算法較ID3等算法具有更高的執(zhí)行速度,在大量期貨數據的環(huán)境下,能夠縮短預測時間.

        1 期貨數據的特征分析與C4.5算法的選取

        1.1 期貨數據的特征

        期貨數據主要有以下特征:

        1)模糊性.期貨數據的模糊性特征是指影響期貨價格的因素十分復雜,具有不確定性.如期貨數據受供求關系、經濟周期、政治政策、投機心理等諸多因素影響.

        2)數據量大.期貨數據是一種時序數據,其數據量隨時間推移而不斷增加,平均每幾秒鐘就產生一次臨時數據,積累下來的數據量相當龐大.

        3)連續(xù)性.許多期貨數據取值往往都是變動的數字,具有連續(xù)性的特征.

        1.2 C4.5算法

        C4.5算法是一種常用的數據挖掘方法,它采用信息增益率作為屬性選擇標準.即,算法首先選取具有最大信息增益率的屬性作為分裂的根節(jié)點,再逐步迭代生成其他樹節(jié)點,直至生成整棵決策樹.

        C4.5算法的優(yōu)點:1)對訓練數據要求不嚴格[3],相比其他算法,不需要擔心離群點和數據是否線性可分,即使期貨歷史數據具有模糊性特征,也能通過大量的歷史數據訓練生成預測模型;2)執(zhí)行速度快[4],能應對數據量巨大帶來的挑戰(zhàn),且無需相關應用領域的專業(yè)知識,生成的規(guī)則易于表達和理解;3)C4.5算法能夠直接處理連續(xù)型數據.

        2 數據預處理

        如表1所示,期貨原始數據項主要包括合約種類、開盤價、收盤價、最高價、最低價、漲跌1、結算價、漲跌2、交易日期、持倉量、成交量等屬性.使用C4.5算法進行期貨數據挖掘,必須先對原始數據進行預處理.期貨數據的預處理過程包括屬性選擇和屬性規(guī)約兩個步驟.

        表1 原始數據格式

        2.1 屬性選擇

        由于合約種類對同種期貨取值都相同,對訓練無參考價值,故可刪去;開盤價和收盤價為交易日第一筆交易和最后一筆交易的價格,由于主觀性太大且存在故意操縱,也不具有挖掘價值;最高價和最低價雖能看出當日期貨峰值,但期貨數據波動太快,處于峰值的點通常是極少數,對整體走勢的影響甚微,故不予考慮;同樣,漲跌1是由收盤價計算得出的,取值為收盤價減去前結算價,而因為收盤價的主觀性大,故漲跌1也應刪除.漲跌2為結算價減去前結算價,由于結算價取自最后交易時間段內的平均交易價格,能較好反應市場行情,可信度大,故選取結算價和漲跌2作為訓練屬性;交易日期、持倉量和成交量均是反映市場動態(tài)最有價值的數據[5-6],也應保留.故選擇建表的數據項包括交易日期、結算價、漲跌2、成交量、持倉量,其中日期屬性為參考屬性,不參與決策樹的訓練.

        2.2 屬性規(guī)約

        為表征未來期貨數據的走勢,引入走勢屬性,它是決策樹的類別屬性,分為3部分:前綴、主體和后綴.前綴為下期漲跌,主體為下期結算價區(qū)間,后綴為期貨種類.有關約定如下:

        約定1:前綴的約定.設期貨下一交易日的漲跌2屬性為p,當 p ∈ [ 40, + ∞ ),前綴約定為A;當 p ∈ [ 10, 40 ),約定為B;當 p ∈(- 10,10),約定為C;當 p ∈(-4 0,- 1 0],約定為D;當 p ∈(- ∞,- 4 0],約定為E.

        約定2:主體的約定.主體部分約定為取四位結算價的前兩位,如結算價不足四位的,前面用零填充后自動補齊到四位.如下期結算價為3639,主體約定為36,表征的取值區(qū)間為[3600, 3 6 99);下期結算價為920,則先填零補齊到0920,再轉換為09,表征的取值區(qū)間為[900, 99 9 ).

        約定3:后綴的約定.分別約定雞蛋期貨、玉米期貨、豆粕期貨、金期貨、銀期貨、銅期貨、鋁期貨的后綴為E、C、M、J、Y、T、L.

        按照上述處理方式,表1數據規(guī)約后的格式如表2所示.

        表2 表1數據規(guī)約后的格式

        3 實驗分析

        實驗選取雞蛋期貨jd1601在2015年1到5月的數據預測6月的期貨走勢.具體過程是:首先選取jd1601在1到5月的期貨數據通過Weka[3]數據挖掘工具進行訓練,生成決策樹模型(見圖1),圖中葉子結點如“C40E(3.0/2.0)”表示有3個樣本數據被分到C40E類中,其中有2個是錯誤分類,圖中的非葉子結點jsj、zd2、cjl、ccl分別表示結算價、漲跌2、成交量、持倉量4個屬性.

        圖1 決策樹模型

        建立決策樹模型后,用該模型對6月的期貨數據進行預測,預測內容包括期貨價格的取值區(qū)間(走勢屬性的主體部分),和期貨的漲跌(走勢屬性的前綴).圖2-a和圖2-b分別對應價格取值區(qū)間預測和漲跌預測,在圖2-b中,價格漲跌的取值,分別按A、B、C、D、E取值為1、2、3、4、5,取值大于3的值位于圖2-b上方,小于則位于下方.

        圖2 預測結果

        從圖2-a中可以看出,在價格取值區(qū)間上,除了6月12日、17日、19日3天的期貨價格取值區(qū)間沒有準確預測外,其余18個交易日的均預測成功,預測準確率為85.7%(18/21).

        再觀察圖2-b,發(fā)現期貨漲跌預測有喜有憂,喜的是除了交易日6月19日外,所有上漲的交易日均被準確預測到,憂的是多數的下跌交易日沒有被預測到,這種現象可能與6月的雞蛋現貨市場環(huán)境有很大關系[7-8].

        4 結論

        本文從期貨數據特征的分析著手,選取C4.5算法對期貨價格進行預測,通過對期貨數據的預處理,構建決策樹模型,最終對期貨行情進行了有效預測,具有一定的應用價值和借鑒意義.下一步工作將考慮增加某些表征市場因素的訓練屬性到期貨預處理過程中,以進一步提高算法的預測能力.

        [1]陸瑤.辯證角度下金融時間序列數據挖掘研究——以期貨市場為例[J].中國管理信息化,2015,18(20):117.

        [2]鄒廣華.基于關聯規(guī)則的期貨交易信息數據挖掘[D].上海:上海海事大學,2005.

        [3]IAN H W,EIBE F,MARK A H.數據挖掘:實用機器學習工具與技術[M].李川,譯.北京:機械工業(yè)出版社,2014.

        [4]MEHMED K.數據挖掘—概念、模型、方法和算法[M].王曉海,吳志剛,譯.北京:清華大學出版社.2003: 121-125.

        [5]陳浩.股指期貨成交量、持倉量、波動率與價格關系探究及應用[J].中國證券期貨,2010(9):9-10.

        [6]馮夢黎,馬箐箐.我國燃油期貨市場成交量和持倉量對價格波動的影響研究[J].成都理工大學學報(社會科學版),2014,22(3):63-68.

        [7]李凱,張傳奇,馬俊宇,等.我國雞蛋期貨與現貨價格關系的實證研究[J].價格理論語實踐,2014(6):99-101.

        [8]祝青.國外貨幣市場部分期貨產品價格波動與成交量動態(tài)關系的實證分析[J].調研世界,2010(10):15-18.

        [責任編輯:韋 韜]

        Application of the C4.5 Algorithm in Futures Forecasting

        CHEN Lei,HE Guo-hui
        (School of Computer Science,Wuyi University,Jiangmen 529000,China)

        Futures price forecasting is important to guiding investors in rational investment and investment risk avoidance.In order to obtain better prediction effect,this paper uses the C4.5 decision tree algorithmto train relevant futures data and forecasts prices by constructing a decision tree model.Experimental results show that the prediction model can be used to forecast the futures market effectively.Therefore it is of certain reference and application value.

        C4.5 algorithm;decision tree;futures forecasting

        TP391

        A

        1006-7302(2016)03-0067-04

        2016-03-02

        廣東省自然科學基金資助項目(S2013010013311);廣東省特色創(chuàng)新類資助項目(2015KTSCX145)

        陳磊(1991—),男,廣東江門人,在讀碩士生,研究方向為數據挖掘與機器學習;何國輝,教授,碩士生導師,通信作者,研究方向為數據倉庫與數據挖掘、大數據技術.

        猜你喜歡
        數據挖掘模型
        一半模型
        探討人工智能與數據挖掘發(fā)展趨勢
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        基于并行計算的大數據挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數據挖掘技術在中醫(yī)診療數據分析中的應用
        3D打印中的模型分割與打包
        一種基于Hadoop的大數據挖掘云服務及應用
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        數據挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        亚洲一区二区三区毛片| 内射交换多p国产| 亚洲午夜成人片| 亚洲精品一区二区三区国产| 日本在线观看不卡一区二区| 午夜免费视频| 免费国精产品自偷自偷免费看| 欧美日韩国产在线成人网| 午夜一区二区三区免费观看| 亚洲av永久无码精品网站| 东北妇女肥胖bbwbbwbbw| 国产精品爆乳在线播放| 国产精品厕所| 国产高清一级毛片在线看| 视频区一区二在线观看| 中文有码人妻字幕在线| 无码人妻精品一区二区蜜桃网站| 久久夜色撩人精品国产小说| 亚洲无码啊啊啊免费体验| 中文字幕一区二区av| 亚洲va国产va天堂va久久| 国产欧美日韩在线观看| 青青手机在线视频观看| 亚洲精品国产成人久久av| 黑森林福利视频导航| 99久久综合精品五月天| 成人全视频在线观看免费播放| 国产白浆一区二区三区性色| 亚洲精品无码成人a片| 91亚洲国产三上悠亚在线播放| 人妻体体内射精一区中文字幕| 特级做a爰片毛片免费看| 久久丫精品国产亚洲av| 国内精品视频成人一区二区| 亚洲精品久久蜜桃av| 久久无码av一区二区三区| 91在线在线啪永久地址| 最新国产一区二区三区| 亚洲国产精品久久艾草| 日韩精品无码一区二区三区视频| 激,情四虎欧美视频图片|