亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林的LPG價格預(yù)測方法

        2019-11-06 03:03:22
        關(guān)鍵詞:特征模型

        1.中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心,北京 100190

        2.中國科學(xué)院大學(xué),北京 100049

        引言

        目前我國沿海發(fā)達(dá)地區(qū)液化氣需求旺盛,國內(nèi)資源供不應(yīng)求,液化氣進(jìn)出口貿(mào)易活躍,市場競爭激烈。對于各個液化氣公司來說,在自有大型存儲庫建成前,無法對市場價格進(jìn)行有效預(yù)判成為業(yè)務(wù)突破的一大瓶頸,僅靠認(rèn)為經(jīng)驗,缺乏信息支撐,液化氣進(jìn)口貿(mào)易金額巨大,判斷失誤將造成巨額損失,操作風(fēng)險極大。同時液化氣價格,特別是進(jìn)口氣價格,涉及國內(nèi)外原油市場、物流運(yùn)輸、地緣政治等眾多影響因素,能夠第一時間獲取相關(guān)信息并進(jìn)行分析處理,最終通過運(yùn)算預(yù)測價格,顯得尤為關(guān)鍵。雖然很多公司借助行業(yè)網(wǎng)站開展對國外貨源、國際船舶、國內(nèi)市場等信息進(jìn)行跟蹤收集,人為預(yù)測價格,但信息渠道缺乏集成管理,來源分散,過程繁瑣,導(dǎo)致信息缺乏時效性,在經(jīng)營決策中所起的作用相對有限。綜上所訴,目前急需開發(fā)一套液化氣價格預(yù)測分析系統(tǒng),通過收集影響價格變動的主要因素,建立價格預(yù)測模型,實(shí)現(xiàn)價格預(yù)測,為經(jīng)營管理提供信息化保障和支撐,進(jìn)而促進(jìn)進(jìn)口氣業(yè)務(wù)良好可持續(xù)發(fā)展。

        現(xiàn)在有很多方法被用來預(yù)測石油價格,石油價格預(yù)測主要采用機(jī)器學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)和時間序列模型三種技術(shù),分別或多種組合進(jìn)行預(yù)測。Neha Sehgal和Krishan K.Pandey 在2014年提出了一種方法,包括兩個階段,稱為MI3 算法。該算法被用來確定影響油價的參數(shù),結(jié)果證實(shí)該算法采用級聯(lián)神經(jīng)網(wǎng)絡(luò),多層感知神經(jīng)網(wǎng)絡(luò)和一般回歸神經(jīng)網(wǎng)絡(luò)用于預(yù)測,取得了與其他傳統(tǒng)方法相比更好的效果[1]。2013年,申玄俊等人采用半監(jiān)督學(xué)習(xí)方法研究經(jīng)濟(jì)因素對石油價格的影響,并利用該方法研究了價格走勢的變化算法[2]。Hassan Mohammadi and Lixian Su 用多種 ARIMAGARCH 模型預(yù)測從 1996年1月到2009年10月世界范圍內(nèi)的一些石油市場的每周的石油價格,結(jié)果顯示 ARIMA-GARCH 模型與其它方法對比有更好地效果[3]。I.Haider,S.Kulkarni and H.Pan 提出了一個前饋式人工神經(jīng)網(wǎng)絡(luò),由三層網(wǎng)絡(luò)組成,用于短期預(yù)測石油價格。結(jié)果顯示即使是含有非線性或噪聲的數(shù)據(jù),其精度也達(dá)到了很高的水平[4]。Edmundo G.de Souza e Silva 等人研究了使用非線性時間序列模型來預(yù)測未來石油價格的波動。他們利用隱馬爾可夫模型(HMM)發(fā)展了一套新的預(yù)測方法,用來作為一種分析影響石油的因素的輔助決策機(jī)制[5]。

        近年來,機(jī)器學(xué)習(xí)算法不斷被應(yīng)用在銀行、股市、醫(yī)療、電子商務(wù)等諸多領(lǐng)域[6,7,8,9],并取得了顯著的效果。在眾多機(jī)器學(xué)習(xí)模型中,隨機(jī)森林(RandomForest)[10]的表現(xiàn)尤其突出,迅速成為多種分類回歸任務(wù)中最流行的框架之一。隨機(jī)森林算法基于決策樹算法,決策樹算法計算量小,速度快,并且具有很強(qiáng)的可解釋性,比較適合處理有數(shù)據(jù)不完整的樣本,它能夠處理不相關(guān)的特征,擅長對人,地點(diǎn),事物的一系列不同特征和性質(zhì)進(jìn)行評估。隨機(jī)森林算法就是構(gòu)建多顆決策樹,由于在每次劃分時只考慮一部分的屬性,因此它在大型數(shù)據(jù)庫上非常有效,隨機(jī)森林算法還給出了變量重要性的內(nèi)在評估,對于不平衡樣本分類可以平衡誤差,可以計算各實(shí)例的親近度,對于數(shù)據(jù)挖掘,檢測離群點(diǎn)和數(shù)據(jù)可視化非常有用,但它在某些噪音較大的數(shù)據(jù)時可能會出現(xiàn)過擬合?;陔S機(jī)森林的種種特點(diǎn)和在價格預(yù)測方面的良好表現(xiàn),本文選擇基于隨機(jī)森林模型進(jìn)行液化氣價格的預(yù)測,最終結(jié)果達(dá)到良好的準(zhǔn)確度和實(shí)時性,能夠幫助液化氣公司進(jìn)行自我管理,提高其液化氣盈利水平。

        1 LPG價格預(yù)測框架

        1.1 問題定義

        LPG價格預(yù)測主要是借助人工智能技術(shù)選擇符合LPG行業(yè)特點(diǎn)的預(yù)測模型,根據(jù)影響 LPG價格形成的數(shù)據(jù)之間存在的本質(zhì)關(guān)聯(lián),進(jìn)行數(shù)據(jù)擬合,模型訓(xùn)練,模型學(xué)習(xí),最終提供 7天、10天、15天等不等周期的價格預(yù)測。

        1.2 隨機(jī)森林模型

        決策樹是一個樹結(jié)構(gòu)(其可以是一個二叉樹或非叉樹)。它的每個非葉節(jié)點(diǎn)表示數(shù)據(jù)的一個特征屬性的劃分。每個分支表示特征屬性在一定范圍的值的輸出,并且每個葉節(jié)點(diǎn)存儲類別或輸出值。使用決策樹決策過程是從根節(jié)點(diǎn)開始,測試在輸入數(shù)據(jù)中的對應(yīng)特征的屬性,并根據(jù)它們的值選擇輸出分支,直到葉節(jié)點(diǎn)到達(dá),并存儲最后的類別或值在葉節(jié)點(diǎn)被用作判定結(jié)果。

        隨機(jī)森林,顧名思義,是以隨機(jī)的方式建立的森林。森林是由許多決策樹組成的。隨機(jī)森林的每個決策樹之間沒有相關(guān)性。隨機(jī)森林形成后,當(dāng)一個新的輸入采樣輸入時,讓林中每個決策樹進(jìn)行單獨(dú)判斷。對于分類模型,其類別被選擇最多的一類,就是預(yù)測所述樣品的類別;對于回歸模型,預(yù)測結(jié)果取所有決策樹預(yù)測的結(jié)果的平均值。圖1為隨機(jī)森林模型圖。LPG價格預(yù)測的研究屬于回歸預(yù)測問題,隨機(jī)森林回歸的基本思想是:首先利用自助抽樣法,每次都有放回地從原始數(shù)據(jù)集中抽取與原始數(shù)據(jù)集數(shù)量相等的樣本,一共抽取 B個樣本集;然后對 B個樣本集分別構(gòu)建 B 棵樹,得到B個結(jié)果;最后,對這 B個結(jié)果取平均值得到最終的預(yù)測結(jié)果。

        由上述隨機(jī)森林算法可得,隨機(jī)森林的隨機(jī)性主要體現(xiàn)在如下兩方面:(1)bootstrap 抽樣產(chǎn)生的樣本隨機(jī)性。關(guān)于LPG價格數(shù)據(jù),通過 bootstrap 抽樣,假設(shè)我們得到500個訓(xùn)練集,每個訓(xùn)練集中將近 37%的數(shù)據(jù)不會出現(xiàn),訓(xùn)練集之間兩兩差異很大,由此對數(shù)據(jù)進(jìn)行了充分利用;(2)在每個訓(xùn)練集上選擇特征的隨機(jī)性。在每個訓(xùn)練集上每一步進(jìn)行特征選擇時,不同于bagging 選取所有變量的方法,隨機(jī)森林會根據(jù)變量的個數(shù)確定選擇幾個特征。本項目關(guān)于LPG價格數(shù)據(jù)的46個變量中,每一棵樹生成時每一步劃分我們選擇了 7個變量,這 7個變量根據(jù)最小均方差計算確定最優(yōu)的劃分變量,生成不剪枝的決策樹,依次生成一系列不剪枝決策樹,相對于bagging 方法,通過這樣的特征選取進(jìn)一步提高了數(shù)據(jù)的利用率,從而提高了預(yù)測精度。由這兩點(diǎn)的隨機(jī)性決定著隨機(jī)森林的預(yù)測效果。

        圖1 隨機(jī)森林模型圖Fig.1 Random forest model chart

        1.3 特征工程

        與 LPG價格相關(guān)的特征項一共分為國際指標(biāo),競爭對手?jǐn)?shù)據(jù)和自身歷史數(shù)據(jù)三類。其中國際指標(biāo)又分為原油價格,cp 指數(shù),進(jìn)口其成本,現(xiàn)貨價格,交易貼水,運(yùn)費(fèi)共 20 項,競爭對手?jǐn)?shù)據(jù)有 17 項,自身歷史數(shù)據(jù)選取當(dāng)天和前一周的數(shù)據(jù)共 8 項,再加上時間序列一共是 46個輸入特征項。表1 展示了所有特征項。

        表1 所有輸入特征項Table1 All input characteristics

        為了更好地學(xué)習(xí)這些特征與 LPG價格之間的關(guān)系,將國際指標(biāo),競爭對手?jǐn)?shù)據(jù)和自身歷史數(shù)據(jù)三組特征數(shù)據(jù)分別作為輸入特征輸入到模型進(jìn)行訓(xùn)練,再將所有特征數(shù)據(jù)輸入到模型進(jìn)行訓(xùn)練,通過比較得到的四組測試結(jié)果來系統(tǒng)地分析這些特征對 LPG價格的影響和關(guān)聯(lián)度。

        1.4 基于隨機(jī)森林的LPG價格預(yù)測

        首先輸入樣本數(shù)據(jù)集,再進(jìn)行數(shù)據(jù)預(yù)處理,將缺失的特征值數(shù)據(jù)填充為0;應(yīng)用 bootstrap 法有放回地隨機(jī)抽取 200個新的樣本集(bootstrap 每次有放回地抽取與原始數(shù)據(jù)集等量的數(shù)據(jù)作為樣本集,樣本集中存在重復(fù)數(shù)據(jù)),并由此構(gòu)建 200 棵決策樹,每次未被抽到的樣本組成了 k個袋外數(shù)據(jù)(袋外數(shù)據(jù)用作驗證集);樣本中有 M個特征變量,在每一棵樹的每個節(jié)點(diǎn)處隨機(jī)抽取個變量,然后在個特征中通過最小均方差計算(最小均方差:對于任意劃分特征 A,對應(yīng)的任意劃分點(diǎn) s 兩邊劃分成的數(shù)據(jù)集D1和D2,求出使D1和D2各自集合的均方差最小,同時D1和D2的均方差之和最小所對應(yīng)的特征和特征值劃分點(diǎn))確定一個合適的變量,得到相應(yīng)的分割;每個樹生長到最大,而沒有任何修整,重復(fù)上述步驟,直到最后產(chǎn)生 200個決策樹;200個決策樹組成隨機(jī)森林后,新的數(shù)據(jù)輸入由隨機(jī)森林進(jìn)行預(yù)測,最終的預(yù)測值取所有的決策樹的平均預(yù)測值。

        2 實(shí)驗數(shù)據(jù)

        本實(shí)驗的實(shí)驗數(shù)據(jù)來源于金聯(lián)創(chuàng)提供的2016年1月- 2019年2月的數(shù)據(jù)(單位是美元),共 1147條。其中,前 1000條數(shù)據(jù)劃分為訓(xùn)練集,剩下的147條數(shù)據(jù)劃分為測試集。

        數(shù)據(jù)中的原油價格,進(jìn)口氣成本,現(xiàn)貨價格,交易貼水和運(yùn)費(fèi)是每周一到周五更新;cp 指數(shù)是月初更新;競爭對手的數(shù)據(jù)是每日更新。缺失的數(shù)據(jù)用零填充。

        3 實(shí)驗結(jié)果與分析

        3.1 評價指標(biāo)

        在本研究中,采用 MAE(平均絕對誤差)作為驗證指標(biāo),具體的定義如下:

        平均絕對誤差 MAE 是絕對誤差的平均值,在回歸模型中,平均絕對誤差能更好地反應(yīng)預(yù)測值誤差的實(shí)際數(shù)量情況。

        在本實(shí)驗中,通過預(yù)測價格和實(shí)際價格的平均絕對誤差可以直觀地看到模型的預(yù)測效果,從而判斷結(jié)果是否達(dá)到預(yù)期,也為特征的選取提供了依據(jù)。

        3.2 實(shí)驗結(jié)果

        表2和圖2-5 展示了輸入四種類型的特征進(jìn)入隨機(jī)森林模型進(jìn)行訓(xùn)練得到的結(jié)果,可以看出,輸入所有指標(biāo)數(shù)據(jù),輸入競爭對手?jǐn)?shù)據(jù)和輸入歷史數(shù)據(jù)作為輸入特征項得到的預(yù)測結(jié)果基本相同,都是隨著預(yù)測天數(shù)的增加平均絕對誤差也越來越大,但在前七天還是達(dá)到了不錯的預(yù)測效果。相反,輸入國際指標(biāo)作為輸入特征項訓(xùn)練模型得到的預(yù)測結(jié)果則隨著預(yù)測天數(shù)的增加平均絕對誤差反而在減小,直到穩(wěn)定在230左右,而且在七天之后的預(yù)測結(jié)果優(yōu)于其它三種。說明競爭對手的數(shù)據(jù)和自身的歷史數(shù)據(jù)與未來短期內(nèi)的LPG價格在微觀上相關(guān)度很大,模型可以很好地擬合數(shù)據(jù)做出相對精確的預(yù)測,但從長期宏觀來看,LPG價格趨勢與國際指標(biāo)的趨勢大體基本保持一致,所以預(yù)測未來十天甚至十五天的價格時反而要比預(yù)測未來幾天的價格更精確。

        表2 測試集上的MAETable2 MAE on the test set

        圖2 未來第1天的預(yù)測結(jié)果Fig.2 ResultofpredictingLPGpriceofthe next day

        圖3 未來第7天的預(yù)測結(jié)果Fig.3 ResultofpredictingLPGpriceofthe 7th day in the future

        圖4 未來第10天的預(yù)測結(jié)果Fig.4 Resultofpredictingthe tenth day in the future

        圖5 未來第15天的預(yù)測結(jié)果現(xiàn)Fig.5 Resultofpredictingthe 15th day in the future

        根據(jù)最后的預(yù)測結(jié)果,最終決定用采用所有特征數(shù)據(jù)作為輸入特征值進(jìn)行訓(xùn)練得到的模型來預(yù)測未來 7天的LPG價格,用采用國際指標(biāo)數(shù)據(jù)作為輸入特征值進(jìn)行訓(xùn)練得到的模型來預(yù)測未來 8-15天的LPG價格。

        此外,我們還對各種指標(biāo)對模型的貢獻(xiàn)度進(jìn)行了分析。當(dāng)輸入特征為全部特征數(shù)據(jù)時,對模型的貢獻(xiàn)度排名前五的指標(biāo)除了當(dāng)天的LPG價格外就是競爭對手的LPG價格,并且隨著預(yù)測天數(shù)的增加競爭對手的貢獻(xiàn)度越來越大,說明在所有的指標(biāo)中,除了自身 LPG價格,競爭對手的LPG價格與預(yù)測的LPG價格相關(guān)度最大,這也是符合實(shí)際邏輯的,現(xiàn)實(shí)中各個公司的LPG價格往往相差不大,并且它們也會參考競爭對手的LPG價格來制定自己的LPG價格;當(dāng)輸入特征只有競爭對手的數(shù)據(jù)時,對模型的貢獻(xiàn)度最大的是中燃廣西的數(shù)據(jù),說明華南-槽批與中燃廣西的LPG價格是最接近的;當(dāng)輸入特征只有華南-槽批自身的歷史數(shù)據(jù)時,只有當(dāng)天的LPG價格對模型的貢獻(xiàn)度最大,其余天數(shù)的貢獻(xiàn)度幾乎可以忽略不計,說明歷史價格只取最近一天的歷史(也就是當(dāng)天的價格)就足夠了;當(dāng)輸入特征只有國際指標(biāo)的數(shù)據(jù)時,對模型的貢獻(xiàn)度較高的是 cp 丁烷丙烷月度合同價和北海丁烷丙烷合同價,說明在國際指標(biāo)中這些指標(biāo)最能反映價格的變化趨勢。

        4 結(jié)語

        本文以華南-槽批 LPG價格為例,為了預(yù)測未來7天,10天,15天的LPG價格,使用了隨機(jī)森林模型進(jìn)行訓(xùn)練和預(yù)測,為了進(jìn)一步分析不同指標(biāo)對 LPG價格的影響和相關(guān)性,又對特征進(jìn)行了特征選擇,將特征分為四種不同類型分別作為輸入特征輸入到模型進(jìn)行訓(xùn)練,最后對各種特征與 LPG價格的關(guān)系進(jìn)行了詳細(xì)的分析和說明。

        該實(shí)驗的預(yù)測結(jié)果為15天平均 MAE195,達(dá)到了預(yù)期的效果,不足之處就是結(jié)果出現(xiàn)了一定的過擬合。根本原因是數(shù)據(jù)集不夠大,訓(xùn)練集與測試集數(shù)據(jù)分布存在一定的差異,解決方案就是擴(kuò)大數(shù)據(jù)集,保證訓(xùn)練集與測試集數(shù)據(jù)分布一致。后續(xù)會增加數(shù)據(jù)集進(jìn)行進(jìn)一步的訓(xùn)練。

        LPG價格預(yù)測對于LPG公司提高 LPG 營銷管理水平,增強(qiáng)對 LPG價格的分析判斷能力,進(jìn)而提高盈利水平具有非常重要的意義。在下一步工作中,我們會將本模型部署到LPG價格預(yù)測系統(tǒng)中,作為LPG價格分析和日常監(jiān)控的輔助手段,同時嘗試使用更多模型進(jìn)一步提高準(zhǔn)確度。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲一区二区三区偷拍自拍| 最近日本中文字幕免费完整| 在线视频这里只有精品| 亚洲av噜噜狠狠蜜桃| 日本第一影院一区二区| 樱桃视频影院在线播放| 两个人看的www中文在线观看| 国产精品久久无码免费看 | 麻豆精品一区二区三区| 亚洲愉拍99热成人精品热久久 | 在线成人爽a毛片免费软件| 国产日韩网站| 成人黄网站免费永久在线观看 | 人人妻人人澡人人爽精品日本| 国产真实偷乱视频| 三级国产女主播在线观看| 我的美艳丝袜美腿情缘| 中文字幕在线日亚州9| 丰满少妇愉情中文字幕18禁片 | 日韩女优在线一区二区| 999精品无码a片在线1级| 18禁无遮挡羞羞污污污污网站| 免费国产调教视频在线观看| 国产精品国产三级国产剧情| 内射欧美老妇wbb| 国产在线成人精品| 国产自拍伦理在线观看| 欧洲美熟女乱又伦av影片| 国产精品久久久久电影网| 亚洲国产精品无码久久九九大片健| 91精品人妻一区二区三区水蜜桃| 狠狠色噜噜狠狠狠777米奇小说| 亚洲区小说区图片区| 精品蜜臀国产av一区二区| 日本真人边吃奶边做爽电影| 乱人伦中文字幕成人网站在线| 极品粉嫩小仙女高潮喷水视频| 人妻制服丝袜中文字幕| 国产在线精品成人一区二区三区| 白丝美女被狂躁免费视频网站| 香港三级日本三韩级人妇久久|