亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于非結(jié)構(gòu)化數(shù)據(jù)挖掘的原油價格預(yù)測研究

        2018-10-20 04:42:36盧文君
        數(shù)碼設(shè)計 2018年6期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        盧文君

        摘要:對于油價波動,乃至于各類市場價格(如期貨、外匯、股市)的波動預(yù)測,經(jīng)濟(jì)學(xué)界已經(jīng)有幾十年的研究。然而受限于時代因素、技術(shù)因素、從業(yè)者的知識背景等因素,經(jīng)濟(jì)學(xué)界對于價格波動的研究主要集中在技術(shù)面,建立的模型多為基于各類結(jié)構(gòu)化數(shù)據(jù)的公式型預(yù)測模型,使用機(jī)器學(xué)習(xí)手段的屬于少數(shù),而使用非結(jié)構(gòu)化數(shù)據(jù)和近年來領(lǐng)先的深度學(xué)習(xí)技術(shù)相結(jié)合的更為稀有。從這個角度而言,本研究具有跨學(xué)科、跨領(lǐng)域的特點,對于此類研究有貢獻(xiàn)意義。

        關(guān)鍵詞:原油價格預(yù)測;神經(jīng)網(wǎng)絡(luò);非結(jié)構(gòu)化數(shù)據(jù);情感分析;機(jī)器學(xué)習(xí)

        中圖分類號:TP311.12文獻(xiàn)標(biāo)識碼:A文章編號:1672-9129(2018)06-0024-03

        Research on Crude Oil Price Forecast Based on Unstructured Data Mining

        LU Wenjun*

        (Research Institute of CNPC Beijing Richfit Information Technology Co., Ltd., Beijing, 102206, China)

        Abstract:For the fluctuation of oil prices, and even the volatility forecast of various market prices (such as futures, foreign exchange, stock market), the economics industry has been studying for decades. However, due to factors such as the times, technical factors, and the knowledge background of practitioners, the economics research on price fluctuations mainly focuses on the technical aspects. The established models are mostly formula-based prediction models based on various structured data, using machines. Learning methods are a minority, and the use of unstructured data combined with leading deep learning techniques in recent years is even more rare. From this perspective, this study has interdisciplinary and cross-disciplinary characteristics and contributes to such research.

        Keywords:crude oil price forecast; neural network; unstructured data; sentiment analysis; machine learning

        引用:盧文君. 基于非結(jié)構(gòu)化數(shù)據(jù)挖掘的原油價格預(yù)測研究[J]. 數(shù)碼設(shè)計, 2018, 7(6): 24-26.

        CiteLU Wenjun. Research on Crude Oil Price Forecast Based on Unstructured Data Mining[J]. Peak Data Science, 2018, 7(6): 24+26.

        引言

        國際原油價格的影響包括方方面面:對于石油能源產(chǎn)業(yè)鏈中的企業(yè)或者石油能源消耗型企業(yè),油價決定了企業(yè)的生產(chǎn)成本和利潤;對于國際原油期貨的市場參與者(如金融機(jī)構(gòu)、對沖基金、個人和團(tuán)體投資者),油價影響了他們的投資收益;對于國家和社會,油價影響宏觀經(jīng)濟(jì)的生產(chǎn)成本、人民的生活成本甚至于社會的穩(wěn)定。若利用大量真實歷史數(shù)據(jù)構(gòu)建一個模型能夠提高油價漲跌判斷的準(zhǔn)確率,對于一些機(jī)構(gòu)和個人來說,還是很有參考價值的。

        本研究旨在真實互聯(lián)網(wǎng)文本數(shù)據(jù)(如新聞、社交媒體文本等)和真實的國際原油期貨(如紐交所的西德克薩斯輕質(zhì)原油(WTI))價格之間找到一種關(guān)系,針對未來的文本數(shù)據(jù),可以依據(jù)上述找到的關(guān)系預(yù)測對應(yīng)時間的油價?;驈臋C(jī)器學(xué)習(xí)的角度描述:建立一套機(jī)器學(xué)習(xí)模型,以預(yù)測未來油價的漲跌(二分類)、漲跌幅區(qū)間(多分類),或漲跌幅數(shù)值(回歸)。問題可以細(xì)分為以下3個有所區(qū)別的子類:1)基于突發(fā)新聞的短期(1-30分鐘)油價走勢預(yù)測(分類問題);2)基于政經(jīng)類新聞情感傾向的油價走勢預(yù)測(中短期,2hours-7days)(分類或回歸);3)基于社交媒體情感傾向的油價走勢預(yù)測(中短期,2hours-7days)(分類或回歸)。本研究將集中于第一類問題。

        1? 模型介紹

        本研究建立了一個基于深度學(xué)習(xí)技術(shù)的模型,并且利用詞嵌入模型(word embedding)、情感分析等方法對文本數(shù)據(jù)進(jìn)行抽象和表示,以盡量提升模型的效果。

        1.1 ?文本數(shù)據(jù)收集

        依據(jù)行為金融學(xué)理論,市場投資者會依據(jù)外部信息的變化,并依據(jù)自身的經(jīng)驗對所獲得的信息進(jìn)行分析,從而對投資策略進(jìn)行相應(yīng)的調(diào)整。而權(quán)威媒體發(fā)布的新聞消息,往往是投資者的主要信息獲取渠道。因此,由新聞媒體發(fā)布的一些新聞,尤其是與原油供需、宏觀經(jīng)濟(jì)、產(chǎn)油國地緣政治、戰(zhàn)爭、自然災(zāi)害等方面相關(guān)的內(nèi)容,通常會引起投資者的高度關(guān)注,并且依據(jù)這些新聞的內(nèi)容,會對投資者決策起到直接的影響。因此,本研究將設(shè)法獲取權(quán)威媒體第一時間發(fā)布的新聞作為訓(xùn)練數(shù)據(jù)。此研究使用的文本數(shù)據(jù)是通過網(wǎng)絡(luò)爬蟲等技術(shù)手段從路透社官方網(wǎng)站上獲得的從2016年10月至2017年10月的總共27萬條新聞數(shù)據(jù),這些新聞涵蓋經(jīng)濟(jì)、世界時事、體育、娛樂等各個方面,其中各類經(jīng)濟(jì)新聞是數(shù)量最多的部分。

        1.2 ?原油價格數(shù)據(jù)處理產(chǎn)生標(biāo)簽

        如前所述,本研究利用國際原油期貨數(shù)據(jù)(紐交所的WTI原油價格數(shù)據(jù))作為有監(jiān)督機(jī)器學(xué)習(xí)模型的標(biāo)簽。數(shù)據(jù)時間范圍為2016年10月1日至2017年10月1日,數(shù)據(jù)粒度為1分鐘級。

        利用此數(shù)據(jù)產(chǎn)生初步標(biāo)簽的策略是:標(biāo)簽時間點向后半小時內(nèi)有交易,總收益為正,且此時間段內(nèi)上漲的次數(shù)大于下降的次數(shù),則此時間點的初步標(biāo)簽為正;標(biāo)簽時間點向后半小時內(nèi)有交易,總收益為負(fù),且此時間段內(nèi)上漲的次數(shù)小于下降的次數(shù),則此時間點的初步標(biāo)簽為負(fù);標(biāo)簽時間點向后半小時內(nèi)有交易的其他時間點的標(biāo)簽為平。

        采用上述粗放的標(biāo)注方法,可以通過程序自動實現(xiàn),但存在一定的問題,即某一油價異常變動的時間點的新聞,有可能是實際造成油價變化的主因也有可能不是,若將所有新聞全部按規(guī)則標(biāo)記可能會引入一些噪聲,即實際不相關(guān)文本也被標(biāo)記。對此將采用參考初步標(biāo)簽進(jìn)行人工標(biāo)注的方法來解決這一問題。

        1.3 ?文本數(shù)據(jù)與標(biāo)簽數(shù)據(jù)融合,人工標(biāo)注

        有監(jiān)督機(jī)器學(xué)習(xí)過程需要使用大量有類別標(biāo)簽(在油價預(yù)測的場景中可以是漲、平、跌等分類方法)的訓(xùn)練數(shù)據(jù)(本場景中是各類文本)對模型進(jìn)行訓(xùn)練,因此需要準(zhǔn)備文本數(shù)據(jù)和可以作為文本數(shù)據(jù)與油價變化關(guān)聯(lián)關(guān)系的標(biāo)簽數(shù)據(jù)。將帶有新聞的表與上一步驟中由原油價格數(shù)據(jù)產(chǎn)生的類別標(biāo)簽表以時間為索引進(jìn)行合并,對文本和標(biāo)簽的對應(yīng)關(guān)系進(jìn)行檢查,抽取新聞與石油有關(guān)且與標(biāo)簽對應(yīng)正確的標(biāo)注數(shù)據(jù)作為試驗數(shù)據(jù)集,最終產(chǎn)生帶有正、負(fù)、平標(biāo)簽的數(shù)據(jù)各1700條,共5100條。

        1.4 ?特征工程

        在將數(shù)據(jù)導(dǎo)入到模型訓(xùn)練之前,一個非常關(guān)鍵的任務(wù)是對數(shù)據(jù)進(jìn)行特征工程處理。通過精細(xì)的特征工程對數(shù)據(jù)進(jìn)行抽象和提取,能最大程度的將文本中的本質(zhì)因素提取出來,從而增加模型的判別依據(jù)。本研究采取的特征有:文本中詞和詞與詞之間關(guān)系的特征(詞以詞嵌入表示后通過CNN+LSTM提?。?、文本的情感特征(通過情感分析技術(shù)獲取),上述特征導(dǎo)入模型之前用單獨的模塊進(jìn)行處理。

        (1)文本中詞和詞與詞之間關(guān)系的特征

        計算機(jī)系統(tǒng)是處理二進(jìn)制數(shù)據(jù)的系統(tǒng),而人類語言是抽象的符號系統(tǒng)。因此在處理任何文本類任務(wù)的時候,第一個關(guān)鍵任務(wù)就是將文本符號轉(zhuǎn)化為數(shù)字。文本表示方法作為后續(xù)工作的基礎(chǔ),對模型訓(xùn)練和預(yù)測效果有著決定性的影響。本研究采用近幾年發(fā)展起來的詞嵌入技術(shù),將文本中的詞轉(zhuǎn)換為特定長度的實數(shù)值向量。該方法作為目前的主流文本數(shù)字化表示方法,在效果上比早年的向量空間模型有很大提升。

        在對文本進(jìn)行基本的格式處理后,需要對文本進(jìn)行分詞、詞干還原、去標(biāo)點和停用詞、大小寫字母轉(zhuǎn)換的預(yù)處理操作,然后對文本進(jìn)行詞嵌入處理。詞嵌入技術(shù)(word embedding)是近幾年興起的文本表示技術(shù),從機(jī)器學(xué)習(xí)的角度看,它是一種比傳統(tǒng)詞袋模型(bag of words)的表示能力更強(qiáng)、信息更濃縮的文本特征提取技術(shù),然而這種技術(shù)有一個缺陷就是訓(xùn)練成本高,提出該技術(shù)的Google提供了開源的已經(jīng)訓(xùn)練好的詞向量,是Google利用千億級別單詞量的語料訓(xùn)練出來的。在進(jìn)行此步驟時,首先遍歷所有文本,把涉及的詞全部列出并按出現(xiàn)頻率排序形成詞序表,這樣,每個詞都有了唯一的序號,然后把文檔中的詞全部轉(zhuǎn)換為詞序號表示,詞序表里的詞可以用Google訓(xùn)練好的詞嵌入模型進(jìn)行映射,這樣文檔中的每個詞就轉(zhuǎn)換成了用300維向量表示。然而,完成這個步驟后發(fā)現(xiàn),在前期處理過程中,出現(xiàn)很多不構(gòu)成詞的字符串,這些字符串在Google的詞典中找不到所以為空,這些字符串既不起作用又占用空間,造成后期深度學(xué)習(xí)模型維度大幅增加以致內(nèi)存溢出?;诖嗽颍瑢@些字符串進(jìn)行了過濾,只留下可以產(chǎn)生有效信息的詞,然后再次按以上步驟對每篇文章進(jìn)行詞嵌入操作。

        通過上述詞嵌入技術(shù),可以將句子中的詞轉(zhuǎn)化為富含信息的高維向量。然而人類語言的文本是由詞有機(jī)組合構(gòu)成的,如果將句子簡化為若干詞嵌入向量的簡單加和,就會損失包含在詞語次序中的信息。為了應(yīng)對這一問題,本研究利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM)來提取文本序列的次序信息。CNN網(wǎng)絡(luò)在本任務(wù)中的用途是通過其滑動窗口的思想,將句子中的每個詞以及其附近的若干詞組合起來提取其關(guān)聯(lián)關(guān)系同時進(jìn)行降維。LSTM網(wǎng)絡(luò)則善于保存句子序列中的長距離依賴關(guān)系,以應(yīng)對長句等復(fù)雜句式的特征提取。提取文本信息部分的處理流程為,以詞嵌入作為文本中的詞的數(shù)字化表示,將由詞嵌入表示所構(gòu)成的句子矩陣通過CNN網(wǎng)絡(luò)進(jìn)行短語特征提取和降維,將CNN網(wǎng)絡(luò)的輸出作為LSTM網(wǎng)絡(luò)的輸入,進(jìn)一步提取句子結(jié)構(gòu)信息和長距離關(guān)聯(lián)關(guān)系文本特征。

        深度學(xué)習(xí)模型通過學(xué)習(xí)輸入文本特征和最終預(yù)測結(jié)果與實際類別之間的差異,利用參數(shù)反向傳播算法,不斷調(diào)整模型中的參數(shù)值,最終找到能夠最貼切擬合真實結(jié)果和輸入文本之間關(guān)系的參數(shù)集合。這樣一來,在未來預(yù)測過程中,對于未知油價變化結(jié)果的新文本,可以通過訓(xùn)練好的上述系統(tǒng)通過前向傳播過程計算出其預(yù)測值作為系統(tǒng)的預(yù)測結(jié)果。本研究為了對比不同模型的效果,分別用了lstm、cnn+lstm、雙向gru、cnn+雙向gru模型進(jìn)行試驗。由圖4可看出,模型訓(xùn)練3輪后就開始過擬合了,因此將訓(xùn)練參數(shù)epoch定為3。

        (2)文本情感分析

        情感分析技術(shù)是從情感方面對文本進(jìn)行特征提取的一種重要手段,該方法在富含情感傾向性的文本的各類任務(wù)中效果顯著。本研究通過利用開源情感詞典構(gòu)建情感分析分類器模型對文本進(jìn)行了情感分析,并將情感值作為特征加入到后續(xù)模型中。

        1.5 ?分類模型

        本研究要建立文本數(shù)據(jù)和原油價格變化之間的關(guān)系的模型,主要將該任務(wù)看作一種分類任務(wù)。如前所述,將各類文本數(shù)據(jù)作為輸入數(shù)據(jù),將原油價格變動作為文本的對應(yīng)標(biāo)簽,通過訓(xùn)練模型找到二者之間的關(guān)系,從而使該模型能夠?qū)ξ磥淼男侣勎谋舅赡軐?dǎo)致的油價變化進(jìn)行預(yù)測。

        由圖5可直觀地看出各參數(shù)之間相關(guān)關(guān)系,二分類中標(biāo)簽與情感分析中的正向參數(shù)和神經(jīng)網(wǎng)絡(luò)模型的第2個參數(shù)(圖中標(biāo)1)更相關(guān),三分類中標(biāo)簽與情感分析中的正向參數(shù)和神經(jīng)網(wǎng)絡(luò)模型的第3個參數(shù)(圖中標(biāo)2)更相關(guān)。

        機(jī)器學(xué)習(xí)模型分為模型訓(xùn)練和實際預(yù)測兩個過程。本研究將全部試驗數(shù)據(jù)中的80%作為訓(xùn)練集,其余的20%作為測試集,在完成上述特征提取的步驟后,兩項特征數(shù)據(jù)融合通過分類模型查看效果。分類模型試驗了貝葉斯(NB)、邏輯回歸(LR)、支持向量機(jī)(SVM)三種模型。

        2? 模型效果

        綜合以上實驗結(jié)果數(shù)據(jù)可看出,cnn+lstm的效果相較其他神經(jīng)網(wǎng)絡(luò)模型在本實驗中的表現(xiàn)是最好的,在加入情感分析特征后可以進(jìn)一步提高模型的正確率。

        3? 結(jié)束語

        本研究參考真實的油價變化對新聞數(shù)據(jù)打標(biāo)簽,利用深度學(xué)習(xí)的方法提取了新聞文本的特征,又通過情感分析的方法提取了新聞的情感特征,并將兩者相結(jié)合通過機(jī)器學(xué)習(xí)的分類算法研究新聞與油價變化之間的關(guān)系,在二分類、三分類模型中取得一定的效果,但由于時間精力及資源所限,仍有以下未盡之處值得深入探討研究:

        在基于新聞數(shù)據(jù)進(jìn)行短期原油價格預(yù)測建模時語料的篩選是至關(guān)重要的,在本研究中曾嘗試直接使用粗放標(biāo)簽的原始新聞數(shù)據(jù)進(jìn)行建模,結(jié)果幾乎是隨機(jī)的無規(guī)律可循,而人工篩選標(biāo)簽的方法實質(zhì)上改變了原始新聞的數(shù)據(jù)分布,在真實場景下效果未必穩(wěn)定,因此找到一個高質(zhì)量的數(shù)據(jù)源或者具備大量有經(jīng)驗專家的標(biāo)簽文本是實際應(yīng)用中成功的前提和關(guān)鍵。在計算資源滿足的條件下還可以嘗試提高神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度觀察預(yù)測效果。

        單純使用詞嵌入方法的一個局限性在于,該方法主要是在文字層面對文本進(jìn)行特征轉(zhuǎn)化,許多實際造成由新聞文本引起投資者改變投資策略進(jìn)而引起油價變化的現(xiàn)象,不單純是由新聞文本本身內(nèi)容所導(dǎo)致,而是由于人類通過閱讀文本從認(rèn)知層面進(jìn)行聯(lián)想和推理而得出的結(jié)論。對文本進(jìn)行邏輯上的分析在現(xiàn)代技術(shù)條件下是非常困難的任務(wù),可以嘗試基于認(rèn)知理論的文本深層內(nèi)容表示方法,將新聞文本中可能聯(lián)想到的詞語補(bǔ)充到文本中以模擬人類認(rèn)知過程,從而提高模型效果。

        另外,許多國際油價市場的投資者都會關(guān)注參與推特、臉書、各種論壇等各類社交媒體上的信息,他們經(jīng)常會在社交媒體上發(fā)表與市場投資相關(guān)的感想甚至是預(yù)測和見解,可以嘗試研究社交媒體上人們表達(dá)出來的情感傾向性與各類市場價格的波動的因果關(guān)系。

        4? 致謝

        此論文的完成要感謝中油瑞飛公司中青年科技創(chuàng)新活動的資助,感謝北京大學(xué)隋吉哲同學(xué)實習(xí)期間在前期理論探索及數(shù)據(jù)搜集方面的貢獻(xiàn),感謝馬君博士的大力支持和同事霍魁的熱心建議。

        參考文獻(xiàn):

        [1]????? 基于情感分析的國際原油價格走勢預(yù)測研究_徐振敬(2016年,碩士論文,北京化工大學(xué)).

        [2]????? 基于深度特征提取的文本情感極性分類研究(2017年,碩士論文,山東大學(xué)).

        [3]????? A review of natural language processing techniques for opinion mining systems(2017年,Elsevier ).

        [4]????? Associated Activation-Driven Enrichment_ Understanding Implicit Information from a Cognitive Perspective(2015年,期刊).

        [5]????? “Boom” or “Ruin”– Does it Make a Difference? Using Text Mining and Sentiment Analysis to Support Intraday Investment Decisions(2012年,期刊,IEEE).

        [6]????? Text mining for market prediction_ A systematic review(2014年,期刊).

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        亚洲精品无码av中文字幕| 中国杭州少妇xxxx做受| 亚洲天堂成人av在线观看| 蜜桃视频在线免费观看| (无码视频)在线观看| 99精品国产丝袜在线拍国语| 一本一本久久aa综合精品| 国产麻豆精品久久一二三| 亚洲熟妇色xxxxx欧美老妇| 十八18禁国产精品www| 免费观看黄网站在线播放| 国产真实乱人偷精品人妻| 国产精品麻豆最新AV| 国产在线网址| 日韩亚洲午夜精品一区二区三区| 丰满人妻被公侵犯的视频| 中文字幕乱码日本亚洲一区二区 | 少妇bbwbbw高潮| 久久国产劲爆内射日本| 三个黑人插一个女的视频| 成人麻豆视频免费观看| 日本一本免费一二区| 天堂新版在线资源| 亚洲 自拍 另类 欧美 综合| 亚洲国产成人91| 被欺辱的高贵人妻被中出| 免费人成视频网站在线观看不卡| 日本特殊按摩在线观看| 99久久精品一区二区国产 | 少妇人妻在线伊人春色| 日韩人妻系列在线观看| 中国少妇×xxxx性裸交| 疯狂撞击丝袜人妻| 成 人 色综合 综合网站| 妞干网中文字幕| 日本高清一区二区在线观看| 国产精品久久免费中文字幕| 337p人体粉嫩胞高清视频| 日本一区二区不卡视频 | 亚洲第一页在线免费观看| 成年免费a级毛片免费看无码|