林天華,張倩倩,祁旭陽,趙 霞
(1.河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050061;2.河北經(jīng)貿(mào)大學(xué) 經(jīng)管實驗中心,河北 石家莊 050061)
美國著名的未來學(xué)家阿爾文·托夫勒于1980年就在其出版的《第三次浪潮》中提出了大數(shù)據(jù)的概念[1];2008年《Nature》推出“big data”??瑥幕ヂ?lián)網(wǎng)、生物醫(yī)學(xué)等方面進行了大數(shù)據(jù)的研究;2011年《Science》出版了??癉ealing With Data”;2012年,美國公布“大數(shù)據(jù)研發(fā)計劃”,旨在增強從海量數(shù)據(jù)中獲取信息的能力。2013年中國計算機學(xué)會出版了《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書》,2014年出版《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展報告》,闡述了大數(shù)據(jù)背景下相關(guān)產(chǎn)業(yè)的各方面發(fā)展,2018中國信息通信研究院發(fā)布《大數(shù)據(jù)白皮書》[2],詳細闡述了目前中國大數(shù)據(jù)技術(shù)的發(fā)展?fàn)顩r和數(shù)據(jù)立法等各個方面的內(nèi)容。
國內(nèi)證券行業(yè)蓬勃發(fā)展,其特點是數(shù)據(jù)量大,數(shù)據(jù)變化速度快,數(shù)據(jù)類型多樣,但存在很多冗余和噪音,需要對大量的數(shù)據(jù)進行數(shù)據(jù)清洗、提煉和數(shù)據(jù)融合等處理。
通過數(shù)據(jù)轉(zhuǎn)換規(guī)約、可視化技術(shù)、知識計算等大數(shù)據(jù)分析技術(shù)對證券數(shù)據(jù)進行分析,另一方面,結(jié)合深度學(xué)習(xí)預(yù)測模型對有時序性的股票價格數(shù)據(jù)進行預(yù)測分析等[3]。充分將證券行業(yè)和大數(shù)據(jù)技術(shù)結(jié)合,更好地指引證券市場,促進經(jīng)濟發(fā)展。
在日常運作中證券行業(yè)不僅會產(chǎn)生大量的數(shù)據(jù),而且也需要運用數(shù)據(jù)來指導(dǎo)投資,證券數(shù)據(jù)自身的特點與大數(shù)據(jù)的特征相契合[4]。證券行業(yè)大數(shù)據(jù)主要表現(xiàn)在行情數(shù)據(jù),財經(jīng)網(wǎng)站的股票行情圖以及通達信等行情軟件所展現(xiàn)的各類數(shù)據(jù)、K線圖、日均線圖等,背后都是海量的數(shù)據(jù)[5]。利用大數(shù)據(jù)技術(shù)進行證券數(shù)據(jù)分析,對證券公司出現(xiàn)的問題進行診斷分析、挖掘事件本質(zhì),以及預(yù)測事件未來走勢,從而發(fā)現(xiàn)客戶潛在需求[6]。
目前,大數(shù)據(jù)技術(shù)在證券行業(yè)的應(yīng)用涉及監(jiān)督管理、財務(wù)分析、股票投資分析、股市預(yù)測等各個層面[7]。
市場頻現(xiàn)新的交易品類,交易頻率不斷提高,導(dǎo)致數(shù)據(jù)分析管理變得越來越復(fù)雜,監(jiān)管任務(wù)更加艱巨[8]。傳統(tǒng)的交易監(jiān)察體系的管理和數(shù)據(jù)計算性能大幅下降[9]。利用數(shù)據(jù)融合技術(shù)、MapReduce計算模型、Hadoop計算平臺、Storm流式處理技術(shù)等,并結(jié)合分布式文件存儲系統(tǒng),如Spark系統(tǒng),解決證券大數(shù)據(jù)多維數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)存儲和智能計算管理難題,尤其是多元異構(gòu)數(shù)據(jù)的存儲問題,提高交易監(jiān)管的效率[10]。利用大數(shù)據(jù)技術(shù)及機器學(xué)習(xí)相關(guān)算法在整個的數(shù)據(jù)集中分析研究出可疑交易數(shù)據(jù),有機結(jié)合多元數(shù)據(jù)保證監(jiān)察的全面性和完整性[11]。
傳統(tǒng)的財務(wù)分析對數(shù)據(jù)的把控程度較低,能夠處理一部分結(jié)構(gòu)化數(shù)據(jù),而對于非結(jié)構(gòu)化數(shù)據(jù),基本上沒有進行處理[12]。通過云存儲技術(shù)、Web存儲、NoSQL技術(shù)、云計算等大數(shù)據(jù)技術(shù)對證券機構(gòu)及證券公司財務(wù)數(shù)據(jù)進行存儲和分析研究,挖掘財務(wù)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,發(fā)掘證券公司財務(wù)潛在的問題,有助于證券行業(yè)機構(gòu)及證券公司財務(wù)部門的管理,使管理層做出更加科學(xué)性的財務(wù)決策,提高財務(wù)風(fēng)險防控能力[13],深化財務(wù)風(fēng)險的計量模型[14],得出高效的風(fēng)險分析結(jié)果。進而達到事前風(fēng)險預(yù)測、事中風(fēng)險控制、事后風(fēng)險評估的效果[15]。
恐慌指數(shù)是Bloom提出的一種金融不確定性的度量,是股市的波動率指數(shù)(volatility index,VIX),揭示市場參與者的恐慌情緒[16]。2003年推出的以無模型法為基礎(chǔ)的新的VIX指數(shù)編制方法被廣泛使用,各國開始編制適合本國證券市場的波動率指數(shù)[17]。
利用知識計算等大數(shù)據(jù)技術(shù)研究投資者情緒,有助于投資者在股市上漲和下跌時做出合理的判斷[18]。收集股票論壇中的股票評論信息,分析研究投資者情緒和股票價格間的關(guān)系。
輿論熱度是指網(wǎng)民對某一事件的關(guān)注程度,也稱為網(wǎng)絡(luò)輿情,是人們對于某一影響力大的事件的各種評論[19]。而在股票市場中,股民對某一事件的輿論導(dǎo)向?qū)⒅苯佑绊懝善眱r格的上漲或下跌[20]。用大數(shù)據(jù)技術(shù)檢索并挖掘社交媒體中的情感信息,如利用機器學(xué)習(xí)中的分類方法、時間序列聚類方法等對輿論熱度進行分析,幫助投資者理性投資。在輿情熱度分析方面,主要包括證券市場的輿情爆發(fā)點、輿情傳播渠道和市場情緒走勢的監(jiān)控和分析[21]。
在互聯(lián)網(wǎng)大數(shù)據(jù)背景下,證券公司獲取的證券數(shù)據(jù)量增大[22]。將大量的證券數(shù)據(jù)利用數(shù)據(jù)可視化技術(shù)使用戶能夠自主分析,交互式的展示和超大圖的展示,方便用戶理解,設(shè)計出更加符合客戶需求的產(chǎn)品。另外由于收集到的數(shù)據(jù)具有實時性,可以不斷根據(jù)客戶需求的改變而設(shè)計產(chǎn)品[23]。
量化投資主要是通過大數(shù)據(jù)分析技術(shù)對證券數(shù)據(jù)進行分析處理,形成投資策略[24]。證券公司在為客戶提供信息服務(wù)時,需要準確的行業(yè)報告和上市公司報告、股價的實時變動信息、大盤走勢等[25],將證券數(shù)據(jù)應(yīng)用到量化模型中,進行數(shù)據(jù)的處理和分析,從而為客戶提供投資決策的建議[26]。在不斷的發(fā)展過程中,形成了許多效果很好的量化投資模型。如Fame提出的三因子選股模型[27]和五因子選股模型[28],謝合亮提出的Elastic Net量化投資模型[29],田利輝提出的股票定價的五因子模型[30]等。這些模型能夠為人們的投資提供參考策略。
利用大數(shù)據(jù)技術(shù)對流式數(shù)據(jù)進行實時分析處理的優(yōu)勢,實時監(jiān)控內(nèi)幕交易。大數(shù)據(jù)技術(shù)結(jié)合人工智能算法,對異常的交易和風(fēng)險主體進行分析識別[31],以保證證券交易的合法穩(wěn)定進行。蔣東興為保障證券行業(yè)全量數(shù)據(jù)的有效治理提出構(gòu)建超級大數(shù)據(jù)治理平臺的科技監(jiān)管思路[32],利用大數(shù)據(jù)技術(shù)為監(jiān)督管理提供科學(xué)的決策支持。黃素心運用GARJI模型從信息抵達和動態(tài)跳躍特征的角度提出基于信息抵達概率的內(nèi)幕交易實時監(jiān)控和預(yù)警方案,構(gòu)建的Logistic和Probit甄別模型的判別準確率在不同條件下都非常高,甄別效果顯著[33]。
大數(shù)據(jù)技術(shù)可以對證券企業(yè)財務(wù)數(shù)據(jù)進行精準挖掘,規(guī)避財務(wù)風(fēng)險[34]。
Campbell等人利用證券交易數(shù)據(jù)通過動態(tài)logit模型進行財務(wù)危機預(yù)測[35],邊海容利用Web金融信息文本構(gòu)建的混合指標預(yù)測模型預(yù)測證券企業(yè)財務(wù)危機[36],有學(xué)者提出一種結(jié)合logistic回歸和支持向量機技術(shù)的混合智能模型對金融企業(yè)財務(wù)危機進行預(yù)測[37],都取得了不錯的預(yù)測效果。利用云計算技術(shù)和人工智能算法,根據(jù)企業(yè)自身的特點[38]建立財務(wù)數(shù)據(jù)的模型并設(shè)計出高效的算法,為證券公司制定更加合理高效的財務(wù)管理軟件,如“財務(wù)云”、ERP系統(tǒng)、天財財務(wù)軟件等。
對恐慌指數(shù)進行分析,可以預(yù)測市場是否會出現(xiàn)較大的波動。研究恐慌指數(shù)的方法有小波分析方法、利用ADR日價格的ADR定價模型、混合分位數(shù)回歸-Copula等方法。Fathi Abid利用小波方法雙變量分析研究發(fā)現(xiàn)股指與其對應(yīng)的恐慌指數(shù)之間存在穩(wěn)定的協(xié)動關(guān)系[39]。Omar A. Esqueda利用ADR定價模型發(fā)現(xiàn)ADR偏離單一價格規(guī)律的部分原因是恐慌指數(shù)的滯后[40]。劉思躍結(jié)合支持向量機和半?yún)?shù)Copula函數(shù),對多個市場間的恐慌指數(shù)進行研究發(fā)現(xiàn)相依結(jié)構(gòu)有明顯的時變效應(yīng)[41]。
行為金融學(xué)認為投資者的情緒會影響投資者的行為,進而影響股票行情[42]。由于人腦會有選擇性的接受信息,在做出判斷時會有偏差[43],不能客觀地分析股市行情。
大數(shù)據(jù)技術(shù)結(jié)合自然語言處理技術(shù),分析互聯(lián)網(wǎng)中投資者的情緒因子,以預(yù)測投資者是否看好股市行情。將情緒分為積極、消極和中性三類,或根據(jù)臨床醫(yī)學(xué)情緒狀態(tài)量表進行分類[44],篩選出表現(xiàn)情緒的自然語言,歸納人們評論中的表現(xiàn)情感傾向的字、詞、句子或整個文本的情感值,對股市進行預(yù)測分析。江騰蛟提出了一種基于淺層語義與語法分析相結(jié)合的評價對象-情感詞對抽取方法[45],對金融評論進行情感分析。Werner Antweiler用樸素貝葉斯和支持向量機算法將雅虎上150多萬條股票評論信息進行情感分類[46]。
龐磊首次提出基于句子對將來的事物評論的情感分類研究,旨在自動識別投資者未來情感傾向[47],并且該方法非常有效。李國林利用最小自然語言粒度對網(wǎng)頁文檔情感進行分析[48],提出的情感傾向算法準確率達到84.34%。張世軍提出基于網(wǎng)絡(luò)輿情和股票技術(shù)指標數(shù)據(jù)的支持向量機回歸模型預(yù)測股價[49],準確率達到71.43%。張書煜采用向量自回歸模型檢驗投資者情緒與股市收盤價、股市成交量之間的時滯關(guān)系[50]。石勇基于優(yōu)礦金融量化平臺的股吧論壇用戶評論數(shù)據(jù)、雪球網(wǎng)股民社交網(wǎng)絡(luò)數(shù)據(jù)和財經(jīng)新聞數(shù)據(jù),分別構(gòu)建指標,利用相關(guān)性分析和VAR模型研究其與股市的關(guān)系[51],表明不同來源的投資者情緒影響不同。
隨著大數(shù)據(jù)的不斷發(fā)展,量化投資更多地依賴大數(shù)據(jù)技術(shù)進行更智能的決策分析。Kensho公司通過機器學(xué)習(xí)和云算法,將傳統(tǒng)幾天時間的投資分析縮短到幾分鐘[23]。股票價格作為一種常見的證券時間序列,其波動及影響因子之間關(guān)系呈現(xiàn)復(fù)雜的非線性性[52]。深度學(xué)習(xí)和知識計算是大數(shù)據(jù)分析的基礎(chǔ),股票預(yù)測分析逐步使用機器學(xué)習(xí)來提高預(yù)測的準確度,主要包括時序預(yù)測方法、支持向量機預(yù)測方法和神經(jīng)網(wǎng)絡(luò)預(yù)測方法等。
3.5.1 傳統(tǒng)時序預(yù)測模型
由算法模型的輸出結(jié)果可以將經(jīng)典時序模型分為確定時序模型和隨機時序模型,確定性時序模型常用移動平均法、指數(shù)平均法、趨勢擬合法和季節(jié)系數(shù)法,隨機性時序模型包括ARMA、ARIMA、ARCH和GARCH等[53]。
ARMA模型是一種研究時間序列的重要方法,它分別包括自回歸模型(AR)和移動平均模型(MA)[54]。ARCH模型是經(jīng)濟學(xué)家Robert在80年代提出的,并利用該模型對英國通貨膨脹指數(shù)進行了預(yù)測[55]。傳統(tǒng)時間序列預(yù)測模型的公式表達如表1所示。
表1 傳統(tǒng)時序預(yù)測模型
3.5.2 機器學(xué)習(xí)預(yù)測算法
3.5.2.1 基于支持向量機的預(yù)測方法
支持向量機(support vector machines,SVM)是Corinna Cortes和Vapnik于1995年首先提出,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣到函數(shù)擬合等其他機器學(xué)習(xí)問題中。簡單支持向量機是用支持向量機的算法對原始數(shù)據(jù)進行分析,并給出預(yù)測結(jié)果[56]。
SVM在預(yù)測領(lǐng)域的應(yīng)用也一直在改進,將數(shù)據(jù)進行預(yù)處理,先對數(shù)據(jù)進行特征提取,并進行歸一化處理,即PCA+SVM算法,這樣處理后的數(shù)據(jù)作為SVM回歸機的輸入變量可以更有效地擬合復(fù)雜函數(shù)[57]。PCA能發(fā)掘原始數(shù)據(jù)的高維特性,并在高維空間對這些特征進行重構(gòu),從而提高SVM回歸預(yù)測的準確性。
3.5.2.2 基于神經(jīng)網(wǎng)絡(luò)的股票預(yù)測方法
2006年,Hinton研究發(fā)現(xiàn)多層神經(jīng)網(wǎng)絡(luò)具有很強的學(xué)習(xí)能力[58],在《科學(xué)》上發(fā)表的這篇文章使得神經(jīng)網(wǎng)絡(luò)的研究迎來了再一次的浪潮[59]。近十年來,利用神經(jīng)網(wǎng)絡(luò)進行股票預(yù)測已成為研究熱點。趙洪科對市場宏觀動態(tài)進行了預(yù)測,提出一種基于深度神經(jīng)網(wǎng)絡(luò)融合層次多時間序列學(xué)習(xí)的模型[53],該模型獲得非常好的預(yù)測效果。曾安提出一種基于深度雙向LSTM的神經(jīng)網(wǎng)絡(luò)預(yù)測模型,比現(xiàn)有預(yù)測模型誤差降低2%~5%,決定系數(shù)(r2)提高10%[60]。
(1)基于卷積神經(jīng)網(wǎng)絡(luò)的股票預(yù)測方法。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)具有局部連接、權(quán)值共享及池化操作的特性可有效降低網(wǎng)絡(luò)的復(fù)雜度,減少訓(xùn)練參數(shù)的數(shù)量,易于訓(xùn)練和優(yōu)化[61]。陳祥一利用卷積神經(jīng)網(wǎng)絡(luò)強大的監(jiān)督學(xué)習(xí)性能對滬深300指數(shù)漲跌情況進行預(yù)測,并與邏輯回歸、SVM、決策樹方法進行對比,CNN取得了不錯的預(yù)測效果[62]。王重仁對金融信用風(fēng)險進行預(yù)測,利用改進的CNN自動提取特征并分類,預(yù)測效果均優(yōu)于對比模型Logistic回歸和隨機森林[63]。
將時間序列數(shù)據(jù)轉(zhuǎn)化為圖像,把股市時間序列數(shù)據(jù)進行標準化對齊與圖形化轉(zhuǎn)換,利用CNN模型進行預(yù)測[64]。藺曉根據(jù)K線圖,采用滑動窗口將股票數(shù)據(jù)分割成子序列,用CNN對子序列進行特征學(xué)習(xí),基于此設(shè)計了股票時間序列反轉(zhuǎn)點檢測的分類預(yù)測模型和股票時間序列異常波動點檢測聚類模型,預(yù)測準確率分別達到了61%和65%[65]。
(2)基于貝葉斯神經(jīng)網(wǎng)絡(luò)的股票預(yù)測方法。
貝葉斯理論的適應(yīng)性和可擴展性使其得到廣泛應(yīng)用,尤其是非參數(shù)貝葉斯和正則化貝葉斯[66]。BP神經(jīng)網(wǎng)絡(luò)是一種多層網(wǎng)絡(luò)的誤差反向傳播算法,用它來進行股票預(yù)測時,很容易陷入局部最優(yōu),采用貝葉斯正則化算法來改進傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型,可以解決BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值隨機獲取所導(dǎo)致的陷入局部最優(yōu)問題。劉恒采用貝葉斯正則化改進后的BP神經(jīng)網(wǎng)絡(luò)模型對股票時間序列預(yù)測精度比傳統(tǒng)的BP模型提高42.81%[67]。由于股票價格的概率分布函數(shù)不是單峰的,股價不能很好地用正態(tài)概率分布來表示,為克服這一困難,Kita提出基于離散變量的貝葉斯網(wǎng)絡(luò)股票價格預(yù)測方法[68],該方法與AR、MA、ARMA、ARCH等預(yù)測算法相比,日經(jīng)指數(shù)和豐田汽車公司股價的最大預(yù)測誤差分別為30%和20%。
經(jīng)典的貝葉斯公式如式(1)所示,其中Θ表示概率模型的參數(shù),D表示給定的數(shù)據(jù)集,p0(Θ)是模型的先驗分布,p(D|Θ)是似然函數(shù),p(D)是模型的邊緣似然函數(shù)[66]。
(1)
貝葉斯公式基礎(chǔ)的預(yù)測模型如式(2)所示,給定訓(xùn)練數(shù)據(jù)D,通過貝葉斯方法獲得對未知數(shù)據(jù)x的預(yù)測[66]。
(2)
(3)基于遺傳神經(jīng)網(wǎng)絡(luò)的股票預(yù)測方法。
將神經(jīng)網(wǎng)絡(luò)與遺傳算法結(jié)合,是一種新的算法優(yōu)化方法。目前比較主流的是利用遺傳算法對神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值進行優(yōu)化[69]。通過文獻的閱讀,該算法的基本流程可總結(jié)如圖1所示[70-74]。
圖1 遺傳算法對BP神經(jīng)網(wǎng)絡(luò)優(yōu)化流程
3.5.3 幾種股票預(yù)測算法的優(yōu)劣性對比
股價的變動受到許多因素的影響,是眾多因素和各種不確定性因素共同影響和作用的結(jié)果[61]。沒有一種預(yù)測算法能夠適用于所有場景,每種預(yù)測模型都有它自身的特點,不可能完全適應(yīng)每種股票數(shù)據(jù)類型[67],由此而產(chǎn)生了不同的優(yōu)缺點,在預(yù)測性能上有不同的表現(xiàn)力。綜合上述文獻及對比分析,總結(jié)上述預(yù)測模型的優(yōu)缺點如表2所示。
表2 幾種算法優(yōu)劣性比較
續(xù)表2
證券機構(gòu)應(yīng)結(jié)合大數(shù)據(jù)平臺,構(gòu)建企業(yè)內(nèi)統(tǒng)一的數(shù)據(jù)池,實現(xiàn)數(shù)據(jù)的“穿透式”管理[75]。數(shù)據(jù)治理是需要深入思考的命題,使數(shù)據(jù)資產(chǎn)成為證券機構(gòu)的核心競爭力。
大數(shù)據(jù)技術(shù)強調(diào)對數(shù)據(jù)的采集、存儲、處理和展現(xiàn)[32]。人工智能可以在各個階段助力證券大數(shù)據(jù)發(fā)揮更大的作用。大數(shù)據(jù)與人工智能深度融合,拓展證券大數(shù)據(jù)的應(yīng)用場景。
通過對證券大數(shù)據(jù)的應(yīng)用領(lǐng)域、算法模型的介紹及機器學(xué)習(xí)預(yù)測算法的分析對比,得出如下結(jié)論:大數(shù)據(jù)技術(shù)在證券領(lǐng)域的應(yīng)用十分普遍。采用機器學(xué)習(xí)算法對證券行情進行預(yù)測是研究熱點。每種預(yù)測算法都有其相應(yīng)的優(yōu)缺點,要根據(jù)應(yīng)用場景和證券類型進行適當(dāng)選擇。