南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院 徐偉 李韻喆
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)新聞中包含了越來(lái)越多的財(cái)經(jīng)資訊。財(cái)經(jīng)網(wǎng)站已經(jīng)演變成投資者用來(lái)交換想法與新聞媒體傳播的主流載體,行業(yè)新聞與個(gè)股新聞在證券市場(chǎng)上對(duì)投資者的投資決策起到關(guān)鍵性作用。但是,投資者從海量的財(cái)經(jīng)新聞中分離出有效的信息仍然存在著較大困難。因此,提供一種科學(xué)有效的方法來(lái)幫助投資者判斷新聞的影響力是至關(guān)重要的。
目前,探索互聯(lián)網(wǎng)媒體與股市關(guān)系的傳統(tǒng)研究較少,大多數(shù)學(xué)者在有限理性假說(shuō)的基礎(chǔ)上,對(duì)投資者心理、投資行為、市場(chǎng)信息非對(duì)稱(chēng)性、政府對(duì)新聞媒體的控制以及財(cái)經(jīng)新聞?wù)Z義分析等方面進(jìn)行研究,其研究結(jié)果偏理論性和概括性。而近幾年,隨著大數(shù)據(jù)的不斷成熟,數(shù)據(jù)挖掘技術(shù)在證券市場(chǎng)預(yù)測(cè)上的運(yùn)用也逐漸增加。
互聯(lián)網(wǎng)財(cái)經(jīng)新聞所蘊(yùn)含的數(shù)據(jù)是非結(jié)構(gòu)化的,所以將新聞量化成可視化的時(shí)間序列數(shù)據(jù)具有一定的挑戰(zhàn)性。國(guó)內(nèi)學(xué)者運(yùn)用文本分類(lèi)的基本方法對(duì)新聞標(biāo)題或者板塊個(gè)股的新聞進(jìn)行情感分類(lèi),構(gòu)建中文分詞詞典和情感詞典。分詞方面,羅海飛等在不斷改進(jìn)貝葉斯算法的基礎(chǔ)上進(jìn)一步提高文本分類(lèi)的正確率。西南財(cái)經(jīng)大學(xué)趙麗麗等主要應(yīng)用文本挖掘技術(shù)和多元線性回歸分析方法,結(jié)合股票主要技術(shù)主表就互聯(lián)網(wǎng)財(cái)經(jīng)新聞對(duì)股市影響進(jìn)行了實(shí)證分析與定量研究。國(guó)外機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)者以互聯(lián)網(wǎng)社交媒體為主要研究對(duì)象,根據(jù)用戶(hù)表達(dá)的投資意愿來(lái)分析其與股價(jià)之間的聯(lián)系,運(yùn)用支持向量回歸模型、多核學(xué)習(xí)方法等建立股價(jià)預(yù)測(cè)模型。歷史研究表明,智能方法與傳統(tǒng)的CAPM和Fama四因素股價(jià)預(yù)測(cè)模型相比具有更高的準(zhǔn)確性。
本文將運(yùn)用數(shù)據(jù)挖掘技術(shù)分別預(yù)測(cè)個(gè)股新聞與行業(yè)新聞對(duì)股價(jià)的影響,建立智能方法模型,比較股價(jià)預(yù)測(cè)模型的準(zhǔn)確性,在國(guó)內(nèi)研究中具有創(chuàng)新意義。
圖一闡述了我們預(yù)測(cè)系統(tǒng)的全面流程。首先,我們需要搜集數(shù)據(jù)。在這過(guò)程中,我們運(yùn)用文本挖掘技術(shù)抓爬財(cái)經(jīng)網(wǎng)站上的數(shù)據(jù),并建立相關(guān)股票新聞數(shù)據(jù)庫(kù)。其次,我們?cè)谶@些無(wú)結(jié)構(gòu)數(shù)據(jù)中分離出有用的信息。我們?nèi)コ鼿TML的標(biāo)簽,并且分離出有用的新聞特征,例如時(shí)間、新聞文本等,對(duì)新聞進(jìn)行文本情感分類(lèi),將無(wú)結(jié)構(gòu)數(shù)據(jù)量化。最后,我們的系統(tǒng)能夠通過(guò)運(yùn)用支持向量機(jī)(SVM)、貝葉斯算法、粗糙集模型對(duì)證券價(jià)值分別進(jìn)行預(yù)測(cè)。
我們選擇證券行業(yè)為主要研究對(duì)象,在新浪財(cái)經(jīng)網(wǎng)站(http://fi?nance.sina.com.cn/stock/)上搜集了證券行業(yè)18家股票的個(gè)股新聞和行業(yè)新聞。本研究抓取了2012年12月至2014年9月期間的行業(yè)新聞5063條,個(gè)股新聞10309條。其中,將2012年12月至2014年7月作為訓(xùn)練集時(shí)間段,選取2014年8月至9月作為預(yù)測(cè)集時(shí)間段,采用訓(xùn)練好的模型預(yù)測(cè)2014年8至9月期間每一則新聞報(bào)道對(duì)股票收益所產(chǎn)生的影響。本文以前一天15點(diǎn)到次日15點(diǎn)為T(mén)日,建立2012年12月4日至2014年9月26日期間的新聞文本資料庫(kù)。
對(duì)于情感分類(lèi)引入評(píng)價(jià)理論,通過(guò)從文本中提取形容詞及修飾語(yǔ)構(gòu)成的短語(yǔ)作為特征,進(jìn)行語(yǔ)義傾向分析。本文將股票新聞的情感特征詞劃分為情感詞和行為詞兩類(lèi),并進(jìn)一步分為5個(gè)維度(正、負(fù)、程度、否定詞、不確定詞),利用ICTCLAS程序接口以及C++對(duì)所有新聞文本進(jìn)行了分詞,建立金融特征詞庫(kù)。
在處理數(shù)據(jù)的過(guò)程中,本文基于金融特征詞庫(kù),進(jìn)行特征選擇,利用向量空間模型(Vector Space Model,簡(jiǎn)稱(chēng)VSM)將無(wú)結(jié)構(gòu)數(shù)據(jù)的新聞文本轉(zhuǎn)換成計(jì)算機(jī)可以處理的結(jié)構(gòu)化向量。通過(guò)TFIDF方法評(píng)估每個(gè)特征詞在整個(gè)文檔集中的重要程度。
1、SVM模型
圖一 系統(tǒng)流程概述
SVM模型由Vapnik首先提出,主要思想是建立一個(gè)超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化。本文選用的是SVM模型中的C-SVC的分類(lèi)器,其過(guò)程如下:
基于libsvm工具箱,本文選用多項(xiàng)式核函數(shù),以結(jié)構(gòu)化的文本向量及股票收益率為模型的輸入。其中,每日股票收益率采用的是新聞當(dāng)天數(shù)據(jù),周末新聞算為下周一數(shù)據(jù),對(duì)應(yīng)下周一股票收益率,以此類(lèi)推。同時(shí),將停牌股的股票收益與當(dāng)日新聞?dòng)枰匀コ?。在進(jìn)行預(yù)測(cè)時(shí),由于特征歸一化對(duì)預(yù)測(cè)結(jié)果有影響,本文考慮分別保留未歸一化和歸一化的兩類(lèi)預(yù)測(cè)數(shù)據(jù),模型分別用SVM1,SVM2表示。
2、樸素貝葉斯分類(lèi)
貝葉斯分類(lèi)原理是通過(guò)選取適當(dāng)?shù)哪P偷南闰?yàn)分布,利用貝葉斯公式計(jì)算出其后驗(yàn)概率。本文樸素貝葉斯分類(lèi)器所選擇的訓(xùn)練集和預(yù)測(cè)集與SVM的所選擇數(shù)據(jù)相同,模型用Bayes表示。
3、粗糙集預(yù)測(cè)
由于分類(lèi)器與新聞因素的差異對(duì)預(yù)測(cè)的數(shù)據(jù)都有影響,本文構(gòu)建了一種基于粗糙集的組合預(yù)測(cè)方法,進(jìn)而比較分類(lèi)數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性。
本文將SVM1,SVM2,Bayes三種模型求解的行業(yè)新聞與公司新聞的預(yù)測(cè)值作為條件屬性集C的元素,將預(yù)測(cè)真實(shí)值y視為決策屬性D{y}。論域?yàn)楦鞴绢A(yù)測(cè)集內(nèi)各日數(shù)據(jù)的集合,該論域中對(duì)象的屬性即為對(duì)應(yīng)日的屬性集C??紤]粗糙集理論中屬性集等價(jià)類(lèi)的概率分布[X;p]、[Y;p],引入信息論中信息熵,構(gòu)建如下公式:
經(jīng)過(guò)運(yùn)算:
得出C各元素重要性,即各公司不同預(yù)測(cè)方法,不同新聞因素的重要性。在此基礎(chǔ)上,加權(quán)不同的預(yù)測(cè)方法的預(yù)測(cè)值,可以得出新的預(yù)測(cè)值;加權(quán)不同方法對(duì)新聞因素的影響,可以得出兩新聞因素影響的重要性。
本文分別研究了互聯(lián)網(wǎng)行業(yè)與個(gè)股新聞對(duì)證券行業(yè)股票影響強(qiáng)度,比較SVM、貝葉斯以及粗糙集三種模型的預(yù)測(cè)結(jié)果,得出結(jié)果如表1所示。
表1 組合預(yù)測(cè)與其他預(yù)測(cè)結(jié)果的比較
從表1中可以看出,基于粗糙集組合預(yù)測(cè)結(jié)果的準(zhǔn)確率總體而言相對(duì)于其他兩種方法較高。由于粗糙集組合預(yù)測(cè)需要在預(yù)測(cè)期間內(nèi)相同時(shí)間段內(nèi)同時(shí)存在行業(yè)與個(gè)股新聞,其可采用的新聞數(shù)據(jù)數(shù)量比其他兩種預(yù)測(cè)方法會(huì)有所減少,影響了結(jié)果。所以在綜合考慮行業(yè)與個(gè)股新聞時(shí),同時(shí)考慮公司新聞因素和行業(yè)因素準(zhǔn)確性并不見(jiàn)得會(huì)比單獨(dú)考慮高,反而會(huì)出現(xiàn)更低的準(zhǔn)確度,具體表現(xiàn)以中信、西南、招商、國(guó)金、光大、東吳為例。
但對(duì)于整個(gè)證券行業(yè)而言,粗糙集組合預(yù)測(cè)綜合了各個(gè)模型的優(yōu)缺點(diǎn)以及各新聞因素對(duì)各公司的影響程度大小,較大的提升了預(yù)測(cè)準(zhǔn)確率。
表2 行業(yè)新聞與公司新聞?dòng)绊懸蛩乇容^
根據(jù)表2可以得知,公司新聞因素為股票價(jià)格的主導(dǎo)因素。當(dāng)我們?nèi)コA(yù)測(cè)率較低的個(gè)股后,這一現(xiàn)象表現(xiàn)的更為顯著,這是因?yàn)楣拘侣勚兴挠袃r(jià)值信息超過(guò)行業(yè)新聞中的有價(jià)值信息。
本文采用文本挖掘技術(shù)和向量空間模型,引入了機(jī)器學(xué)習(xí)方法,結(jié)合股票技術(shù)指標(biāo),就證券行業(yè)與個(gè)股新聞對(duì)股市的影響進(jìn)行了分析研究。在研究過(guò)程中,本文發(fā)現(xiàn),互聯(lián)網(wǎng)新聞對(duì)股票收益率存在一定的影響,并且個(gè)股新聞對(duì)股票收益率的影響高于行業(yè)新聞?;ヂ?lián)網(wǎng)新聞的樣本數(shù)量和質(zhì)量也會(huì)影響預(yù)測(cè)的準(zhǔn)確性,樣本新聞信息處理的越好,預(yù)測(cè)則更加精準(zhǔn)。
由于股票新聞存在不完整、不確定的特性,考慮到這個(gè)因素,本文在運(yùn)用SVM模型和貝葉斯分類(lèi)方法的基礎(chǔ)上,創(chuàng)新運(yùn)用粗糙集模型組合不同預(yù)測(cè)模型,得到了更加精確的預(yù)測(cè)結(jié)果。由此可以看出,運(yùn)用數(shù)據(jù)挖掘預(yù)測(cè)股票收益具有較大的前景。
然而,互聯(lián)網(wǎng)財(cái)經(jīng)新聞不是一直可信賴(lài)的,投資決策還應(yīng)該結(jié)合更多的技術(shù)指標(biāo)和信息來(lái)進(jìn)行分析。在未來(lái)的研究中,作者將進(jìn)一步結(jié)合影響股票價(jià)格收益率的更多因素綜合預(yù)測(cè)價(jià)格的波動(dòng)。
[1]鄒亞寶.媒體對(duì)有限理性投資者投資行為的影響研究[J].金融教育研究.2012.第25卷第5期
[2]譚華.不確定時(shí)態(tài)數(shù)據(jù)挖掘方法及其在證券行情預(yù)測(cè)中的應(yīng)用[D].長(zhǎng)沙:湖南大學(xué).2008
[3]高旸,周莉,張勇,邢春曉,孫一鋼,朱先忠.面向股票新聞的情感分類(lèi)方法[J].軟件學(xué)報(bào).2010.Vol.21.P349-642
[4]陳華,梁循.互聯(lián)網(wǎng)股票新聞歸類(lèi)和板塊分析的方法[J].電腦開(kāi)發(fā)與應(yīng)用,2006,11:2-3+6.
[5]李丹.基于樸素貝葉斯方法的中文文本分類(lèi)研究[D].河北大學(xué),2011
[6]趙麗麗.互聯(lián)網(wǎng)財(cái)經(jīng)新聞對(duì)股市影響的定量分析[D].成都:西南財(cái)經(jīng)大學(xué).2012:1-49
[7]Yang Yu,WenjingDuan,Qing Cao.The impact of social and conven?tional media on firm equity value:A sentiment analysis approach.Decision Support Systems 55(2013)919–926
[8]VivekSehgal,Charles Song.SOPS:Stock Prediction using Web Senti?ment[J].Seventh IEEE International Conference on Data Mining.2007
[9]ShangkunDENG,TakashiMITSUBUCHI,KeiSHIODA,TatsuroSHI ?MADA,AkitoSAKURAI.Multiple Kernel Learning on Time Series Data and?Social Networks for Stock Price Prediction.10th International Conference on Machine Learning and Applications.2011
財(cái)經(jīng)界(學(xué)術(shù)版)2015年13期