亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘和機器學(xué)習(xí)的股指預(yù)測與決策研究

        2019-05-22 00:53:48戴德寶蘭玉森范體軍
        中國軟科學(xué) 2019年4期
        關(guān)鍵詞:情緒文本

        戴德寶,蘭玉森,范體軍,趙 敏

        (1.上海大學(xué) 管理學(xué)院,上海 200444;2.華東理工大學(xué) 商學(xué)院,上海 200237;3.上海大學(xué)悉尼工商學(xué)院,上海 201800)

        一、引言

        《世界互聯(lián)網(wǎng)發(fā)展報告2018》和《中國互聯(lián)網(wǎng)發(fā)展報告2018》藍(lán)皮書數(shù)據(jù)顯示:2017年,中國數(shù)字經(jīng)濟總量達27.2萬億元,對GDP增長貢獻率達55%,全球數(shù)字經(jīng)濟規(guī)模達12.9萬億美元,中國位居全球第二。以互聯(lián)網(wǎng)為代表的信息技術(shù)和人類生產(chǎn)生活深度融合,引領(lǐng)創(chuàng)新,驅(qū)動轉(zhuǎn)型。社交平臺作為數(shù)字經(jīng)濟呈現(xiàn)形式之一,現(xiàn)已是消費者或投資者交換觀點、情感和知識的重要渠道。與調(diào)查問卷、檔案數(shù)據(jù)和訪談記錄等信息源相比,社交平臺數(shù)據(jù)能夠規(guī)避傳統(tǒng)信息收集方式的滯后、缺失和高投入等弊端,具有用戶基數(shù)大、社交性強、涉入性高、響應(yīng)速度快等優(yōu)勢。借助博客、微博和論壇等不同社交平臺在線文本,利用文本挖掘和情感分析技術(shù)可以研究許多相關(guān)主題[1]:使用在線評論分析結(jié)果減少網(wǎng)絡(luò)購物不確定性和風(fēng)險[2],使用社交平臺用戶的產(chǎn)品感知和意見挖掘結(jié)果優(yōu)化產(chǎn)品品質(zhì)和提高品牌價值[3],發(fā)現(xiàn)學(xué)習(xí)社區(qū)對學(xué)習(xí)效果的影響與促進作用[4],檢驗在線投資者情緒與資本市場的關(guān)聯(lián)狀況[5-6]。網(wǎng)絡(luò)社交平臺已成為在線商品和服務(wù)交易數(shù)據(jù)觀察利用空間。黨和政府給予高度評價、期望和要求,十九大報告提出“貫徹新發(fā)展理念,建設(shè)現(xiàn)代化經(jīng)濟體系”?!盎ヂ?lián)網(wǎng)+金融”促進金融體制改革,允許優(yōu)質(zhì)企業(yè)申辦網(wǎng)絡(luò)銀行[7-8],開放小額貸款平臺,允許互聯(lián)網(wǎng)企業(yè)施行消費貸款,利用用戶原創(chuàng)內(nèi)容(user generated content,UGC)分析用戶行為和預(yù)測市場趨勢。

        金融市場規(guī)律研究或趨勢分析有助于金融機構(gòu)和投資者防范金融風(fēng)險、增強現(xiàn)代金融監(jiān)管并促進金融體系良性運轉(zhuǎn)。股市分析技術(shù)證明資本市場有后驗規(guī)律但難以把握未來,股價是否能夠預(yù)測莫衷一是。由于新信息隨機性和不可預(yù)知性,股票價格處于無規(guī)則行走模式,未來價格根本賭注是現(xiàn)在價格,預(yù)測準(zhǔn)確率將不超過50%。然而許多研究結(jié)果表明股價不遵循隨機漫步理論,而是受公司財務(wù)情況、宏觀經(jīng)濟指標(biāo)和歷史交易數(shù)據(jù)等眾多因素影響,可以使用多維度的數(shù)據(jù)預(yù)測[9],股票走勢預(yù)測準(zhǔn)確率到達56%即為滿意[10]。金融學(xué)、心理學(xué)和行為學(xué)等結(jié)合派生的行為金融學(xué)[11]認(rèn)為股票價格并非只由企業(yè)內(nèi)在價值決定,很大程度上受投資者心理和行為影響?;谕顿Y者情緒的股價預(yù)測研究框架主要涵蓋以下三個方面。

        (1)情緒資源。一是網(wǎng)上新聞:金融新聞否定句與股價相關(guān)關(guān)系[12]以及紐約時報和40個世界金融指數(shù)聯(lián)系研究有力支持行為金融學(xué)新經(jīng)濟范式作用[13]。二是社交媒體資源:社交平臺的投資者文本情緒影響股價[14]。由于微博推文內(nèi)容無法聚焦和用戶地理位置無法確定等缺陷[15],近期研究選擇股民聚集度高、話題專業(yè)性強、情緒傳遞性快的財經(jīng)論壇(如StockTwits[16]、Yahoo財經(jīng)網(wǎng)[10,17]和東方財富網(wǎng)[18-20])挖掘投資者情緒。

        (2)情緒指標(biāo)。一是與數(shù)量相關(guān)指標(biāo):Google搜索量(Search Volume Index,SVI)的增長能夠預(yù)示未來兩周股價上漲[21],股吧社區(qū)發(fā)帖量影響股價[20];二是與情緒相關(guān)指標(biāo):各類社交媒體整體情緒與股票回報和投資風(fēng)險有關(guān),且優(yōu)越于傳統(tǒng)媒體[22]。影響股價的情緒可分為六個維度:Calm、Alert、Sure, Vital、Kind和Happy等[6],或者五個維度:強烈買入、買入、中性、賣出和強烈賣出等[18]。

        (3)預(yù)測對象。一是個股股價走勢:多家公司Twitter情緒和異常股票回報相關(guān)[5],投資者瀏覽行為及情緒變化能夠有效預(yù)測股票[23],投資者情緒通過網(wǎng)絡(luò)自媒體傳播會影響多只股票收益[20];二是股票價格指數(shù)(即股指)預(yù)測:滬深300指數(shù)探究投資者情緒與股價存在因果關(guān)系[15,19]。常見預(yù)測股指包括道瓊斯指數(shù)(DJIA)[6]、標(biāo)準(zhǔn)普爾指數(shù)(S&P500)[14]、上證指數(shù)(SSEC)[24]等。

        金融市場預(yù)測方法包含經(jīng)典統(tǒng)計學(xué)的多元回歸模型[18,22]、自向量回歸模型[25]以及支持向量機(support vector machine, SVM)[10,14,24]、神經(jīng)網(wǎng)絡(luò)[6,14,25]、隨機森林[14]等現(xiàn)代機器學(xué)習(xí)方法,SVM和BP神經(jīng)網(wǎng)絡(luò)應(yīng)用最多。傳統(tǒng)回歸分析以嚴(yán)格假設(shè)和充足先驗為前提,難以構(gòu)建有效金融預(yù)測模型,機器學(xué)習(xí)能夠自主學(xué)習(xí)反復(fù)改善和優(yōu)化算法,結(jié)果滿意[26]。其他如Adaboost、LinearSVC等方法遜于SVM和BP神經(jīng)網(wǎng)絡(luò)對復(fù)雜非線性問題的處理。

        許多基于文本挖掘的金融市場關(guān)聯(lián)或預(yù)測文獻研究直接將單一維度情緒變量(積極情緒或消極情緒)直接加入模型,而且少有對非線性和高噪音情緒數(shù)據(jù)進行處理,容易驗證是否與金融市場關(guān)聯(lián),難以取得較好的預(yù)測效果。本文通過抓取東方財富股票論壇數(shù)據(jù),借鑒天氣或事件的金融關(guān)聯(lián)分析過程[27],不僅剔除中性或噪音數(shù)據(jù),而且選取相關(guān)性強的情緒數(shù)據(jù)參與投資者情緒指數(shù)設(shè)計,基于情緒數(shù)據(jù)和股指數(shù)據(jù)非線性特征,利用SVM和BP神經(jīng)網(wǎng)絡(luò)兩類模型進行股指預(yù)測,證明投資者情緒與股指存在內(nèi)在聯(lián)系,并且預(yù)測高效,以期為投資者、上市公司和政府監(jiān)管部門的決策支持提供良好參考價值。

        二、基于文本挖掘和機器學(xué)習(xí)的股指預(yù)測

        基于文本挖掘和機器學(xué)習(xí)的股指預(yù)測內(nèi)容包括股指和情緒兩種數(shù)據(jù)的預(yù)處理和平穩(wěn)性檢驗、預(yù)測組合指數(shù)構(gòu)建及數(shù)據(jù)生成、常用兩種股指預(yù)測的機器學(xué)習(xí)算法檢驗等四個部分。

        (一)股指數(shù)據(jù)獲取與情緒數(shù)據(jù)預(yù)處理

        (1)情緒數(shù)據(jù)獲取與預(yù)處理。投資者情緒文本數(shù)據(jù)源于東方財富網(wǎng)股吧論壇實戰(zhàn)吧,使用Python共抓取帖子368586條,跨度:2016年7月19日至2017年12月29日。通過編寫帖子清洗規(guī)則剔除不能表達投資者情緒的主題帖,共保留帖子217445條。清洗規(guī)則包括圖片(無文字)、鏈接(無文字)、亂符(無意思)和實盤組合(系統(tǒng)自動生成)等四種相關(guān)類型;文本情緒分類方面,利用基于詞典的中文情感分析方法[28]對帖子情感打分。詞典由情感詞、程度副詞和否定詞三類詞匯組成,根據(jù)式(1)計算帖子綜合情感得分。情感詞包括通用情感詞典和專用情感詞(陰跌、利好、誘多、狗莊和割肉等)。

        PostScore=Wr·

        (1)

        其中,PostScore為情感綜合得分,m為一個帖子標(biāo)題的情感詞數(shù)目,n和nn分別為第i個情感詞前面程度副詞數(shù)量和否定副詞數(shù)量;Ws、Wm和Wr分別為對應(yīng)帖子標(biāo)題的各情感詞分值、各標(biāo)點符號分值和反問詞分值;Wd和Wn分別為對應(yīng)情感詞前面的程度副詞分值和否定副詞分值。

        本實驗主要研究積極與消極情緒參與的股指預(yù)測,將不同情緒帖子數(shù)量按天歸類處理,得到一般積極、中度積極、高度積極、一般消極、中度消極、高度消極六個具有情緒傾向的時間序列數(shù)據(jù)[24],分別計入變量PI、PII、PIII、NI、NII、NIII。

        (2)股市交易數(shù)據(jù)獲取。上證指數(shù)(000001)交易數(shù)據(jù)導(dǎo)出自通達信金融終端,時段自2016年7月19日至2017年12月29日356個交易日的歷史信息:收盤價(CLOSE)、開盤價(OPEN)、最高價(HIGH)、最低價(LOW)、成交量(VOL)和成交額(AMO),綜合考慮相關(guān)系數(shù)矩陣結(jié)果及變量實際意義,選取收盤價表示上證指數(shù)數(shù)據(jù)(SSEC)。

        (二)股指數(shù)據(jù)與情緒數(shù)據(jù)平穩(wěn)性檢驗

        (1)數(shù)據(jù)標(biāo)準(zhǔn)化。為消除股票交易數(shù)據(jù)和投資者論壇情緒數(shù)據(jù)間的量綱關(guān)系,提高數(shù)據(jù)可比性,需對兩類數(shù)據(jù)按照式(2)進行標(biāo)準(zhǔn)化(Z-Score)處理,μ為樣本數(shù)據(jù)均值,σ為樣本數(shù)據(jù)標(biāo)準(zhǔn)差。

        z=(x-μ)/σ

        (2)

        (2)單位根檢驗。是通過對時間序列矩的隨機游走檢驗排除統(tǒng)計數(shù)據(jù)的偏誤及模型的偽回歸,保證預(yù)測模型的穩(wěn)定性,不存在單位根則時間序列平穩(wěn)。本文選用ERS(Eiliot, Rothenberg and Sock Point Optimal Test)檢驗單位根,避免檢驗包含常數(shù)項和趨勢變量項。

        檢驗結(jié)果(見表1)表明:SSEC、OPEN、HIGH、LOW四個時間序列變量的ERS檢驗統(tǒng)計值大于在10%置信度下的臨界值,這些時間序列變量包含單位根,是非平穩(wěn)的。

        注:表1和表2中,當(dāng)顯著性水平為1%、5%和10%時,檢驗臨界值分別為1.972、3.240和4.447。

        (3)差分時間序列單位根檢驗。將所有變量按照式(3)進行一階差分運算后得到新的序列變量,分別記作:DSSEC、DOPEN、DHIGH、DLOW、DVOL、DAMO、DPI、DPII、DPIII、DNI、DNII、DNIII,Xt和Xt-1分別為t和t-1時段變量值。

        D(X)=Xt-Xt-1

        (3)

        對一階差分后各時間序列進行單位根檢驗(見表2)發(fā)現(xiàn):ERS統(tǒng)計值均小于在1%置信度下的臨界值,最大ERS值為0.233,各時間序列趨于平穩(wěn)狀態(tài)。

        (三)選取相關(guān)數(shù)據(jù)生成組合指數(shù)數(shù)據(jù)

        (1)相關(guān)性分析。上證指數(shù)歷史交易數(shù)據(jù)變量差分后采用Pearson相關(guān)分析法發(fā)現(xiàn)各變量相互影響且存在相關(guān)性(見表3),可進行有效的股指預(yù)測。本文將選取DOPEN、DHIGH、DLOW、DVOL、DAMO五個變量構(gòu)造上證交易組合指數(shù)。

        表2 差分時間序列的單位根檢驗

        表3 各變量間的相關(guān)系數(shù)矩陣

        注:**表示在1%水平(雙側(cè))上顯著相關(guān)。

        (2)Granger因果關(guān)系檢驗。假設(shè)投資者易受其他投資者情緒影響而選擇非理性投資,需要對上證指數(shù)和六組投資者情緒時間序列進行Granger因果關(guān)系檢驗,分析和驗證投資者情緒變化是否關(guān)乎市場波動,是否能夠預(yù)測股指信息[6]。Granger因果關(guān)系檢驗解釋是:變量x是否為變量y的產(chǎn)生原因可以觀察當(dāng)前y在多大程度上能被過去x解釋。如果x滯后值能提高y解釋程度,說明x有助于y的預(yù)測,y是由x的Granger因果引起[29]。盡管Granger因果關(guān)系檢驗結(jié)果不等于實際因果關(guān)系,但本文目的不是測試實際因果關(guān)系,而是測試投資者情緒時間序列是否存在上證指數(shù)時間序列的預(yù)測信息。

        除去雙休日和法定節(jié)假日,股票實際交易日為一周5天,滯后期可分別選取為1天到5天。Granger因果關(guān)系檢驗結(jié)果(見表4)表明:一般積極情緒(DPI)在滯后1天到滯后3天與上證指數(shù)存在較為顯著的Granger因果關(guān)系(p值<0.04)。圖1為DPI(t-3)和DSSEC(t)兩個時間序列對比圖,陰影部分表示DSSEC與滯后3天的DPI時間序列存在重疊或者有相同趨勢。無論是Granger因果關(guān)系檢驗結(jié)果還是時間序列圖,都可從中得出一般積極情緒與上證指數(shù)存在顯著相關(guān)關(guān)系,即DPI可用于預(yù)測上證指數(shù)。

        表4 Granger因果關(guān)系檢驗結(jié)果

        注:表格中的數(shù)值為p值,表示“檢驗行名稱不是SSEC因果關(guān)系”,其中*表示在顯著性水平為5%下顯著。

        圖1 上證指數(shù)與一般積極時間序列情緒對比圖注:灰色背景部分為上證指數(shù)和滯后3天的一般積極情緒走勢相同區(qū)域。

        (3)因子分析和指數(shù)構(gòu)建。本文選用多維度指標(biāo)方法避免投資者情緒使用單一指標(biāo)代理變量的代理有偏和信息不足問題,通過對六個變量(DOPEN、DHIGH、DLOW、DVOL、DAMO、DPI)因子分析得出上證投資者情緒綜合指數(shù)(SSECInvestor Sentiment Index,SSECISI)。為驗證投資者情緒對股指預(yù)測的高效性,從SSECISI中剔除DPI,僅利用DOPEN、DHIGH、DLOW、DVOL、DAMO五個變量構(gòu)建上證交易組合指數(shù)(SSECPortfolio Index,SSECPI)。使用主成分分析法先對因子載荷矩陣進行方差最大正交變換求得因子得分(式4)和方差貢獻率(見表5),然后根據(jù)因子得分和方差貢獻率的加權(quán)平均(式5)獲得SSECPI和SSECISI數(shù)據(jù)[29]。

        Fj=βj1X1+βj2X2+…+βjpXp,j=1,2,…,m

        (4)

        其中,F(xiàn)j為因子j的因子得分,βjp為成份Xp的因子得分系數(shù)。

        (5)

        其中,F(xiàn)為綜合得分,即本文構(gòu)造的指數(shù),Vj為因子j的貢獻率。

        (四) 兩種預(yù)測方法股指預(yù)測檢驗

        (1)建模預(yù)測。Granger因果關(guān)系檢驗表明情緒數(shù)據(jù)含有股指走勢信息,可以選取預(yù)測方法構(gòu)建預(yù)測模型?;谇榫w數(shù)據(jù)和股指數(shù)據(jù)的非線性特征以及機器學(xué)習(xí)模型的良好非線性數(shù)據(jù)處理能力[26],本文選取構(gòu)建機器學(xué)習(xí)預(yù)測模型,希望能很好解釋投資者情緒與股指趨勢的非線性關(guān)系。因為SVM和BP神經(jīng)網(wǎng)絡(luò)都能處理非線性數(shù)據(jù)而又各有所長,本文則采用SVM和BP兩種方法對比驗證,避免隨機和偶然,以發(fā)現(xiàn)更好的適用方法。

        建模前先將356個交易日的上證指數(shù)和投資者情緒數(shù)據(jù)作為樣本,根據(jù)不同時長分為三組:第1組時長18個月,起始日期為2016/07/19,樣本量、訓(xùn)練集、測試集分別為365、267、89天;第2組時長9個月,起始日期為2017/04/05,樣本量、訓(xùn)練集、測試集分別為185、136、49天;第3組時長4.5個月,起始日期為2017/08/16,樣本量、訓(xùn)練集、測試集分別為93、72、21天。為檢驗上證投資者情緒綜合指數(shù)對上證指數(shù)收盤價預(yù)測結(jié)果的影響,特設(shè)計3組不同排列的輸入變量:P0,PSSECPI和PSSECISI。P0選取上證指數(shù)交易日t前3天的收盤價(SSECt-3,2,1),PSSECPI和PSSECISI是在P0基礎(chǔ)上分別加入滯后1天至3天的交易組合指數(shù)(SSECPIt-3,2,1)和投資者情緒綜合指數(shù)(SSECISIt-3,2,1),如式(6)所示:

        (6)

        本實驗使用BP神經(jīng)網(wǎng)絡(luò)和SVM兩種方法對三組輸入向量分別實驗。實驗前通過歸一化處理消除變量量綱,將數(shù)據(jù)歸于[0,1]之間,如式(7)所示:

        X*=(X-Xmin)/(Xmax-Xmin)

        (7)

        其中,Xmax和Xmin分別為測試集中各變量的最大和最小值。

        運行環(huán)境與參數(shù)設(shè)置方面,BP神經(jīng)網(wǎng)絡(luò):Kosmogorov定理證明合理結(jié)構(gòu)和恰當(dāng)權(quán)值的三層前饋網(wǎng)絡(luò)具備逼近任意連續(xù)函數(shù)能力,故隱含層層數(shù)皆設(shè)置為1;根據(jù)反復(fù)實驗和擇優(yōu)原則,設(shè)置隱含層神經(jīng)元個數(shù)為6;學(xué)習(xí)速率為0.01,最小訓(xùn)練誤差目標(biāo)為0.001,最大迭代次數(shù)為100。SVM:數(shù)值型變量分類方式采用∈類支持向量回歸機(EPS-SVR),Kernel非線性映射函數(shù)(核函數(shù))選取雙曲正切函數(shù)(Tanhdot),核參數(shù)為1/k(k為特征向量的個數(shù)),懲罰參數(shù)C為1。

        表5 SSECPI與SSECISI因子分析結(jié)果

        采用走勢準(zhǔn)確率(Direction,向上或向下)對SVM和BP神經(jīng)網(wǎng)絡(luò)的預(yù)測精度進行評價。其定義如下:

        (8)

        (2)算法準(zhǔn)確率檢驗。本文分別采用BP神經(jīng)網(wǎng)絡(luò)和SVM方法對P0、PSSECPI、PSSECISI三組樣本進行實驗得股指走勢準(zhǔn)確率對比結(jié)果(見表6):SVM預(yù)測準(zhǔn)確率普遍優(yōu)于BP神經(jīng)網(wǎng)絡(luò);SVM-PSSECISI模型預(yù)測準(zhǔn)確率在59%-70%,大于股指預(yù)測準(zhǔn)確率滿意值56%[12],具有有效性;兩種預(yù)測方法的平均預(yù)測準(zhǔn)確率發(fā)現(xiàn)PSSECISI>PSSECPI>P0,說明上證交易組合指數(shù)模型比純股指預(yù)測模型的預(yù)測準(zhǔn)確率高,而上證投資者情緒綜合指數(shù)模型又比上證交易組合指數(shù)模型的預(yù)測準(zhǔn)確率更高。綜合結(jié)果表明使用機器學(xué)習(xí)進行股指預(yù)測,SVM方法下的投資者情緒數(shù)據(jù)參與的綜合預(yù)測模型最優(yōu)。

        表6 BP神經(jīng)網(wǎng)絡(luò)與SVM模型走勢準(zhǔn)確率(%)

        (五)預(yù)測效果與技術(shù)分析

        (1)預(yù)測效果分析。本實驗中SVM預(yù)測效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò),可能原因是BP神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)的欠擬合和過擬合問題,而SVM核函數(shù)能將復(fù)雜非線性問題轉(zhuǎn)變?yōu)榫€性問題,增強魯棒性;PSSECPI>P0的原因在于市場交易的收盤價不由單一歷史收盤價決定,而是歷史多期多指標(biāo)(開盤價、最高價、最低價、成交量、成交額)的共同作用,類似于量價技術(shù)分析模型(Trade Amount Per Index,TAPI)效果;PSSECISI>PSSECPI的原因是多指標(biāo)數(shù)據(jù)綜合效應(yīng)依然不能完全準(zhǔn)確決定市場趨勢,不能全面反映投資者的主客觀決策依據(jù)。資本市場投資決策的復(fù)雜性說明需要補充更多的信息來源(如投資者情緒數(shù)據(jù))才能盡量準(zhǔn)確預(yù)判市場趨勢;時長對比結(jié)果并不全是第3組>第2組>第1組,但第3組最優(yōu),第2組在所有BP神經(jīng)網(wǎng)絡(luò)算法下低于第1組,在SVM算法下PSSECPI效果低于第1組,說明時長在預(yù)測中的重要性,第3組單季度范圍數(shù)據(jù)預(yù)測效果可能因為無周期成分?jǐn)_動而好于另外兩組,年度數(shù)據(jù)與三個季度數(shù)據(jù)則出現(xiàn)預(yù)測準(zhǔn)確率排序不確定現(xiàn)象;另外,預(yù)測準(zhǔn)確度還與數(shù)據(jù)采集和預(yù)處理相關(guān),清洗規(guī)則、標(biāo)準(zhǔn)化方法和情感詞典完備性都會影響在線情緒數(shù)據(jù)質(zhì)量。

        (2)文本挖掘技術(shù)。以文本格式為主導(dǎo)的網(wǎng)絡(luò)非結(jié)構(gòu)化數(shù)據(jù)據(jù)稱占據(jù)全球全部數(shù)據(jù)量80%以上,包括電子郵件、文件、報告、表格、通話記錄、新聞稿、博客、微博、微信、問答、論壇、評論等,而純數(shù)字化數(shù)據(jù)占比較少。文本挖掘成為新型商業(yè)分析需求技術(shù),用以觀察各類商業(yè)行為及其效果。本文預(yù)測效果分析先決條件就是文本挖掘系列技術(shù):文本數(shù)據(jù)采集和清洗、文本數(shù)據(jù)分詞、文本情感詞典構(gòu)建、文本數(shù)據(jù)情感打分、情感數(shù)據(jù)標(biāo)準(zhǔn)化等。如輿情和評價等其他文本數(shù)據(jù)一樣,一方面,金融論壇情緒數(shù)據(jù)獲取與加工過程雖然沒有太大的技術(shù)難度,但會遇到前所未有的相應(yīng)領(lǐng)域數(shù)據(jù)處理規(guī)則問題:數(shù)據(jù)采集規(guī)則、數(shù)據(jù)清洗規(guī)則、情感詞判分規(guī)則、情感語句判分規(guī)則等。這些已有的文本數(shù)據(jù)加工規(guī)則都稱不上完善或標(biāo)準(zhǔn),目前還需要根據(jù)具體場景生成相關(guān)參數(shù)。另一方面,預(yù)測只能利用部分?jǐn)?shù)據(jù)成分,而且是參與預(yù)測。獲取文本時序數(shù)據(jù)后,再進行標(biāo)準(zhǔn)化后就可以參與分析和預(yù)測。本文在預(yù)測前還做對數(shù)據(jù)進行平穩(wěn)性檢驗和相關(guān)分析,發(fā)現(xiàn)股指數(shù)據(jù)和加工所得的情緒數(shù)據(jù)都存在較大波動(非平穩(wěn)性),轉(zhuǎn)而思考使用差分?jǐn)?shù)據(jù),檢驗合規(guī)后進行相關(guān)分析,結(jié)果是一般積極情緒與股指有明顯的相關(guān)。然后使用相關(guān)文本數(shù)據(jù)成分與股指其他指標(biāo)組合構(gòu)建新預(yù)測指數(shù)數(shù)據(jù),而不是直接使用文本數(shù)據(jù)預(yù)測股指趨勢。

        (3)機器學(xué)習(xí)預(yù)測技術(shù)。機器學(xué)習(xí)技術(shù)用于解決常規(guī)非線性問題,本文股指與文本兩樣數(shù)據(jù)都是非線性數(shù)據(jù),不宜使用平滑類預(yù)測模型,而是選取BP神經(jīng)網(wǎng)路和SVM兩種常用機器學(xué)習(xí)模型進行股指預(yù)測,并發(fā)現(xiàn)更為適用的模型,結(jié)果是SVM算法優(yōu)于BP神經(jīng)網(wǎng)絡(luò),其他應(yīng)用場景也可能相反。為觀察時長影響,在預(yù)測過程分別使用三組時長不等數(shù)據(jù)對比試驗,結(jié)果是短時預(yù)測效果更好。這說明基于文本非線性數(shù)據(jù)的預(yù)測研究需要考察方法、模型和時長等多維情形,更為復(fù)雜的數(shù)據(jù)可以采用機器學(xué)習(xí)與小波分析相結(jié)合預(yù)測。針對復(fù)雜的非線性數(shù)據(jù)源,預(yù)測的科學(xué)化、嚴(yán)謹(jǐn)性還需要更好的基準(zhǔn)數(shù)據(jù)庫和算法才能實現(xiàn)??拼笥嶏w人為參與機器同傳事件說明機器學(xué)習(xí)目前還不具備理想的算法,要求機器實時隨機同傳翻譯則忽視個性化語音和專業(yè)化詞匯訓(xùn)練過程。如無大量語料庫作用,機器學(xué)習(xí)難以勝任無規(guī)律的隨機問題(未加訓(xùn)練的方言、術(shù)語和外來詞等)。如果允許預(yù)先降噪和優(yōu)化原始數(shù)據(jù),滯后機器學(xué)習(xí)就會更好。另外,機器學(xué)習(xí)今天被廣泛地應(yīng)用于人工智能,實現(xiàn)途徑就是完善地專業(yè)數(shù)據(jù)庫和場景適用算法,諸如可接受的網(wǎng)絡(luò)翻譯和語音識別等普適性業(yè)務(wù)以及多數(shù)據(jù)源的投資理財服務(wù)等。

        三、結(jié)論

        通過抓取網(wǎng)絡(luò)論壇情緒文本,提取金融專業(yè)詞匯進行文本挖掘,實現(xiàn)文本挖掘數(shù)據(jù)的專業(yè)化和精準(zhǔn)化;應(yīng)用關(guān)聯(lián)分析方法構(gòu)建投資者情緒綜合指數(shù),消除直接使用情緒數(shù)據(jù)進行預(yù)測的有偏性;利用機器學(xué)習(xí)方法設(shè)計良好的股指預(yù)測模型,提升股指走勢預(yù)測準(zhǔn)確性,證明基于SVM的上證投資者情緒綜合指數(shù)模型進行股指預(yù)測更加有效。

        在線情緒數(shù)據(jù)可不可用?怎么利用?怎樣用得更好?“可不可用”其實還是認(rèn)識問題:主觀性、隨意性和主體差異性綜合形成在線情緒數(shù)據(jù)的復(fù)雜性,情感詞匯量化精準(zhǔn)性影響在線情緒數(shù)據(jù)測度的科學(xué)性。在線情緒數(shù)據(jù)為現(xiàn)代研究接受與采用的主要原因是規(guī)模上超越局部復(fù)雜性和科學(xué)性的大數(shù)據(jù)宏觀統(tǒng)計規(guī)律;“怎么利用”問題是要超越傳統(tǒng)科學(xué)的因果律以大數(shù)據(jù)思維發(fā)現(xiàn)事物內(nèi)在或外在關(guān)聯(lián)性。在線情緒數(shù)據(jù)已被研究者用于數(shù)據(jù)挖掘,發(fā)現(xiàn)和驗證市場規(guī)律,預(yù)測市場走勢。專業(yè)數(shù)據(jù)公司和數(shù)據(jù)擁有者已開始使用在線大數(shù)據(jù)對用戶開展跟蹤畫像、精準(zhǔn)推薦、輔助產(chǎn)品和服務(wù)設(shè)計、市場定價等諸多行為決策;在線情緒數(shù)據(jù)要“用得更好”前提是:建構(gòu)包容網(wǎng)絡(luò)語言的數(shù)據(jù)化、科學(xué)化和動態(tài)化專業(yè)詞庫,使用結(jié)構(gòu)化界面設(shè)計記錄網(wǎng)絡(luò)用戶結(jié)構(gòu)化數(shù)據(jù)(星級、關(guān)鍵詞、摘要、數(shù)據(jù)圖片),通過文本分析算法自動生成關(guān)鍵詞,應(yīng)對現(xiàn)階段人工智能技術(shù)還未完全成熟的情況。

        四、面向不同主體的決策支持建議

        數(shù)據(jù)分析和決策支持離不開國內(nèi)外經(jīng)濟形勢研判,中美貿(mào)易摩擦逐漸深入和激烈,科技和金融是中美最大差距領(lǐng)域,也是增強我國經(jīng)濟驅(qū)動力的兩個方向:硬策略和軟策略?;ヂ?lián)網(wǎng)技術(shù)學(xué)習(xí)與應(yīng)用最為成功,主要歸因于我國政府對此因勢而謀、應(yīng)勢而動和順勢而為的默許、鼓勵、支持和管控。金融市場雖與市場經(jīng)濟同時開啟,但未在經(jīng)濟總量大幅攀升中獲取經(jīng)驗,歷經(jīng)多次股災(zāi),投資者、上市公司和監(jiān)管部門依然存在非理性行為。十九大報告強調(diào)我國當(dāng)前三大攻堅戰(zhàn):防范和化解重大風(fēng)險、精準(zhǔn)脫貧、污染防治,以解決經(jīng)濟快速發(fā)展引致的潛在和顯性的宏觀大問題。后兩項解決三農(nóng)和環(huán)境問題,消除貧困和增加消費,改善環(huán)境和提高生活品質(zhì)。重中之重的是重大風(fēng)險問題,包括金融失控風(fēng)險、結(jié)構(gòu)失衡風(fēng)險、生產(chǎn)過剩風(fēng)險以及多種風(fēng)險組合形成的整體系統(tǒng)風(fēng)險。因此,資本市場各個主體和服務(wù)支持者(在線平臺和專業(yè)數(shù)據(jù)企業(yè))要充分利用各類大數(shù)據(jù),順應(yīng)國家和社會需求,積極穩(wěn)定地投資該投資的,支持該支持的,管制該管制的。積極收集網(wǎng)絡(luò)用戶的聲音和挖掘網(wǎng)絡(luò)用戶需求,汲取經(jīng)驗,預(yù)判未來,理性決策,防范各類金融風(fēng)險。

        第一,分析和利用在線投資者情緒數(shù)據(jù),防范社會金融系統(tǒng)風(fēng)險,保障市場健康發(fā)展。歷次金融危機說明資本市場有其自身的周期律,經(jīng)濟過熱、流動失控、技術(shù)瓶頸、國家競爭和資本操控等復(fù)雜成因的單一或綜合作用會導(dǎo)致一國或多國金融系統(tǒng)風(fēng)險,監(jiān)管部門需要將在線投資者情緒數(shù)據(jù)和行為金融學(xué)研究成果納入市場監(jiān)管新依據(jù)。僅采用交易數(shù)據(jù)甄別擾亂市場的違法違規(guī)操作不具備普遍監(jiān)管效果。監(jiān)管部門分析和利用在線投資者情緒數(shù)據(jù):了解廣大投資者對于資本市場整體態(tài)度和輿情態(tài)勢以及對于監(jiān)管措施的意見和建議,追蹤金融事件和極端問題,及時調(diào)整監(jiān)管方向并快速切入監(jiān)管相關(guān)市場主體。監(jiān)管部門還能夠從數(shù)據(jù)分析在線投資者情緒,監(jiān)管和防范股市劇烈波動,杜絕個人或機構(gòu)發(fā)表批量輿論操控股價。

        第二,完善面向大數(shù)據(jù)的技術(shù)能力,防范平臺技術(shù)安全風(fēng)險,增加平臺數(shù)據(jù)收益。如電商平臺一樣,社交平臺正常運營需要設(shè)備和技術(shù)保證。阿里、百度、京東、騰訊、當(dāng)當(dāng)?shù)葒鴥?nèi)著名互聯(lián)網(wǎng)公司都發(fā)生過宕機事件,折射出因用戶量、數(shù)據(jù)量和峰值要求的技術(shù)安全問題。目前用戶消費、溝通交流和娛樂等生活習(xí)慣都已經(jīng)網(wǎng)絡(luò)化,勢必增加了平臺數(shù)據(jù)流量,同時也挑戰(zhàn)平臺承載能力。在軟硬件技術(shù)保障的前提下,除了收割廣告和流量收益外,平臺企業(yè)利用在線投資者情緒數(shù)據(jù)還可以:在法律允許范圍內(nèi)售賣用戶行為數(shù)據(jù)獲利,采用外包或自行分析方式獲得數(shù)據(jù)分析中間成果或最終成果并進行售賣獲利。平臺企業(yè)進行數(shù)據(jù)分析的優(yōu)越性在于數(shù)據(jù)的完備性,有利于個股、單個投資者、板塊和整體股指的深入和精準(zhǔn)分析,趨勢預(yù)測和薦股結(jié)果會更加讓人信服。平臺競爭本質(zhì)上就是技術(shù)、服務(wù)和用戶的競爭,繼而是服務(wù)器群、數(shù)據(jù)量和數(shù)據(jù)分析與挖掘的競爭,保障安全,攫取數(shù)據(jù)收益。

        第三,成立大數(shù)據(jù)分析部門,助力上市公司研判市場趨勢,精準(zhǔn)投融資決策。資本市場行情影響上市公司財務(wù)戰(zhàn)略決策,利好行情會有更多資本進入,方便增發(fā)股票和加大融資,也方便購買股票和加大投資。在線情緒數(shù)據(jù)能夠幫助上市公司判斷投資者對資本市場行情的主觀評價與投資愿望,相關(guān)研究結(jié)果有助于上市公司判斷資本市場行情,及時做好融資和投資決策。新建大型或小型社交網(wǎng)站或在著名社交網(wǎng)站平臺開設(shè)企業(yè)專欄用于發(fā)現(xiàn)投資者的情緒信息和評價細(xì)節(jié),并做好公司運營層面的管理與控制,通過積極的經(jīng)營戰(zhàn)略和積極的在線承諾防止相關(guān)負(fù)面情緒擴大化,保持良好聲譽和品牌價值;有條件的上市公司建議成立大數(shù)據(jù)部門,招聘數(shù)據(jù)分析與挖掘人才,實現(xiàn)多源數(shù)據(jù)分析和利用的專業(yè)化和科學(xué)化,形成更為精準(zhǔn)的投融資決策;小型上市公司可通過多種渠道購買在線情緒數(shù)據(jù)或者數(shù)據(jù)分析結(jié)果,觀察市場,了解自己,把握先機。

        第四,關(guān)注在線情緒數(shù)據(jù)和相關(guān)成果,增強個體投資合理性和穩(wěn)健性,避免盲從風(fēng)險。投資成為人們?nèi)粘I铌P(guān)鍵訴求,然而普遍存在一種“賭徒式”投機心理和“傳銷式”操作模式,無視交易數(shù)據(jù)、基本面數(shù)據(jù)和資本市場規(guī)律,缺乏對在線情緒數(shù)據(jù)的觀察、分析與思考。非法股評專家、薦股師和金融衍生品的推銷者利用微信群或QQ群誘導(dǎo)盲目的投資者。大量股民的非理性為個人或機構(gòu)提供操縱股票的信心而導(dǎo)致股市劇烈波動,形成監(jiān)管難度和散戶損失。因此,個體投資者需要關(guān)注網(wǎng)絡(luò)上其他投資者情緒數(shù)據(jù)和相關(guān)研究成果,輔助其他投資技術(shù)方法,參照基本面數(shù)據(jù)和交易走勢數(shù)據(jù),利用在線情緒數(shù)據(jù)的共識性投資態(tài)度和傾向,進行合理投資決策,避免投資過熱和消極投資。

        第五,理性對待人工智能熱,優(yōu)化資本布局,遵循技術(shù)與商業(yè)協(xié)同發(fā)展規(guī)律。資本布局首要追求是高回報,也易在經(jīng)濟熱度上迷信“高風(fēng)險”。普華永道預(yù)測:2030年,中國GDP將達38萬億美金,有7 萬億美金為人工智能(AI)驅(qū)動。高盛預(yù)測:2025年,全球AI金融服務(wù)規(guī)模達340-430億美元,AI零售業(yè)規(guī)模將會高達540億美元。國際權(quán)威機構(gòu)CB Insights統(tǒng)計:2017年,全球范圍內(nèi)有152億美元投資進入AI領(lǐng)域,中國公司為73億美元,占比48%,位列第一。2017年被稱為AI商業(yè)化元年。與之相反的數(shù)據(jù)是騰訊研究院的AI研究報告:中美倒閉AI企業(yè)總數(shù)已超過50家,AI企業(yè)將迎來“倒閉潮”。原因是一些急功近利的資本誤入商業(yè)上的“偽創(chuàng)新”和“偽概念”,無視或不清楚“自動”、“智能”與“智慧”的區(qū)別。投資主體和支持平臺都需要理性認(rèn)識技術(shù)演進和拓展規(guī)律,保障AI技術(shù)與商業(yè)協(xié)同發(fā)展,重實干、重過程和重階段,承擔(dān)機會風(fēng)險而不是技術(shù)瓶頸風(fēng)險。技術(shù)瓶頸的突破可由研究機構(gòu)和部門借助政府基金和高風(fēng)險研發(fā)資本先行攻關(guān)實現(xiàn)。

        第六,共享服務(wù)平臺與大數(shù)據(jù)信息,實現(xiàn)城市發(fā)展的智慧化、特色化和均衡化。全國范圍內(nèi),應(yīng)該拆除各類公路收費站、取消各類通信區(qū)域限制(長途電話)、升級通信技術(shù)服務(wù)(5G技術(shù))、完善各級政府辦公及政策信息和各類企業(yè)生產(chǎn)與服務(wù)信息。城市群范圍內(nèi),在交通、住房和相關(guān)配套服務(wù)都已逐步完備的條件下,需要通過現(xiàn)代通信和大數(shù)據(jù)技術(shù)獲取各類在線市民聲音,改進各類民生服務(wù),逐步實現(xiàn)城市群內(nèi)的各類信息智慧化共享。在此基礎(chǔ)上實現(xiàn)城市發(fā)展的特色化和均衡化:供應(yīng)鏈上,大型城市發(fā)展企業(yè)集團總部,中型城市發(fā)展企業(yè)分部,小型城市發(fā)展零部件生產(chǎn)基地;產(chǎn)業(yè)升級上,相對發(fā)達的城市可以傾向于發(fā)展芯片、新材料、精密加工等高端研發(fā)和制造產(chǎn)業(yè),相對落后的城市可以優(yōu)先發(fā)展人工智能應(yīng)用、大數(shù)據(jù)分析、軟件外包等輕、快、高產(chǎn)業(yè)。

        猜你喜歡
        情緒文本
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        小情緒
        小情緒
        小情緒
        小情緒
        小情緒
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        久久中文字幕人妻淑女| 五月天综合社区| 天堂av在线一区二区| 麻豆久久91精品国产| 综合色就爱涩涩涩综合婷婷 | 久久久久久成人毛片免费看| 人妻无码人妻有码不卡| 国产成人综合久久大片| 国产国语亲子伦亲子| 内射精品无码中文字幕| 色噜噜狠狠色综合欧洲| 手机在线免费观看的av| а√中文在线资源库| 中文字幕精品久久久久人妻红杏1| 久久乐国产精品亚洲综合| 精品国产三级a| 丰满少妇一区二区三区专区| 国产愉拍91九色国产愉拍| 中文乱码字幕精品高清国产 | 国产精品亚洲av三区亚洲| 精品久久欧美熟妇www| 久久亚洲sm情趣捆绑调教| 久久精品国产成人午夜福利| 人妻少妇艳情视频中文字幕| 麻豆╳╳╳乱女另类| 可以免费在线看黄的网站| 日本一本二本三本道久久久| 国产免费牲交视频| 欧美v亚洲v日韩v最新在线| 国产精品女丝袜白丝袜| 日韩一区二区三区人妻中文字幕| 最新国产精品拍自在线观看| 成人综合网亚洲伊人| 免费无码黄网站在线观看| 成人麻豆视频免费观看| 国产亚洲精品久久久ai换| 久久久久久99精品| 一区二区三区精品免费| 精品无码久久久久久久久| 亚洲精品国产成人无码区a片| 亚洲AV无码成人精品区H|