亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向異構(gòu)金融數(shù)據(jù)的情感分析方法研究

        2019-08-12 03:44:44鄭天宇
        現(xiàn)代計算機(jī) 2019年19期
        關(guān)鍵詞:輿情股票權(quán)重

        鄭天宇

        (上海海事大學(xué)信息工程學(xué)院,上海201306)

        0 引言

        基于網(wǎng)絡(luò)的技術(shù)不斷被金融領(lǐng)域所接受,投資者可以在線下輕而易舉地獲得關(guān)于上市公司的經(jīng)營信息。隨著2000 億條微博被國家圖書館保存,輿情作為一種新的消息來源與分析媒介在生活和工作中越來越重要地得以展現(xiàn)。新聞網(wǎng)站和股吧作為一種金融界信息發(fā)布與交換的方式,已逐漸成為消息披露和交易決策交換等相關(guān)信息的主要來源。輿情網(wǎng)站為各個領(lǐng)域的投資者提供了一個平臺,使得人們可以聚集在一起,接收并分享他們對公司股票的看法。但由于關(guān)鍵的信息隱藏在大量數(shù)據(jù)中,從海量文本中獲取有用的信息仍然很困難,投資決策者幾乎不可能閱讀完相關(guān)網(wǎng)站并羅列出所有信息,因此提供可以準(zhǔn)確獲取輿情信息的方法可以極大地幫助投資者進(jìn)行投資決策[1-3]。

        網(wǎng)站中包含的數(shù)據(jù)幾乎沒有結(jié)構(gòu)化的,如何有效地處理和利用非結(jié)構(gòu)化數(shù)據(jù)是一個具有挑戰(zhàn)性的機(jī)器學(xué)習(xí)問題。在金融網(wǎng)站的新聞發(fā)布子模塊,每個數(shù)據(jù)條目都與某一時刻股票的表現(xiàn)及市場看法有關(guān),將此看作可用時間序列表示的金融異構(gòu)數(shù)據(jù)[4]。某些主題詞語和主題的頻率均是隨時間變化的,對股票的看法也隨著時間的推移及其在證券交易所的種種行為表現(xiàn)而變化。也就是說股票的情緒展現(xiàn)和股價走勢及外部事件之間存在相關(guān)性,Chen 等人[5]發(fā)現(xiàn)多種信息源頭例如博客等可以密切預(yù)測股市行為。

        1 系統(tǒng)概述

        第一步涉及數(shù)據(jù)采集,我們從cnstock 抓取了金融新聞消息板并將數(shù)據(jù)利用pymongo 存儲在MongoDB中。下一步是從非結(jié)構(gòu)化數(shù)據(jù)中提取消息。首先進(jìn)行預(yù)處理,刪除常見HTML 標(biāo)簽提取有用的部分,如我們需要的日期、作者、消息文本等。然后基于提取的信息構(gòu)建情感分類器。通過比對異構(gòu)數(shù)據(jù)預(yù)測出的情感與該支股票的日線數(shù)據(jù)得到的實際價值,給對應(yīng)的先前新聞打上“看漲”、“看跌”的標(biāo)簽并由新算法計算出新聞作者總體的情感閾值,利用此步驟對一支股票相關(guān)的未打標(biāo)簽的新聞異構(gòu)文本構(gòu)建新特征集進(jìn)行文本分析。系統(tǒng)架構(gòu)如圖1 所示。

        1.1 數(shù)據(jù)收集

        基于Scrapy 和Redis 的分布式技術(shù)編寫爬蟲。crawler_cnstock、crawler_jrj 主要爬取中國證券網(wǎng)、金融界匯總的股票新聞模塊的新聞標(biāo)題、內(nèi)容、作者、時間、網(wǎng)址,由于服務(wù)器時而存在無響應(yīng)問題,我們重復(fù)運(yùn)行爬蟲匯總了三日內(nèi)的異構(gòu)文本數(shù)據(jù)。為了獲取滬深股票的行情表現(xiàn)數(shù)據(jù),我們從Tushare 獲取日線數(shù)據(jù),特征包括開盤價、最高價、最低價、成交額、股票代碼、名稱、板塊等信息。

        圖1 新聞文本計算情感權(quán)重預(yù)測股票表現(xiàn)系統(tǒng)構(gòu)架

        提取相關(guān)信息后,依次對爬取入庫的新聞文本進(jìn)行去停用詞、加載股票名稱新詞、將語料庫中每段異構(gòu)信息轉(zhuǎn)換為單個詞語和作者(包括姓名及新聞機(jī)構(gòu)名稱)的向量,日期我們采取映射成整數(shù)值的形式,使用TF-IDF 公式計算向量中每個條目的值:

        TF-IDF(詞頻-逆文檔頻率)用于評估包含單詞或特征的條目對語料庫中整體信息的重要程度,隨該條目在某一文章出現(xiàn)次數(shù)增加而重要比例增加,隨在語料庫中出現(xiàn)頻率的增加而重要程度衰減。

        1.2 情感預(yù)測

        首先假設(shè)公司發(fā)布的官方新聞與股票的表現(xiàn)有很高的相關(guān)性。同樣地,在股票表現(xiàn)發(fā)生劇烈變化時,跟風(fēng)的新聞機(jī)構(gòu)的情感也可能發(fā)生變化?;谝陨现庇X,我們將情感建模為一種有條件依賴于過去一天的輿情和股票價值的馬爾科夫過程。即在時刻i,對新聞m 的情感建模如下:

        i+1 時刻的預(yù)測會取決于先前i 時刻的值,Mi 為i時刻的消息集,SVi 為i 時刻的股票價值表現(xiàn)(以收盤價為例)。選擇合適的學(xué)習(xí)算法訓(xùn)練上述模型的參數(shù)。由于未來將面臨較大異構(gòu)數(shù)據(jù)集的考驗,我們使用樸素貝葉斯及決策樹進(jìn)行訓(xùn)練。

        1.3 情感權(quán)重值計算

        基于有些新聞發(fā)布機(jī)構(gòu)對于金融市場更加權(quán)威這一觀點,專業(yè)的金融分析報道者理應(yīng)獲得更多的情感權(quán)重值,這意味著他們發(fā)布的輿論比其他人發(fā)布的觀點更為可信且重要。但根據(jù)用戶畫像獲得作者的背景在情感分析的領(lǐng)域往往較為困難,面相媒體輿情的情感分析很少去獲得輿情源頭的畫像資料,因為就像有些股吧論壇中的這些特征用戶可以任意填入他們自己有關(guān)的背景信息,有些媒體機(jī)構(gòu)也可以留下無用或是不準(zhǔn)確的信息。

        我們使用算法依據(jù)輿情創(chuàng)作人在他們資料中的歷史表現(xiàn)來計算作者的情感權(quán)重值,對每條信息使用情感預(yù)測步驟得出作者的情感傾向可能,并將該信息發(fā)布時間附近的實際股價表現(xiàn)進(jìn)行橫向比較,如果作者表達(dá)的情感傾向符合實際股價表現(xiàn),那么作者或新聞機(jī)構(gòu)的情感權(quán)重值將會增加。考慮到一個公式(5)、(6)除了在方向上可以計算符合度方向,還可以關(guān)注幅度,例如:上述步驟訓(xùn)練出作者情感為強(qiáng)烈沽空一只股票,但股票表現(xiàn)的收盤價僅略有下降,那么作者也不會得到太多情感權(quán)重。

        其中,SentimentProbability 表示情感傾向概率,MidScore 為設(shè)置的常數(shù),在情感傾向中通常設(shè)置為表示中性的0.5,StockChange 為收盤價較昨日收盤價的漲跌百分比,將此項和情感傾向概率組合作為權(quán)重賦給新聞作者的情感預(yù)測表現(xiàn)。NumOfPrecision、NumOf-Normal 和NumOfPrediction 分別代表新聞作者精準(zhǔn)預(yù)測的次數(shù)、一般符合的次數(shù)及預(yù)測匹配總次數(shù),Sector-Coefficient 是一個懲罰系數(shù),當(dāng)新聞評論的是一個板塊時,此項設(shè)置為1 用于抵消作者的情感匹配度。

        1.4 股票預(yù)測

        股票預(yù)測是一項艱難的任務(wù),在方法中,我們根據(jù)對應(yīng)的新聞情感對時間i 處的股票價值進(jìn)行預(yù)測:

        圖2 展示了用于貝葉斯網(wǎng)的股票預(yù)測模型,訓(xùn)練一種分類器使用過去一天提取或計算出的融合特征來預(yù)測股票價格的漲跌,特征包含情感傾向、歸屬作者的情感權(quán)重值及該股涉及的新聞總數(shù)。

        同時為驗證文本信息中作者情感權(quán)重是否和股票價格之間有顯著性關(guān)系,利用以資產(chǎn)定價模型為代表的因子模型加入語料庫中目標(biāo)股票對應(yīng)新聞的所有作者的情感權(quán)重平均值,以對數(shù)收益率確定待估系數(shù),公式(7)如下:

        模型中,標(biāo)簽使用表示i 時刻股票j 的價格S 的對數(shù)收益率,rf是假設(shè)的該年滬深指數(shù)的年平均收益率的日化收益,以此來代替無風(fēng)險收益率,為日期i 時股票j 對應(yīng)的新聞所屬作者的情感權(quán)重均值,Ι 為指示函數(shù),為服從正態(tài)分布的隨機(jī)數(shù)噪聲,待估系數(shù)分別是Cj、αj、βj。但從回歸的結(jié)果我們看到股價收益率雖然和網(wǎng)絡(luò)新聞輿情具備顯著相關(guān)特征,但的αj系數(shù)極小,對應(yīng)的t、F 統(tǒng)計量很大,說明影響雖顯著相關(guān)但對其影響的范圍很小。假設(shè)是由于參差不齊水平的新聞作者發(fā)布的若干輿情在可信度上進(jìn)行了標(biāo)準(zhǔn)化,為準(zhǔn)確說明這一現(xiàn)象,我們再對上步驟得到的作者情感權(quán)重依次排序,取3 個分位數(shù),然后按照分位數(shù)對股票的輿情發(fā)布機(jī)構(gòu)作者的情感權(quán)重值分塊為3 組,分別是WB1、WB2、WB3,模型如下。這樣做的好處是保證分組后組內(nèi)新聞數(shù)目是一致的但不同組別意味著不同的作者情感權(quán)重(權(quán)重值依次增大),并依照這種方法將相似文本特征的異構(gòu)金融數(shù)據(jù)進(jìn)行文本分類及預(yù)測。

        2 實驗與結(jié)果

        對6 支股票的128 支新聞及對應(yīng)的47 個作者的相關(guān)數(shù)據(jù)針對對數(shù)收益率進(jìn)行線性回歸,回歸結(jié)果如表1 所示。

        表1 回歸結(jié)果

        可以看到α3比α1、α2大了一個數(shù)量級別,對于單日收益率而言,一個數(shù)量級別已經(jīng)對對數(shù)收益提供了很好的解釋力。根據(jù)代表信任程度較高的高權(quán)重作者情感對金融市場投資者的決策更具影響力,從而更能影響次日的股票收益。表2 顯示使用樸素貝葉斯對涵蓋6 個板塊的個股情感預(yù)測準(zhǔn)確度的結(jié)果。

        表2 加入情感權(quán)重前后股票表現(xiàn)預(yù)測的準(zhǔn)確度

        使用加入作者情感權(quán)重值的情感預(yù)測模型的性格會得到提升,針對不同板塊增加了1%-8%不等的準(zhǔn)確度,表明了加入作者情感權(quán)重可以幫助消除文本情感噪音。

        3 結(jié)語

        本文在考慮現(xiàn)有的面向金融新聞文本情感提取算法的基礎(chǔ)上加以改進(jìn),使其能更好地為文本情感分析決策提供支持。同時引入了文本源頭的情感權(quán)重值,在消除過濾情感傾向預(yù)測中不相關(guān)噪聲情緒的同時提高了準(zhǔn)確率。接下來如何在長范圍時間序列的基礎(chǔ)上進(jìn)一步提升預(yù)測準(zhǔn)確率,需要更進(jìn)一步的研究。

        猜你喜歡
        輿情股票權(quán)重
        權(quán)重常思“浮名輕”
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        本周創(chuàng)出今年以來新高的股票
        本周創(chuàng)出今年以來新高的股票
        本周連續(xù)上漲3天以上的股票
        近期連續(xù)漲、跌3天以上的股票
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        女人一级特黄大片国产精品| 亚洲中文字幕无码爆乳app| 亚洲国产av自拍精选| 97超碰中文字幕久久| 人妻少妇猛烈井进入中文字幕| 精品人伦一区二区三区蜜桃91| 狠狠躁日日躁夜夜躁2020| 四虎影视在线影院在线观看| 精产国品一二三产品蜜桃| 成人无码免费一区二区三区| 91久久久久无码精品露脸| 国产精品自拍首页在线观看| 亚洲综合小综合中文字幕| 亚洲国产精品一区二区成人av| 欧美熟妇另类久久久久久不卡 | 97人妻人人做人碰人人爽| 欲色天天网综合久久| 在线观看国产三级av| 少妇又紧又色又爽又刺| 亚洲精品中文字幕熟女| 国产青青草在线观看视频| 久久综合亚洲色hezyo国产| 久久久久久久久888| 久久国产精品免费一区六九堂| 中文无字幕一本码专区| 国产在线视频一区二区天美蜜桃| 国产日产综合| 国产精品露脸视频观看| 中文字幕人成乱码中文乱码 | 懂色av一区二区三区尤物| 超碰cao已满18进入离开官网| 亚洲欧美日韩国产综合一区二区 | 免费人成视频x8x8入口| 少妇的肉体k8经典| 谁有在线观看av中文| 伊人久久亚洲精品中文字幕| 夜夜骚久久激情亚洲精品| 日韩人妻无码精品一专区二区三区 | 日本男人精品一区二区| 中文字幕色av一区二区三区 | 无码精品一区二区免费AV|