亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于NLP和深度森林的金融輿情抓取與分析

        2020-08-17 19:19:33王子敏周杰梁佳雯何加豪
        電子商務(wù) 2020年8期
        關(guān)鍵詞:自然語言處理

        王子敏 周杰 梁佳雯 何加豪

        摘要:采用自然語言處理技術(shù)對爬取的文本數(shù)據(jù)進行分詞、去停用詞處理,利用TextRank、TF-IDF算法提取關(guān)鍵字,構(gòu)建適用于單篇文章的詞重要性指數(shù)模型,從中提取重要變量建立適用于滬深300指數(shù)的投資者情緒預(yù)測模型,借助深度森林算法預(yù)測交易信號構(gòu)建交易策略。結(jié)果表明,在樣本期基于自然語言處理與深度森林算法對股票交易信號的預(yù)測準確率達72.23%,且收益也超過傳統(tǒng)策略收益,具備重要的投資指導(dǎo)意義。

        關(guān)鍵詞:自然語言處理;深度森林;投資者情緒指標(biāo);量化交易策略

        ★基金項目:江蘇省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃國家級立項——“基于NPL的A股市場輿情監(jiān)控及其量化投資策略研究”(項目編號:SZDG2019039)成果之一。

        引言

        自然語言處理技術(shù)作為人工智能領(lǐng)域的重要分支,始終被放在科研領(lǐng)域的最前沿。如今,隨著新型算法的誕生以及新思想、新技術(shù)的提出,人類在自然語言處理領(lǐng)域已經(jīng)實現(xiàn)了重大突破。尤其在英文方面,科研人員已經(jīng)建立了一套相當(dāng)完備的研究方法。英語文本由于其書寫格式的獨特性,對自然語言處理解決了分詞處理上的困難。正因此,自然語言處理也被國外投資公司、交易人員大量的運用到量化交易中,并取得了不錯的效果。本文緊跟金融前沿領(lǐng)域的研究熱點,通過對中文文本的深度挖掘,并結(jié)合機器學(xué)習(xí)技術(shù),探索自然語言處理技術(shù)在國內(nèi)股票市場的實用性與可行性。

        1、文獻綜述

        對于投資者情緒的度量主要受限于數(shù)據(jù)的獲取以及情緒指標(biāo)的載體上,眾多研究人員多用經(jīng)濟指標(biāo)作為投資者情緒的代理指標(biāo)。例如,彭益(2012)[1]采用概率統(tǒng)計的方法對指數(shù)漲跌的概率進行預(yù)測,Backer & Wurgler(2001)[2]選取了封閉式基金的折價率作為度量投資者情緒的指標(biāo),而鹿坪和冷軍(2017)[3]則選取了消費者信心指數(shù)作為度量投資者情緒的指標(biāo)。

        在直接挖取投資者情緒指數(shù)方面,Danbolt(2015)[4]利用從Twitter上獲取的海量投資者評論信息,從中直接提取情緒指標(biāo)。石善沖等(2018)[5]提出了針對用戶素質(zhì)較高的微信平臺的投資者情緒構(gòu)建方法,但由于微信平臺屬于社交平臺,在金融領(lǐng)域的專業(yè)度不夠高,因此所獲取的數(shù)據(jù)針對性有所減弱。孟雪井等(2016)[6]則通過篩選詞匯出現(xiàn)的頻率高低作為研究投資者情緒的特征,這也在一定程度上忽略了詞匯的頻繁出現(xiàn)會導(dǎo)致其代表性的泛化,最終會影響到模型精確度。

        基于前人的研究基礎(chǔ)和存在的問題,在數(shù)據(jù)來源方面,精選了“同花順”平臺的分析師評論,并結(jié)合詞語的逆文檔頻率對重要詞匯進行二次篩選,以期獲得更具代表性的特征,最后使用機器學(xué)習(xí)算法,構(gòu)建情緒指標(biāo)。

        2、數(shù)據(jù)獲取

        本研究爬取了2016年6月14日至2019年6月14日的11105篇金融研究評論,并在此數(shù)據(jù)的基礎(chǔ)上通過TextRank、TF-IDF算法選取重要詞匯共計124個建立金融語料庫,并以這些詞匯作為后續(xù)特征工程的輸入變量。此外,本研究還爬取了百度指數(shù),共計10萬條左右。針對滬深300指數(shù)數(shù)據(jù),本研究從wind中獲取了2016年6月14日至2019年6月14日共計731個交易日的日內(nèi)交易數(shù)據(jù)。

        3、情緒指標(biāo)建立

        3.1 算法原理介紹

        (1)TextRank算法

        (2)TF-IDF算法過濾關(guān)鍵詞

        利用TF-IDF算法,將TextRank算法得到的793個詞匯在進行一次重要性排序,提取出重要性更高的詞匯,其中關(guān)鍵詞過濾算法如下:

        (3)投資者情緒指標(biāo)建立

        ① 特征選擇:

        在進行數(shù)據(jù)預(yù)處理是,通常需要對已有特征做進一步的篩選以獲得更加適合機器學(xué)習(xí)算法的特征。經(jīng)過篩選后發(fā)現(xiàn),隨著詞匯的推移,詞匯的方差越來越小,最終趨向于0,因而這些詞匯的發(fā)散性不強,對于目標(biāo)的預(yù)測不具有很好的解釋性,為了避免因特征選擇過多而造成的過度擬合,我們選取“半導(dǎo)體”前22個詞匯作為特征。

        ② 文本特征量化處理:

        本文通過特征是否發(fā)散的標(biāo)準已經(jīng)篩選出了更為合適的22個詞匯,并以此作為特征。之后,我們利用百度指數(shù)作為詞匯量化的標(biāo)準。此處我們選用百度指數(shù)的環(huán)比增長率作為百度指數(shù)的衡量指標(biāo)

        ③ 建立指標(biāo)模型:

        將2016年6月14日至2018年6月14日的數(shù)據(jù)作為訓(xùn)練集,將2018年6月14日至2019年6月14日的數(shù)據(jù)作為測試集。訓(xùn)練集數(shù)據(jù)主要用于對機器學(xué)習(xí)模型參數(shù)的尋優(yōu)工作,而本文使用的深度森林算法則是通過建立深度隨機樹模型,采取多次迭代尋優(yōu)的方式尋找出特征最適合的權(quán)重。測試集數(shù)據(jù)主要用于對模型的檢驗,通過對預(yù)測精確度、召回率等指標(biāo)的比較,判定模型是否具有使用價值。

        4、模型對比

        4.1 模型多角度對比

        (1)模型策略與自然增長率的比較

        觀察圖2,當(dāng)執(zhí)行買入并持有策略時,最終的收益率11.35%;而當(dāng)執(zhí)行模型發(fā)出的信號進行交易時,最終受益是29.84%。

        (2)模型策略與移動雙均線比較

        觀察圖2,移動雙均線獲得了17.01%的收益率且最大回撤為-12.39%。移動雙均線的回報率和最大回撤的表現(xiàn)比自然收益率的表現(xiàn)更加優(yōu)越,這可能取決于移動雙均線模型對于上漲和下跌的趨勢把握的較好。但相較于本文建立的模型來說,移動雙均線的表現(xiàn)在多指標(biāo)上都要劣與本文建立的投資者情感指標(biāo)模型,因而,本文建立的模型相較于傳統(tǒng)技術(shù)指標(biāo)具有較好表現(xiàn)。

        結(jié)論

        本文通過將建立的基于投資者情緒交易策略與買入并持有一年策略、傳統(tǒng)技術(shù)指標(biāo)策略進行對比后發(fā)現(xiàn),基于投資者情緒的交易策略最終獲得了29.84%的收益,明顯高于買入并持有策略的11.35%和雙均線策略的17.01%。與此同時,在深度森林算法的基礎(chǔ)上對股市未來走勢加以預(yù)測,精確度為72.23%。相比前人,精確度更高,更具有使用價值。

        參考文獻

        [1] 彭益. 基于數(shù)據(jù)挖掘的股票指數(shù)漲跌概率推斷[J]. 統(tǒng)計與決策, 2012(16): 159-161.

        [2] Loewenstein G F, Weber E U, Hsee C K,et al. Risk as feelings[J]. Psychological Bulletin, 2001,127(2): 267

        [3] 鹿坪,冷軍. 投資者情緒與盈利管理——基于應(yīng)計盈余管理與真實盈余管理的實證研究[J]. 管理科學(xué)學(xué)報,2017(2): 88-96

        [4] Danbolt J, Siganos A, Vagenas-Nanos E. Investor sentiment and bidder announcement abnormal returns[J]. Journal of Corporate Finance,2015,33(3): 164-179.

        [5] 石善沖, 朱穎楠, 趙志剛. 基于微信文本挖掘的投資者情緒與股票市場表現(xiàn)[J]. 系統(tǒng)工程理論與實踐, 2018, 38(6): 1404-1412.

        [6] 孟雪井,楊亞飛,趙新泉.財經(jīng)新聞與股市投資策略研究——基于財經(jīng)網(wǎng)站的文本挖掘[J].投資研究,2016, 35(8): 29-37.

        [7] Barrios F , López, Federico, et al. Variations of the Similarity Function of TextRank for Automated Summarization[J]. 2016.

        [8] Cong Y , Chan Y B , Ragan M A . A novel alignment-free method for detection of lateral genetic transfer based on TF-IDF[J]. Scientific Reports, 2016, 6: 30308.

        [9] Zhou Z H , Feng J. Deep Forest: Towards An Alternative to Deep Neural Networks[J]. 2017.

        [10] 命士汶,朱學(xué)鋒,耿立波.自然語言處理技術(shù)與語言深度計算[J].中國社會科學(xué),2015(3): 127-135.

        [11] 黃潤鵬, 左文明, 畢凌燕. 基于微博情緒信息的股票市場預(yù)測[J].管理工程學(xué)報, 2015, 29(1): 47-52.

        作者簡介:

        王子敏,博士,南京郵電大學(xué)副教授,碩士生導(dǎo)師,研究方向為信息產(chǎn)業(yè)經(jīng)濟與管理;

        周杰,梁佳雯,何加豪,南京郵電大學(xué)。

        猜你喜歡
        自然語言處理
        基于LSTM自動編碼機的短文本聚類方法
        自然語言處理與司法案例
        魅力中國(2017年24期)2017-09-15 04:35:10
        國外基于知識庫的問答系統(tǒng)相關(guān)研究進展及其啟示
        中國市場(2016年39期)2017-05-26 17:55:58
        基于依存句法的實體關(guān)系抽取
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        詞向量的語義學(xué)規(guī)范化
        漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
        在线观看免费无码专区| 免费观看成人稀缺视频在线播放 | 久久久精品人妻一区二区三区| 国产女精品| 亚洲一区二区三区偷拍自拍| 日韩精品视频免费网站| 妇女bbbb插插插视频| 最新69国产成人精品视频免费| 亚洲AⅤ乱码一区二区三区| 亚洲不卡av一区二区三区四区| 亚洲乱码中文字幕久久孕妇黑人 | 在线免费午夜视频一区二区| 亚洲精品中文字幕乱码影院| 久久综合狠狠色综合伊人| 国产高清无码在线| 大香蕉久久精品一区二区字幕 | 少妇伦子伦情品无吗| 精品国产一区二区三区久久狼| 欧美精品日韩一区二区三区| 色婷婷亚洲精品综合影院| 亚洲人成网网址在线看| 色婷婷五月综合亚洲小说| 久久国产av在线观看| 国产av剧情刺激对白| 最近免费mv在线观看动漫| 巨爆乳中文字幕爆乳区| 国产av一区麻豆精品久久| 给你免费播放的视频| 亚洲人成亚洲精品| 狠狠躁夜夜躁人人爽天天不卡| 国产自拍精品在线免费观看| 青青国产揄拍视频| 中文字幕AⅤ人妻一区二区 | 久久国产精品99精品国产| 国产在线91观看免费观看| 高清成人在线视频播放| 欧美大胆性生话| 美女高潮无遮挡免费视频| 久久精品国产一区二区涩涩| 国产亚洲精品国产精品| 国产丝袜视频一区二区三区|