摘要:本文運(yùn)用固定收益分析師情感分析結(jié)果和其他信息作為模型輸入數(shù)據(jù),使用機(jī)器學(xué)習(xí)方法預(yù)測(cè)中債價(jià)格指標(biāo)。研究結(jié)果表明:一是方向性預(yù)測(cè)較準(zhǔn)確,機(jī)器學(xué)習(xí)中的XGBoost方法效果最好,在預(yù)測(cè)中債指數(shù)時(shí),二分類預(yù)測(cè)的平均準(zhǔn)確率為75%,四分類預(yù)測(cè)的平均準(zhǔn)確率為65%,在預(yù)測(cè)10年期與2年期中債國(guó)債收益率之差的變化時(shí),二分類預(yù)測(cè)的平均準(zhǔn)確率為68%,四分類預(yù)測(cè)的平均準(zhǔn)確率為58%;二是借助模型可以篩選分析師,從而方便市場(chǎng)參與者從固定收益分析師中優(yōu)中選優(yōu),參考研究結(jié)果,做好輔助決策;三是模型處理迅速,不存在人為判斷速度慢、工作量大的問題。
關(guān)鍵詞:情感分析 PaddlePaddle NLP 中債價(jià)格指標(biāo)
問題的提出
債券市場(chǎng)參與者能否通過自然語言處理技術(shù)(以下簡(jiǎn)稱“NLP”)并根據(jù)固定收益分析師(以下簡(jiǎn)稱“固收分析師”)的情感分析來預(yù)測(cè)中債價(jià)格指標(biāo)變化?根據(jù)當(dāng)前的技術(shù),筆者認(rèn)為或許有一定的可行性。
(一)NLP在金融市場(chǎng)的應(yīng)用日益廣泛,為預(yù)測(cè)中債價(jià)格指標(biāo)提供了技術(shù)支持
早在20世紀(jì)80年代就已有機(jī)構(gòu)探索基于NLP進(jìn)行金融分析,但公認(rèn)的開創(chuàng)性工作是谷歌(Google)在2003年申請(qǐng)的一項(xiàng)專利,這項(xiàng)工作證明了用新聞來預(yù)測(cè)股票價(jià)值的有效性,并解決了早期NLP中的一系列問題。隨著推特(Twitter)、臉書(Facebook)等社交媒體上數(shù)據(jù)量暴漲,研究機(jī)構(gòu)發(fā)現(xiàn)通過分析Twitter等社交媒體上的公眾情緒可以顯著提高道瓊斯工業(yè)指數(shù)的預(yù)測(cè)準(zhǔn)確度。倫敦的對(duì)沖基金公司Derwent CapitalMarkets運(yùn)用Twitter 輿情輔助投資分析,在第一個(gè)月實(shí)現(xiàn)了1.85%的盈利。此后,越來越多的機(jī)構(gòu)參與到這項(xiàng)技術(shù)的研究中,由此帶來了更廣的數(shù)據(jù)維度和更豐富的應(yīng)用場(chǎng)景。同時(shí),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,一些NLP領(lǐng)域的重要成果也逐漸被運(yùn)用,進(jìn)一步提升了機(jī)器學(xué)習(xí)對(duì)于文本語義的建模能力。
目前,基于NLP的金融分析方法已經(jīng)逐漸發(fā)展成為重要的投資分析工具。在實(shí)際的落地場(chǎng)景中,海外機(jī)構(gòu)運(yùn)用NLP技術(shù)解決的典型問題包括市場(chǎng)上關(guān)鍵指標(biāo)的預(yù)測(cè),例如價(jià)格波動(dòng)、交易量、信用評(píng)級(jí)等,還包括宏觀經(jīng)濟(jì)因子的提取,乃至欺詐檢測(cè)、供應(yīng)鏈管理等。當(dāng)前NLP所面對(duì)的主要數(shù)據(jù)源包括公司公告、研究報(bào)告、財(cái)經(jīng)新聞、社交媒體等,各類數(shù)據(jù)的長(zhǎng)度和更新頻率也明顯不同。不同數(shù)據(jù)源的頻率和噪聲程度不一致,因此不同數(shù)據(jù)源會(huì)影響市場(chǎng)周期。一般來說,頻率低、權(quán)威性高的文本往往會(huì)產(chǎn)生深遠(yuǎn)而持久的影響,而高頻數(shù)據(jù)則主要反映市場(chǎng)短期的波動(dòng)性。我國(guó)一些學(xué)者也在積極運(yùn)用NLP技術(shù)預(yù)測(cè)客戶行為或金融市場(chǎng)變化。陳嘉鈺等(2019)以微信為例,基于LDA主題模型進(jìn)行社交媒體倦怠研究;王卓(2020)根據(jù)輿論平臺(tái)情緒研究其對(duì)股票市場(chǎng)的影響;熊杰(2020)根據(jù)政務(wù)微博的在線評(píng)論來研究用戶情緒及行為。
在實(shí)際的應(yīng)用場(chǎng)景中,NLP技術(shù)挖掘出的典型信息形式有三種。第一種是關(guān)鍵詞提取。通過詞袋模型、LDA技術(shù)或者近年來的詞向量技術(shù),將原始文本濃縮為最能反映文本主題或語義特征的少數(shù)幾個(gè)詞匯。第二種是事件提取。通過事件模板、句法分析、命名實(shí)體識(shí)別等技術(shù)手段,從原始文本中抽取金融活動(dòng)相關(guān)事件,如公司并購(gòu)、首次公開募股(IPO)、中標(biāo)等,據(jù)此來分析不同事件對(duì)公司股價(jià)的影響。第三種是情感分析。市場(chǎng)情感分析已經(jīng)成為金融分析中的重要研究方向,涉及的應(yīng)用場(chǎng)景、技術(shù)實(shí)現(xiàn)方式和分析層次非常廣泛。
(二)固收分析師研究報(bào)告內(nèi)容豐富、發(fā)布頻率高,為運(yùn)用情感分析數(shù)據(jù)提供了舞臺(tái)
固收分析師公眾號(hào)內(nèi)容豐富,在量化領(lǐng)域尚未被充分挖掘,市場(chǎng)參與者可以借助NLP技術(shù)加以利用。一是固收分析師的情感數(shù)據(jù)尚未被充分利用。固收分析師的研究充分、扎實(shí),有大量的數(shù)據(jù)和事實(shí)作為論據(jù)。在文章表述中,可發(fā)現(xiàn)固收分析師對(duì)市場(chǎng)的情緒流露,更自然、真實(shí)地表達(dá)了對(duì)市場(chǎng)的判斷,這與文章結(jié)論有同等重要的參考價(jià)值。就目前而言,對(duì)固收分析師的研究缺少定量的刻畫和成熟的運(yùn)用,其價(jià)值尚未被充分挖掘。此外,固收分析師發(fā)布文章的頻率較高,基本上能夠達(dá)到每周一篇或者更高頻率,其高頻公眾號(hào)文章的情緒流露便于在預(yù)測(cè)中債價(jià)格指標(biāo)時(shí)使用。二是讀者的反饋尚未被充分利用。固收分析師微信公眾號(hào)的讀者都是專業(yè)債券從業(yè)者或相關(guān)人員,專業(yè)能力非常強(qiáng)。如果直接從上述主體那里統(tǒng)計(jì)對(duì)市場(chǎng)的看法,成本高、時(shí)效性差,難度較大。而固收分析師微信公眾號(hào)的閱讀量數(shù)據(jù)避免了對(duì)個(gè)體債券從業(yè)者進(jìn)行統(tǒng)計(jì)的繁瑣,直接從整體角度反映了債券從業(yè)人員的看法,其獲得的成本非常低廉,而且時(shí)效性極強(qiáng),可在預(yù)測(cè)中債價(jià)格指標(biāo)時(shí)加以利用,但目前還沒有這方面的實(shí)踐。
目前市場(chǎng)上已經(jīng)有人在手工挖掘固收分析師的研究報(bào)告。比如某微信公眾號(hào)在2017年的一段時(shí)間內(nèi)每天為市場(chǎng)整理主流固收分析師的觀點(diǎn),并且根據(jù)分析師的情緒,統(tǒng)一匯總編制了固收分析師情緒指數(shù)。如果讀者只是想簡(jiǎn)單地了解市場(chǎng)情緒狀況,只要關(guān)心指數(shù)即可。固收分析師情緒指數(shù)的制定規(guī)則是:選取目前市場(chǎng)關(guān)注度較高的分析師,根據(jù)其觀點(diǎn)判斷其看多看空的情緒,每人賦予0~10分,然后進(jìn)行匯總加權(quán)。總分為100分,最低為0分。均值為50分代表看多看空均衡,100分代表市場(chǎng)極度看多,0分代表市場(chǎng)極度看空。該指數(shù)具有以下特點(diǎn):一是指數(shù)擬合實(shí)際情況較好,且波動(dòng)較?。欢乔榫w指數(shù)變化有先于實(shí)際市場(chǎng)變化的趨勢(shì)。此指數(shù)利用固收分析師的情感,起到了較好的預(yù)測(cè)效果,但在2018年以后未再出現(xiàn)。
國(guó)內(nèi)某證券公司基于長(zhǎng)期債券換手率、債市杠桿率、債券基金久期、隱含稅率編制了固定收益?zhèn)星榫w指數(shù)并每周更新。自2016年以來,該情緒指數(shù)與10年期國(guó)債、3 年期國(guó)開債收益率的相關(guān)系數(shù)分別為0.79、0.84,情緒指數(shù)與利率走勢(shì)較為一致。該指數(shù)在持續(xù)更新,但主要運(yùn)用的是標(biāo)準(zhǔn)化數(shù)據(jù),沒有運(yùn)用固收分析師的情感數(shù)據(jù)。
(三)預(yù)測(cè)中債價(jià)格指標(biāo)的基本思路
基于上述分析,筆者準(zhǔn)備利用固收分析師微信公眾號(hào)相關(guān)信息和其他信息來預(yù)測(cè)中債價(jià)格指標(biāo)。簡(jiǎn)單地說,就是利用文章摘要情感數(shù)值、閱讀量以及制造業(yè)采購(gòu)經(jīng)理指數(shù)(PMI)數(shù)值訓(xùn)練模型,再運(yùn)用模型預(yù)測(cè)中債價(jià)格指標(biāo),算法如圖1所示。
從輸入來看,日新月異的開源程序提供了新穎、有效的支持。百度的飛槳(PaddlePaddle)情感分析工具可以將固收分析師的文章根據(jù)情感程度映射成介于0和1的數(shù)值,或者說將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),為使用機(jī)器學(xué)習(xí)等定量工具開拓了數(shù)據(jù)源,拓寬了模型的輸入范圍。
從模型來看,Scikit-learn、XGBoost提供了豐富的機(jī)器學(xué)習(xí)方法,為量化工作提供了廣泛的工具,方便市場(chǎng)參與者嘗試多種現(xiàn)有的高效方法來進(jìn)行預(yù)測(cè)。
從輸出來看,中債價(jià)格指標(biāo)豐富、覆蓋面廣,市場(chǎng)參與者可以測(cè)試多種程度的指數(shù),包括中債指數(shù)和收益率曲線,為發(fā)行、投資、監(jiān)管提供輔助決策參考。
建模過程與方法
筆者使用機(jī)器學(xué)習(xí)方法建模預(yù)測(cè),下面從輸入、模型、輸出三個(gè)方面介紹建模過程(見圖2)。
(一)模型輸入
模型輸入包括特征和標(biāo)簽兩部分。其中,特征是固收分析師情感分析數(shù)值、文章閱讀量、非制造業(yè)PMI,標(biāo)簽是被預(yù)測(cè)的中債價(jià)格指標(biāo)月度變化值。筆者按月選取模型中需要輸入的數(shù)據(jù)。
1.特征選取
特征主要來自固收分析師的公眾號(hào)內(nèi)容。數(shù)據(jù)類型包括以下三種:
第一種數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),即文章摘要或總結(jié)。筆者使用PaddlePaddle將其轉(zhuǎn)化為數(shù)值,具體方式為采用結(jié)果中的positive value(正面情感數(shù)值),其與negative value的和為1,二者的選取沒有區(qū)別。采用4個(gè)固收分析師的微信公眾號(hào)數(shù)據(jù),數(shù)據(jù)時(shí)間范圍為2020年6月至2022年9月,時(shí)間頻度為月,并以A、B、C、D作為上述公眾號(hào)固收分析師的代號(hào),固收分析師的部分情感數(shù)值見表1。
第二種數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),即文章的閱讀點(diǎn)擊量,可直接采用。
第三種數(shù)據(jù)是非制造業(yè)PMI與50的差值。上述第一種數(shù)據(jù)來源于固收分析師(專家的反饋),第二種數(shù)據(jù)來源于文章讀者(從業(yè)者的反饋),這兩種數(shù)據(jù)都帶有一定的主觀性。為保證模型輸入數(shù)據(jù)的客觀性和完備性,根據(jù)筆者觀察以及與從業(yè)人員交流,選取非制造業(yè)PMI與50的差值作為輸入值,以此代表市場(chǎng)客觀情況的反饋。
2.預(yù)處理特征數(shù)據(jù)
對(duì)于上述數(shù)據(jù),筆者通過取對(duì)數(shù)來進(jìn)行預(yù)處理。因?yàn)殚喿x量是幾千或幾百的量級(jí),而情感數(shù)值是0至1之間的數(shù)據(jù),兩類數(shù)據(jù)的差距較大。筆者對(duì)其取以10為底的對(duì)數(shù),這樣閱讀量數(shù)值介于0至4之間,情感數(shù)值介于0至-3之間,二者量級(jí)較為相近,便于后續(xù)模型處理。
3.標(biāo)簽選取
對(duì)于中債指數(shù),筆者將月度環(huán)比值進(jìn)行二分類、三分類、四分類、五分類,下面舉一個(gè)例子。首先計(jì)算出中債價(jià)格指標(biāo)月度環(huán)比變化,而后進(jìn)行分類。如果進(jìn)行二分類且環(huán)比值小于0,記為-1,代表下降;如果環(huán)比值大于等于0,記為1,代表上升。最終預(yù)測(cè)出的結(jié)果也是-1、1等數(shù)字,代表模型對(duì)未來趨勢(shì)范圍的判斷。
(二)選擇模型
筆者使用Scikit-learn包中的邏輯回歸、高斯貝葉斯、KNN、隨機(jī)森林和XGBoost包中的XGBoost方法來預(yù)測(cè)數(shù)據(jù)。在選定模型后,使用Hyperopt針對(duì)各模型自動(dòng)調(diào)整優(yōu)化超參數(shù),提升模型效果。
(三)模型輸出
被預(yù)測(cè)的數(shù)據(jù)結(jié)果為0、-1等標(biāo)簽性數(shù)字,筆者將其轉(zhuǎn)化為指標(biāo)環(huán)比變動(dòng)幅度,從而得到趨勢(shì)性判斷或分類別判斷。
實(shí)證結(jié)果與分析
筆者通過以下兩個(gè)場(chǎng)景來測(cè)試模型的性能。其中,第一個(gè)場(chǎng)景是預(yù)測(cè)中債指數(shù),可以用于投資輔助決策;第二個(gè)場(chǎng)景是預(yù)測(cè)中債國(guó)債收益率的期限利差,可以用于宏觀經(jīng)濟(jì)判斷。
(一)預(yù)測(cè)中債指數(shù)
筆者對(duì)中債-綜合指數(shù)(凈價(jià)指數(shù))的每月月末變化進(jìn)行分類,而后利用機(jī)器學(xué)習(xí)方法預(yù)測(cè)分類結(jié)果。
1.預(yù)測(cè)的準(zhǔn)確性
(1)二分類預(yù)測(cè)
二分類方法:將每月中債指數(shù)的變化(月末值-月初值)分為上升和下降兩類,如果環(huán)比大于等于0記為上升,反之記為下降。此類預(yù)測(cè)方法比較簡(jiǎn)單,只是方向性的預(yù)測(cè),即根據(jù)目前的情況預(yù)測(cè)指數(shù)未來是漲還是跌。
預(yù)測(cè)結(jié)果:筆者使用邏輯回歸、高斯貝葉斯、KNN、隨機(jī)森林、XGBoost五種方法來預(yù)測(cè)分類(見表2)。需要指出的是,當(dāng)不同的固收分析師產(chǎn)生不同的情感取向或不同的預(yù)測(cè)結(jié)果時(shí)(即有不同判斷時(shí)),仍然可以利用模型進(jìn)行較準(zhǔn)確的預(yù)測(cè)。這樣不必耗費(fèi)過多時(shí)間去研究固收分析師的文章就可得到準(zhǔn)確的預(yù)測(cè)結(jié)果,提高了判斷中債指數(shù)變化的效率和準(zhǔn)確率。
(2)三分類預(yù)測(cè)
三分類方法:將每月中債指數(shù)的變化(月末值-月初值)分為下降、持平、上升三類。其中,小于-0.3為下降,大于0.3為上升,其余為持平。此類預(yù)測(cè)方法也比較簡(jiǎn)單,只是比二分類多了一個(gè)持平的分類。
預(yù)測(cè)結(jié)果:筆者同樣使用二分類的5種方法來預(yù)測(cè),具體結(jié)果見表3,準(zhǔn)確率均不超過40%??傮w來看,三分類模型的實(shí)用性較差。
(3)四分類預(yù)測(cè)
四分類方法:將每月中債指數(shù)的變化(月末值-月初值)分為大降、小降、小升、大升四類。其中,小于-0.8為大降,大于等于-0.8小于0為小降,大于等于0小于0.8為小升,其余為大升。此類預(yù)測(cè)對(duì)未來的方向做了更細(xì)致的預(yù)測(cè),對(duì)上升或下降的程度作進(jìn)一步區(qū)分。
預(yù)測(cè)結(jié)果:筆者同樣使用二分類的5種方法來預(yù)測(cè)。從預(yù)測(cè)結(jié)果來看(見表4),只有XGBoost的預(yù)測(cè)平均準(zhǔn)確率超過50%,達(dá)到65%。
(4)五分類預(yù)測(cè)
五分類方法:將每月中債指數(shù)的變化(月末值-月初值)分為大降、小降、持平、小升、大升五類,比上面的四分類多了持平一項(xiàng)。其中,小于-0.8為大降,大于等于-0.8小于-0.1為小降,大于等于-0.1小于0.1為持平,大于等于0.1小于0.8為小升,其余情形為大升。
預(yù)測(cè)結(jié)果:從預(yù)測(cè)結(jié)果來看(見表5),只有XGBoost的預(yù)測(cè)平均準(zhǔn)確率超過50%,達(dá)到55%。
2.特征的重要性
隨機(jī)森林和XGBoost可以在預(yù)測(cè)時(shí)得到特征的重要性分值,哪個(gè)特征的重要性分值越高,說明該特征越重要,則可以根據(jù)該分值來對(duì)固收分析師優(yōu)中選優(yōu),用作挑選分析師文章的輔助依據(jù)。特別是固收分析師眾多時(shí),可以根據(jù)此模型輕松、快捷地挑選出固收分析師。本文的模型共有9個(gè)特征(見表6)。
筆者抽取4位固收分析師情感數(shù)值對(duì)應(yīng)的重要性得分作為選擇的依據(jù),進(jìn)而嘗試判斷固收分析師的影響程度。下面兩個(gè)表是隨機(jī)森林和XGBoost的結(jié)果(見表7、表8)。
從方法來看,無論是情感數(shù)值還是文章閱讀量,隨機(jī)森林給出的重要性分值都比較接近,區(qū)分度不大。XGBoost方法在情感數(shù)值和文章閱讀量?jī)煞矫娑冀o出比較清晰的區(qū)分度。例如,從情感數(shù)值來看,固收分析師C的情感數(shù)值對(duì)結(jié)果的影響最顯著,達(dá)到0.28,比第二名0.08高出0.2;從文章閱讀量來看,固收分析師D對(duì)結(jié)果的影響最顯著,達(dá)到0.30,是第二名0.15的2倍。
(二)預(yù)測(cè)中債國(guó)債收益率的期限利差
根據(jù)中國(guó)人民銀行調(diào)查統(tǒng)計(jì)司課題組(2013)的研究,10 年期與2年期中債國(guó)債收益率之差對(duì)宏觀經(jīng)濟(jì)景氣一致指數(shù)具有先行作用,先行期達(dá)到12個(gè)月,可以為貨幣政策提供有價(jià)值的參考。筆者對(duì)以下期限利差的環(huán)比變化進(jìn)行分類,而后利用XGBoost方法預(yù)測(cè)分類結(jié)果,并使用訓(xùn)練集和Hyperopt來優(yōu)化模型超參數(shù)。
1.預(yù)測(cè)的準(zhǔn)確率
期限利差=10年期國(guó)債收益率曲線月末值-2年期 國(guó)債收益率曲線月末值
公式(1)
期限利差的環(huán)比變化=當(dāng)月期限差-上月期限差
公式(2)
從結(jié)果來看,二分類的預(yù)測(cè)平均準(zhǔn)確率達(dá)到68%(見表9),四分類預(yù)測(cè)平均準(zhǔn)確率達(dá)到58%,對(duì)期限利差的預(yù)測(cè)有一定的前瞻性。
2.特征的重要性
從情感數(shù)值來看,固收分析師A的情感數(shù)值和文章閱讀量對(duì)結(jié)果的影響都最顯著(見表10)。
結(jié)論
本文將固收分析師情感數(shù)值、文章閱讀量、PMI作為模型輸入數(shù)據(jù),使用機(jī)器學(xué)習(xí)方法,對(duì)中債價(jià)格指標(biāo)每月的變動(dòng)范圍進(jìn)行分類預(yù)測(cè)。
(一)本文的主要工作
在建模過程中,筆者做了以下工作。一是使用PaddlePaddle的預(yù)訓(xùn)練模型,將固收分析師的文章映射成情感分?jǐn)?shù),簡(jiǎn)單、迅速地將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。二是將固收分析師文章的閱讀量納入模型,以此反映固定收益市場(chǎng)的反饋。三是針對(duì)情感數(shù)值與閱讀數(shù)值數(shù)量級(jí)相差較大的問題,對(duì)模型取以10為底的對(duì)數(shù),作為預(yù)處理的方法。在進(jìn)行預(yù)處理后,所用數(shù)據(jù)集中于-4至4之間,較為集中,有利于更好地發(fā)揮模型效果。四是使用Hyperopt對(duì)模型的常用參數(shù)進(jìn)行優(yōu)化。
(二)模型的效果和優(yōu)點(diǎn)
從結(jié)果來看,預(yù)測(cè)結(jié)果可以為市場(chǎng)參與者提供輔助決策參考。例如,當(dāng)預(yù)測(cè)中債指數(shù)時(shí),二分類預(yù)測(cè)平均準(zhǔn)確率為75%,四分類預(yù)測(cè)平均準(zhǔn)確率為65%。當(dāng)預(yù)測(cè)10年期與2年期中債國(guó)債收益率之差的變化時(shí),二分類預(yù)測(cè)平均準(zhǔn)確率為68%,四分類預(yù)測(cè)平均準(zhǔn)確率為58%。特別是固收分析師的情緒分值不同時(shí),本文的模型仍然可以得到準(zhǔn)確的預(yù)測(cè),體現(xiàn)了模型的價(jià)值所在。
從對(duì)固收分析師的評(píng)價(jià)來看,模型可以給出固收分析師的重要性得分,方便市場(chǎng)參與者從固收分析師中優(yōu)中選優(yōu),參考研究結(jié)果,做好輔助決策。
從處理速度來看,模型可快速得出中債價(jià)格指標(biāo)的變化預(yù)測(cè),模型總運(yùn)行時(shí)間不超過20分鐘,不存在人為判斷速度慢、工作量大的問題。
從方法來看,無論是在預(yù)測(cè)準(zhǔn)確率還是評(píng)價(jià)固收分析師的重要性方面,XGBoost方法的表現(xiàn)都是最好的。
(三)模型有待提升之處
一是文本數(shù)據(jù)的獲取。如果使用爬蟲獲取微信數(shù)據(jù),則存在法律問題。為此,筆者使用手動(dòng)復(fù)制粘貼的方式獲取固收分析師的文章和文章閱讀量信息。當(dāng)分析師的數(shù)量較少時(shí),手動(dòng)可以完成。如果分析師數(shù)量繼續(xù)增加,則文本數(shù)據(jù)的獲取成本較高,影響模型的使用。此外,固收分析師微信公眾號(hào)文章的發(fā)布頻率、數(shù)量和團(tuán)隊(duì)人員存在一定變數(shù),恒定不變的分析師相對(duì)較少。未來如果可以快捷取得恒定可比的文章,則將有利于提升訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量。二是模型超參數(shù)選取。在本文模型中,筆者使用Hyperopt來自動(dòng)調(diào)節(jié)參數(shù),省去很多手工操作。從實(shí)踐來看,效果對(duì)參數(shù)的變化較為敏感。如果能夠選取穩(wěn)健性更強(qiáng)的參數(shù),將有利于模型性能的發(fā)揮。(本文獲“第二屆中債估值杯—固收量化專題”征文一等獎(jiǎng))
參考文獻(xiàn)
[1]陳嘉鈺,李艷.基于LDA主題模型的社交媒體倦怠研究——以微信為例[J].情報(bào)科學(xué),2019(12):78-86.
[2]王卓.疫情情緒對(duì)中國(guó)股票市場(chǎng)的影響——基于多平臺(tái)輿情數(shù)據(jù)的研究[D].天津:南開大學(xué),2020.
[3]熊杰.政務(wù)微博在線評(píng)論中的用戶情緒及行為研究[D].成都:電子科技大學(xué),2020.
[4]中國(guó)人民銀行調(diào)查統(tǒng)計(jì)司課題組.我國(guó)國(guó)債收益率曲線與宏觀經(jīng)濟(jì)的先行關(guān)系及貨幣政策傳導(dǎo)研究[J].金融監(jiān)管研究,2013(1):27-44.