熊麗媛 江西財經(jīng)大學(xué)
當(dāng)下,眾多學(xué)者針對宏觀政策對于股市影響做出了較多的分析,但大多數(shù)研究只是從經(jīng)濟(jì)學(xué)的角度,結(jié)合股票市場變量,提出定量分析模型。少有學(xué)者通過大數(shù)據(jù)方法對海量文本數(shù)據(jù)中的政策事件進(jìn)行量化分析。因此,本文擬采用基于自然語言處理的事件抽取方法,對海量股市新聞中的政策事件進(jìn)行抽取,并使用事件分析法,對政策事件發(fā)生窗口內(nèi)的股市變化進(jìn)行分析。
首先通過構(gòu)建分布式爬蟲,從國內(nèi)各大財經(jīng)類門戶網(wǎng)站的新聞頻道采集2019年1月1日至2019年12月31日的相關(guān)股市新聞文本,共33994條,具體信息如表1所示。
表1 數(shù)據(jù)來源
萬得金融終端是萬得信息技術(shù)股份有限公司針對金融業(yè)的投資機(jī)構(gòu)、財務(wù)公司、研究機(jī)構(gòu)、學(xué)術(shù)機(jī)構(gòu)、監(jiān)管部門機(jī)構(gòu)等不同類型客戶的需求開發(fā)的圍繞信息檢索、數(shù)據(jù)提取與分析、投資組合管理應(yīng)用等領(lǐng)域的專業(yè)分析工具,通過萬得金融終端數(shù)據(jù)庫,可以獲取2019年1月1日至2019年12月31日的深證綜合指數(shù)等數(shù)據(jù)。
從各大財經(jīng)網(wǎng)站爬取的金融文本數(shù)據(jù)存在格式不統(tǒng)一,內(nèi)容含雜廣告信息等問題,通過python編程語言設(shè)計中英文正則表達(dá)式,可以有效去除不需要的文本信息,通過預(yù)處理,最終保留金融文本數(shù)據(jù)的標(biāo)題、正文及發(fā)布時間。
在文本中抽取事件一般分為基于規(guī)則的無監(jiān)督式抽取和基于機(jī)器學(xué)習(xí)模型訓(xùn)練的有監(jiān)督式抽取方法。由于有監(jiān)督式的機(jī)器學(xué)習(xí)抽取算法需要獲取大規(guī)模的標(biāo)準(zhǔn)數(shù)據(jù)集,并人工對數(shù)據(jù)集中的事件進(jìn)行標(biāo)注,而本文所涉及的到金融文本數(shù)據(jù)擁有較強(qiáng)的領(lǐng)域性,且來源不同,因此作者選擇使用非監(jiān)督式的事件抽取方法。
政策事件的主語往往涉及政府相關(guān)部門,如“衛(wèi)健委”,“國防部”,“衛(wèi)生部”,“新聞部”,“內(nèi)政部”,“交通部”,“宣傳部”,“文化部”,“組織部”等詞語。通過哈爾濱工業(yè)大學(xué)設(shè)計開發(fā)的LTP語言模型可以收集到較為完整的機(jī)構(gòu)詞語,政策發(fā)布涉及了“發(fā)布”,“頒布”,“引發(fā)”等相關(guān)謂語動詞,通過人工構(gòu)建謂語動詞,并通過詞語間的語義相似度,可以對謂語動詞進(jìn)行擴(kuò)充,將最終獲取到的謂語動詞與機(jī)構(gòu)主語詞合并,構(gòu)成政策詞典。
通過政策詞典中的指定詞語在中文語句中的指定位置出現(xiàn),進(jìn)行事件的抽取。DDParser(Baidu Dendency Parser) 是 百 度NLP基于大規(guī)模標(biāo)注數(shù)據(jù)和深度學(xué)習(xí)平臺飛槳研發(fā)的中文依存句法分析工具,可幫助用戶直接獲取輸入文本中的關(guān)聯(lián)詞對,長距離依賴詞對等。假設(shè)輸入語句為“市場監(jiān)管總局發(fā)布通知要求加強(qiáng)2021年元旦春節(jié)期間市場價格監(jiān)管?!蓖ㄟ^依存句法的語法樹,可以在SBV(主謂結(jié)構(gòu))和VOB(動賓結(jié)構(gòu))的指定節(jié)點(diǎn)匹配政策詞典中的主語名詞“市場監(jiān)督總局”及謂語動詞“發(fā)布”,大規(guī)模自動地獲取政策事件。
事件分析法是金融領(lǐng)域中常用的一種針對時序數(shù)據(jù)的分析方法。該方法在1969年由FAMA等人第一次提出。通過研究事件發(fā)生前后時間窗口內(nèi)的股票預(yù)期正常收益率和異常收益率來反映事件的重要程度。
圖1 事件分析結(jié)果
通過時間數(shù)據(jù),將政策詞典和DDParser工具抽取的到政策事件與當(dāng)日的深證綜合指數(shù)進(jìn)行拼接,得到事件分析法的原始數(shù)據(jù)。
設(shè)定事件發(fā)生前一周與后一周為時間窗口。橫坐標(biāo)表示政策事件發(fā)生的事件,取事件發(fā)生的前一周與后一周為時間窗口??v坐標(biāo)為HS,其中n表示抽取出的政策事件的總數(shù),HSi,t表示事件i在其發(fā)生日t的深證綜合指數(shù),分別取t′為t-7、t-6、…、t+7,得到政策事件對深證綜合指數(shù)在窗口期間內(nèi)的影響。
事件分析結(jié)果。如圖1所示,可以觀察到,從股市新聞中抽取出的政策事件對事件發(fā)生后3天窗口期內(nèi)的深證綜合指數(shù)有較大影響。在t-7至t-1窗口期內(nèi),指數(shù)變化趨于穩(wěn)定。
本研究采用的模式匹配方法對政策事件進(jìn)行了廣泛的抽取,但未對事件進(jìn)行詳細(xì)的分類,簡單地分析了所有事件對股市產(chǎn)生的影響。研究過程存在缺陷,對于政策事件的細(xì)化分析,可以在后續(xù)的研究者繼續(xù)探討。