陳 強(qiáng)
(興業(yè)銀行 信息科技部,上海 201201)
隨著金融行業(yè)的數(shù)字化程度不斷提升,行業(yè)迅猛發(fā)展的同時(shí)也產(chǎn)生了海量的半結(jié)構(gòu)化、非結(jié)構(gòu)化等形態(tài)的數(shù)據(jù),這諸多類型的數(shù)據(jù)信息往往蘊(yùn)含了豐富的金融業(yè)務(wù)知識(shí)與邏輯,同時(shí)也對(duì)經(jīng)濟(jì)社會(huì),乃至金融業(yè)務(wù)的發(fā)展產(chǎn)生了越來越重要的推動(dòng)作用.對(duì)于金融投資與研究來說,其核心在于能夠從市場(chǎng)包羅萬象的數(shù)據(jù)信息對(duì)資產(chǎn)未來的價(jià)格走勢(shì)進(jìn)行預(yù)測(cè)判別,通過對(duì)信息的深入分析,可以緩解信息不對(duì)稱,有助于實(shí)現(xiàn)更精準(zhǔn)的投資決策.在傳統(tǒng)的金融投研工作過程中,各類結(jié)構(gòu)化數(shù)據(jù)往往是常用的主要信息來源,其價(jià)值已在較大程度上得到釋放;而文本類信息由于在解析上有更大挑戰(zhàn),其業(yè)務(wù)價(jià)值尚未能像結(jié)構(gòu)化數(shù)據(jù)一樣被充分利用,需要通過新技術(shù)進(jìn)行深度挖掘.
金融科技蓬勃發(fā)展,已成為推動(dòng)金融業(yè)務(wù)發(fā)展的新引擎[1].在大數(shù)據(jù)、人工智能、知識(shí)圖譜等金融科技核心技術(shù)的驅(qū)動(dòng)下,投資研究也正在向智能化轉(zhuǎn)變[2],一方面通過自然語言處理等技術(shù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的工程化處理,能提升研究中數(shù)據(jù)采集、信息挖掘的效率與及時(shí)性,并對(duì)跨渠道、跨領(lǐng)域的不同信息進(jìn)行關(guān)聯(lián)整合,形成更豐富的知識(shí)體系;另一方面通過機(jī)器學(xué)習(xí)算法模型形成更優(yōu)的投資策略,能增強(qiáng)投資中分析預(yù)測(cè)、趨勢(shì)研判的精準(zhǔn)性與前瞻性,也能降低人為情緒波動(dòng)對(duì)科學(xué)決策的影響.為此,打造以前沿技術(shù)為支撐的智能化投研平臺(tái),是當(dāng)前形勢(shì)下資產(chǎn)管理業(yè)務(wù)提升投研效率、增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力的新利器[3].
國外較早涌現(xiàn)了各類智能化投研平臺(tái),其應(yīng)用主要是集中在非結(jié)構(gòu)化數(shù)據(jù)的采集、抽取、整合、分析等方面,為市場(chǎng)研判、投資決策等提供更深度的信息支持[4],如Kensho的智能投研平臺(tái)基于AI 平臺(tái)對(duì)經(jīng)濟(jì)社會(huì)各領(lǐng)域信息進(jìn)行挖掘提煉,并結(jié)合知識(shí)圖譜技術(shù)構(gòu)建了金融事件圖譜,能及時(shí)預(yù)測(cè)各類事件對(duì)金融資產(chǎn)價(jià)格的影響[5];Alphasense的智能投研平臺(tái)通過自然語言處理與知識(shí)圖譜技術(shù)對(duì)各種金融文檔進(jìn)行結(jié)構(gòu)化、實(shí)體化、知識(shí)化沉淀,形成對(duì)廣泛金融信息進(jìn)行交互式搜索、管理和再加工的服務(wù).國內(nèi)的基金、證券等金融機(jī)構(gòu)也在積極探索智能化投研平臺(tái)的建設(shè),如天弘基金采用垂直搜索、網(wǎng)絡(luò)爬蟲、人工智能等技術(shù)打造了智能投研平臺(tái)[6],能及時(shí)捕捉金融市場(chǎng)信息,并對(duì)各類金融事件進(jìn)行關(guān)聯(lián)分析;工銀瑞信基金智能投研平臺(tái)基于自然語言處理與AI 技術(shù),主要實(shí)現(xiàn)了數(shù)據(jù)抽取與解析、知識(shí)圖譜、智能搜索、智能推薦等服務(wù),在對(duì)外部行業(yè)信息與內(nèi)部研究成果進(jìn)行整合、沉淀,提升研究的價(jià)值.
智能投研平臺(tái)主要涵蓋了信息提取、關(guān)系識(shí)別、情感分類等主要功能,自然語言處理、AI 與知識(shí)圖譜則是實(shí)現(xiàn)這些功能的核心技術(shù).羅平[7]指出,以LSTM為主的深度學(xué)習(xí)算法已成為金融文本信息提取的主流,尤其是Bi-LSTM 在命名實(shí)體識(shí)別、關(guān)系抽取等方面都表現(xiàn)出較大的優(yōu)越性;黃勝等[8]采用Bi-LSTM+CRF 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合領(lǐng)域詞典,抽取金融文本中的結(jié)構(gòu)化信息,發(fā)現(xiàn)該方法較傳統(tǒng)的規(guī)則匹配有較大提升效果,且能滿足多種類文本的提取需求;陳劍南等[9]采用雙向LSTM 結(jié)合多重注意力機(jī)制模型提取金融事件中實(shí)體間的關(guān)系,并基于Neo4j 數(shù)據(jù)庫構(gòu)建了金融事件圖譜,對(duì)金融事件之間的聯(lián)系形成更精準(zhǔn)的畫像;趙亞南等[10]指出Attention 機(jī)制已廣泛用于各類文本任務(wù),并通過實(shí)驗(yàn)表明基于多頭注意力機(jī)制的Transformer 模型在金融文本極性分析上取得較好的效果;馬遠(yuǎn)等[11]在目標(biāo)方面詞的左右分別采用Bi-GRU和Attention 機(jī)制提取雙邊的語義信息,并將雙邊特征與目標(biāo)詞結(jié)合起來識(shí)別文本的情感類別,實(shí)現(xiàn)對(duì)文本語義更細(xì)粒度的處理;趙澄等[12]在對(duì)金融文本進(jìn)行情感分類的基礎(chǔ)上,將情感的正負(fù)面類別作為關(guān)鍵特征加入股票預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果表明該方法提升了股票價(jià)格預(yù)測(cè)的準(zhǔn)確性.
智能投研相關(guān)的行業(yè)性研究主要集中在兩方面,一是側(cè)重于行業(yè)應(yīng)用與案例的介紹,對(duì)智能化技術(shù)及平臺(tái)構(gòu)建方法的探討尚有不足;二是注重對(duì)實(shí)現(xiàn)某一項(xiàng)功能的技術(shù)探索,缺乏對(duì)平臺(tái)整體技術(shù)與應(yīng)用架構(gòu)的研究.為此,本文從智能投研平臺(tái)建設(shè)的整體架構(gòu)出發(fā),提出了融合大數(shù)據(jù)、自然語言處理、機(jī)器學(xué)習(xí)與知識(shí)圖譜等技術(shù)的智能化平臺(tái)的研發(fā)設(shè)計(jì)與應(yīng)用實(shí)現(xiàn)方案,重在探索智能化技術(shù)在金融投研場(chǎng)景中的落地路徑及應(yīng)用范式.
智能金融投研平臺(tái)的建設(shè)主要由數(shù)據(jù)處理層、智能分析層、業(yè)務(wù)領(lǐng)域應(yīng)用等部分構(gòu)成,對(duì)非結(jié)構(gòu)化文本信息進(jìn)行解析、提取、整合與關(guān)聯(lián),實(shí)現(xiàn)投資研究中知識(shí)搜索、分析預(yù)測(cè)等功能,為金融投資、財(cái)富管理等各業(yè)務(wù)領(lǐng)域提供多維度的智能化投研服務(wù).該智能金融平臺(tái)整體架構(gòu)如圖1所示.
圖1 智能金融投研平臺(tái)整體架構(gòu)
整個(gè)平臺(tái)最底層對(duì)接多種數(shù)據(jù)源,涵蓋了研究報(bào)告、企業(yè)公告、新聞信息、媒體網(wǎng)站等外部信息,以及內(nèi)部的投研相關(guān)信息,采用Sqoop/Flume 將各類數(shù)據(jù)源中的關(guān)系型及非關(guān)系型數(shù)據(jù)導(dǎo)入數(shù)據(jù)處理層中.數(shù)據(jù)處理層集成了多種主流的大數(shù)據(jù)功能組件,為多源異構(gòu)數(shù)據(jù)的存儲(chǔ)、轉(zhuǎn)換、加工及復(fù)雜計(jì)算等提供能力支持.該層采用Hadoop 分布式系統(tǒng)處理架構(gòu),通過HDFS 實(shí)現(xiàn)對(duì)投研領(lǐng)域長時(shí)間、跨渠道數(shù)據(jù)的存儲(chǔ);基于HBase和Phoenix 解決對(duì)金融信息準(zhǔn)實(shí)時(shí)查詢的性能問題;依托SparkSQL 實(shí)現(xiàn)對(duì)行業(yè)信息的復(fù)雜規(guī)則計(jì)算及靈活的數(shù)據(jù)探索;通過SparkGraphX 圖計(jì)算引擎進(jìn)行全局的、多層次的金融知識(shí)圖譜分析計(jì)算.數(shù)據(jù)處理層還配置了Neo4j、Janus Graph 等圖數(shù)庫,支持從文本中提取出的數(shù)據(jù)信息以圖結(jié)構(gòu)的形式進(jìn)行存儲(chǔ)及查詢展示;同時(shí),這些預(yù)處理信息也通過構(gòu)建索引的形式存儲(chǔ)在ElasticSearch 搜索分析引擎中,實(shí)現(xiàn)高靈活性、高準(zhǔn)確性、低延時(shí)及大規(guī)模并行化的檢索查詢[13].
智能分析層在數(shù)據(jù)處理層提供的存儲(chǔ)、計(jì)算等資源支持下,主要涵蓋3 部分:一是將AI 算法與語義理解領(lǐng)域技術(shù)相結(jié)合,構(gòu)建出面向投研領(lǐng)域的各類應(yīng)用型算法模型,形成對(duì)金融文本的多種處理能力,從而提取出有價(jià)值的數(shù)據(jù)信息并進(jìn)行相應(yīng)的業(yè)務(wù)預(yù)測(cè);二是基于從金融文本中提取出的結(jié)構(gòu)化信息,構(gòu)建金融知識(shí)圖譜,形成對(duì)金融知識(shí)與研究成果的沉淀與關(guān)聯(lián),并實(shí)現(xiàn)快速的檢索查詢及分析推理;三是整合語義理解及金融知識(shí)圖譜的分析預(yù)測(cè)結(jié)果,最終形成輿情分析、觀點(diǎn)提取等多種投研領(lǐng)域的智能化中臺(tái)服務(wù),可供行業(yè)研究、資產(chǎn)管理等不同業(yè)務(wù)領(lǐng)域靈活調(diào)用,賦能金融業(yè)務(wù)的數(shù)字化、智能化轉(zhuǎn)型.
結(jié)構(gòu)化分析子平臺(tái)是整個(gè)智能化投研建設(shè)的關(guān)鍵部分,以自然語言處理技術(shù)和AI 算法為核心支撐,通過兩者的結(jié)合,尤其是深度學(xué)習(xí)算法的應(yīng)用,使平臺(tái)進(jìn)一步形成了對(duì)金融文本語義的深度理解能力,從而更精準(zhǔn)地實(shí)現(xiàn)各類文本非結(jié)構(gòu)化任務(wù)以及智能化金融分析服務(wù).平臺(tái)的這部分功能[14]主要在于,一是金融信息的工程化處理,即對(duì)金融文本中的段落、句子、詞語等進(jìn)行細(xì)致地識(shí)別與提取,并形成金融信息網(wǎng)絡(luò),促進(jìn)文本等非結(jié)構(gòu)化信息的結(jié)構(gòu)化、實(shí)體化以及標(biāo)準(zhǔn)化;二是金融分析預(yù)測(cè),對(duì)各種紛繁信息進(jìn)行靈活的再組合、再挖掘,評(píng)估相關(guān)信息對(duì)金融事件或金融資產(chǎn)的影響.該子平臺(tái)的整體架構(gòu)如圖2所示.
圖2 非結(jié)構(gòu)化分析子平臺(tái)
該子平臺(tái)集成了各類AI 基礎(chǔ)算法及主流開發(fā)框架,塑造了多維的語義理解能力,形成了針對(duì)金融文本的分詞、命名實(shí)體識(shí)別等基礎(chǔ)任務(wù),最終構(gòu)建了面向不同應(yīng)用的金融文本相關(guān)分析服務(wù).在開發(fā)框架上,除了Sklearn、TensorFlow、PyTorch 等機(jī)器學(xué)習(xí)、深度學(xué)習(xí)框架,還引入了HanLP、Time-NLP 自然語言處理等自然語言處理的專業(yè)框架,以提升對(duì)文本進(jìn)行基礎(chǔ)處理的能力和效率.基于豐富的開發(fā)框架,平臺(tái)涵蓋了傳統(tǒng)的自然語言處理算法及深度學(xué)習(xí)AI 算法,形成了更完善的基礎(chǔ)算法體系,能根據(jù)不同的金融文本非結(jié)構(gòu)化信息的處理及分析目標(biāo),對(duì)各類基礎(chǔ)算法進(jìn)行靈活的組合、重構(gòu)與優(yōu)化,從而構(gòu)建出相應(yīng)的應(yīng)用型算法模型,也形成了針對(duì)金融文本非結(jié)構(gòu)化信息的多維語義理解能力.在此基礎(chǔ)上,平臺(tái)一方面能高效地實(shí)現(xiàn)分詞、關(guān)鍵詞抽取、命名實(shí)體識(shí)別等處理任務(wù),為后續(xù)的金融分析服務(wù)提供更高質(zhì)量的數(shù)據(jù)基礎(chǔ).另一方面在結(jié)構(gòu)化信息的基礎(chǔ)上,形成了對(duì)金融文本的信息分類、觀點(diǎn)摘要、輿情分析等智能化應(yīng)用服務(wù).
結(jié)合工程實(shí)踐與應(yīng)用場(chǎng)景特點(diǎn),經(jīng)多次反復(fù)驗(yàn)證模型效果,本文確定了相關(guān)金融業(yè)務(wù)場(chǎng)景的模型技術(shù)架構(gòu).考慮到金融文本處理相關(guān)任務(wù)及應(yīng)用類型較多,表1展示了本方案中最主要的幾類任務(wù).
表1 金融文本結(jié)構(gòu)化分析任務(wù)/服務(wù)(示例)
命名實(shí)體識(shí)別是文本處理的一項(xiàng)基礎(chǔ)任務(wù),主要目的在于從語料中提取出特定類型的主體,是構(gòu)建金融知識(shí)圖譜的關(guān)鍵環(huán)節(jié).通用領(lǐng)域的命名實(shí)體大致分為人名、地名、機(jī)構(gòu)名、時(shí)間、日期、貨幣和百分比等7 類,而在特定領(lǐng)域,命名實(shí)體則有著更多更細(xì)致的類型,如金融債券業(yè)務(wù)中,債券名稱、發(fā)行要素、經(jīng)濟(jì)指標(biāo)、財(cái)務(wù)指標(biāo)等均為重要的實(shí)體內(nèi)容.在實(shí)體識(shí)別的方法上,時(shí)間、日期、貨幣、百分比等可以通過語言模板及正則表達(dá)式等模式匹配的方式被較好地提取出來,而其他實(shí)體由于形式的多樣化,具有更高的提取難度,需要借助AI 算法模型實(shí)現(xiàn)更精準(zhǔn)的識(shí)別.本文方案中,主要采用BERT 與CRF 結(jié)合的深度神經(jīng)網(wǎng)絡(luò)模型,該模型在具體實(shí)現(xiàn)過程中所采用的技術(shù)架構(gòu)如圖3所示.
圖3 BERT+CRF 模型架構(gòu)
BERT 采用多層雙向Transformer 機(jī)制進(jìn)行編碼和解碼,能夠?qū)⑤斎刖渥又械拿恳粋€(gè)詞與其前后所有的詞進(jìn)行關(guān)聯(lián),通過對(duì)長距離特征的捕獲,更完整地理解整體的語義信息[15];CRF 將當(dāng)前節(jié)點(diǎn)的輸出序列與相連節(jié)點(diǎn)的輸出序列相關(guān)聯(lián),能更有效地解決序列標(biāo)注和預(yù)測(cè)問題[16],兩者結(jié)合起來可以更精確地對(duì)文本進(jìn)行劃分,并識(shí)別出語句的含義.在命名實(shí)體識(shí)別過程中,一般采用線性鏈CRF,當(dāng)輸入變量X取值為x時(shí),其輸出變量Y取值為y的條件概率函數(shù)形式為:
其中,tk和Sl分別是轉(zhuǎn)移特征函數(shù)和狀態(tài)特征函數(shù),λk和μl分別為對(duì)應(yīng)的權(quán)重,Z(x)是規(guī)范化因子,表示所有可能的輸出序列的概率取值總和.在實(shí)際金融業(yè)務(wù)建模中,模型的訓(xùn)練目標(biāo)為使真實(shí)序列發(fā)生的概率在所有可能生成的序列中占比最高.
關(guān)系抽取是指自動(dòng)識(shí)別文本中實(shí)體對(duì)之間的語義關(guān)系類型,是構(gòu)建知識(shí)圖譜、實(shí)現(xiàn)文本信息結(jié)構(gòu)化的重要步驟,也是文本處理的一項(xiàng)基礎(chǔ)任務(wù).如,“任正非1987年在深圳成立了華為公司”這句話,“任正非”相對(duì)于“華為”的關(guān)系為“創(chuàng)始人”.目前關(guān)系抽取在完全監(jiān)督、遠(yuǎn)程監(jiān)督、聯(lián)合抽取等不同方法上都有較多經(jīng)典的算法模型,本文方案中基于識(shí)別出的實(shí)體,采用遠(yuǎn)程監(jiān)督方法進(jìn)行關(guān)系識(shí)別.該模型的技術(shù)架構(gòu)如圖4所示.
圖4 關(guān)系抽取模型架構(gòu)
該模型設(shè)計(jì)上,先是構(gòu)建詞向量(word embedding)和位置向量(position embedding),在對(duì)詞義進(jìn)行刻畫的同時(shí),也融入了實(shí)體對(duì)之間的位置信息;然后采用PCNN (piece-wise convolutional neural networks)[17],根據(jù)實(shí)體的位置進(jìn)行分段池化,提取得到句子級(jí)的特征,再通過attention 對(duì)句子特征賦予不同的權(quán)重,降低instance的噪聲,加權(quán)后的結(jié)果將形成整個(gè)bag的表征.模型最后的輸出為bag 與每個(gè)relation的相似度,作為在該relation 維度上的得分,此處用向量的點(diǎn)積進(jìn)行相似度的計(jì)算[18],relation的得分表示為:
其中,Wc表示由每一類relation 向量組成的關(guān)系矩陣;s表示attention 加權(quán)后整個(gè)bag的特征.同時(shí),該模型將pairwise ranking loss 作為優(yōu)化目標(biāo)[19],在盡量增加正樣本得分的同時(shí),盡量減小負(fù)樣本的得分,使正負(fù)樣本之間形成更加清晰的區(qū)分,構(gòu)建的損失函數(shù)如下所示:
其中,r為縮放調(diào)整因子,ρ+,ρ?分別表示正負(fù)樣本的margin,表示標(biāo)簽為正樣本的得分,則表示負(fù)樣本的得分.
情感分析是指基于對(duì)一段文本的語義理解,識(shí)別其所帶有的情感色彩,如正面或者負(fù)面等,目前已具有較廣泛的應(yīng)用.情感分析最常應(yīng)用于分析客戶對(duì)商品的評(píng)價(jià),以判斷客戶的滿意程度.在金融領(lǐng)域,情感分析主要用于對(duì)新聞?wù)摺⒐娸浾?、社?huì)事件等方面的挖掘預(yù)測(cè),捕獲這些因素對(duì)企業(yè)或金融資產(chǎn)價(jià)格可能的影響,以輔助進(jìn)一步的分析決策.在情感分析模型的構(gòu)建上,對(duì)正面、負(fù)面或者中性等的判斷可以看成是一個(gè)多分類問題.由于在一句文本中,對(duì)于不同主體常常有不同的情感類型,本文對(duì)經(jīng)典Bi-LSTM+Attention模型進(jìn)行改進(jìn),針對(duì)目標(biāo)詞進(jìn)行左右兩邊注意力機(jī)制提取關(guān)鍵特征,形成針對(duì)特定主體的方面情感識(shí)別.該模型技術(shù)架構(gòu)如圖5所示.
圖5 情感分析模型架構(gòu)
以圖5為例,“安慶政府為安慶城投提供財(cái)政支持”這句話中,“安慶城投”分析的目標(biāo)主體,以此確定左側(cè)文本為“安慶政府為”,右側(cè)文本為“提供財(cái)政支持”.Bi-LSTM 在單向LSTM的基礎(chǔ)上再增加一層反向循環(huán)層,將正反兩層網(wǎng)絡(luò)的處理值拼接起來,能全面地提煉出整條文本的語義特征[20];在此基礎(chǔ)之上,根據(jù)目標(biāo)詞的位置,對(duì)左側(cè)文本、目標(biāo)詞、右側(cè)文本分別采用Attention 機(jī)制進(jìn)行特征賦權(quán),最終將3 部分的特征組合起來形成針對(duì)目標(biāo)詞的整條文本表征向量rs,具體計(jì)算表示如下:
其中,Hi為Bi-LSTM 層在左側(cè)文本、目標(biāo)詞、右側(cè)文本這3 個(gè)模塊的輸出,αiT相當(dāng)于3 個(gè)模塊attention 層的權(quán)重矩陣;最后再通過Softmax函數(shù)輸出類別的概率,給定輸入文本S,其輸出為:
采用交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo),計(jì)算如下所示:
其中,y表示樣本的類別標(biāo)簽,P(y)表示模型預(yù)測(cè)樣本為相應(yīng)類別概率,c表示類別的數(shù)目.
金融知識(shí)圖譜主要是通過大規(guī)模語義網(wǎng)絡(luò),將金融領(lǐng)域中結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等不同類型的數(shù)據(jù)進(jìn)行整合.圖譜以實(shí)體或者概念作為節(jié)點(diǎn),節(jié)點(diǎn)之間以關(guān)系為邊相連接,通過圖數(shù)據(jù)庫以網(wǎng)絡(luò)連接的形式進(jìn)行可視化查詢分析,能夠推動(dòng)決策支持、個(gè)性化推薦等服務(wù)的智慧化發(fā)展[21].
在金融投研領(lǐng)域,行業(yè)信息及研究成果等大都以文本的形式存在,信息之間缺乏關(guān)聯(lián)性,且分布零散,難以形成對(duì)知識(shí)的沉淀.通過知識(shí)圖譜技術(shù)將跨領(lǐng)域、跨行業(yè)、跨主體的金融業(yè)務(wù)信息關(guān)聯(lián)起來,形成深度的金融信息網(wǎng)絡(luò),對(duì)增強(qiáng)研究的深度與廣度、提升金融投研工作的精準(zhǔn)性有重要的價(jià)值和意義,也能使搜索推薦、分析預(yù)測(cè)、查詢決策等金融服務(wù)更加智慧,進(jìn)而增強(qiáng)金融機(jī)構(gòu)投研業(yè)務(wù)的智能化水平.本方案中,金融知識(shí)圖譜子平臺(tái)的架構(gòu)如圖6所示.
圖6 金融知識(shí)圖譜子平臺(tái)
金融知識(shí)圖譜的構(gòu)建基于結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化等不同類型的數(shù)據(jù),其中結(jié)構(gòu)化數(shù)據(jù),如產(chǎn)能、產(chǎn)量等標(biāo)準(zhǔn)化數(shù)據(jù)可直接通過表結(jié)構(gòu)轉(zhuǎn)換進(jìn)行信息整合提取;而對(duì)于大量的非結(jié)構(gòu)化金融文本來說,需要依托前述的文本處理相關(guān)技術(shù)提取出文本中的實(shí)體、關(guān)系、屬性等價(jià)值信息,以進(jìn)行后續(xù)的關(guān)聯(lián)與分析,這也是整個(gè)金融知識(shí)圖譜開發(fā)中極為關(guān)鍵也具有難度的環(huán)節(jié).對(duì)提取出的信息進(jìn)行同義實(shí)體的對(duì)齊、統(tǒng)一,以及結(jié)構(gòu)轉(zhuǎn)換與信息關(guān)聯(lián),并以“實(shí)體-關(guān)系-實(shí)體”“實(shí)體-關(guān)系-屬性”的三元組等形式進(jìn)行知識(shí)表示.將融合好的知識(shí)信息存儲(chǔ)在Neo4j、Janus Graph 等圖數(shù)據(jù)庫,以及ElasticSearch 等查詢引擎中,以實(shí)現(xiàn)快速的圖可視化查詢,以及深度的圖挖掘分析,最終支持知識(shí)檢索、事件推理、資產(chǎn)配置等金融投研領(lǐng)域的業(yè)務(wù)應(yīng)用[22].
本文以地方政府城投債相關(guān)金融文本作為實(shí)驗(yàn)數(shù)據(jù),依托AI 算法,基于自然語言理解能力對(duì)文本信息進(jìn)行抽取,實(shí)現(xiàn)金融文本的工程化、結(jié)構(gòu)化處理,并結(jié)合知識(shí)圖譜技術(shù)進(jìn)行實(shí)體、關(guān)系、屬性的鏈接,構(gòu)建了城投債領(lǐng)域的金融知識(shí)圖譜,形成了債券金融信息網(wǎng)絡(luò).最后對(duì)智能金融投研平臺(tái)的信息抽取、知識(shí)檢索、情感分析等主要功能進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明該平臺(tái)能實(shí)現(xiàn)從非結(jié)構(gòu)化數(shù)據(jù)處理到知識(shí)檢索、情感分析等各項(xiàng)功能的全流程、自動(dòng)化、高精度運(yùn)行.
在進(jìn)行金融信息抽取及知識(shí)圖譜構(gòu)建之前,先基于城投債領(lǐng)域相關(guān)內(nèi)容及業(yè)務(wù)邏輯進(jìn)行語義關(guān)系的設(shè)計(jì),即確定城投債領(lǐng)域中實(shí)體的類型,以及實(shí)體之間可能存在的關(guān)系類型,這是進(jìn)行后續(xù)開發(fā)的基礎(chǔ).在具體實(shí)驗(yàn)中,除了地名、機(jī)構(gòu)名、時(shí)間、日期、貨幣和百分比等基本實(shí)體類型外,還新增了行業(yè)、產(chǎn)業(yè)、債券名、經(jīng)濟(jì)指標(biāo)、財(cái)務(wù)指標(biāo)、經(jīng)營業(yè)務(wù)、項(xiàng)目等領(lǐng)域特定實(shí)體.在關(guān)系類型上,重點(diǎn)搭建了涵蓋空間、時(shí)間、物理、上下位等維度的語義關(guān)系架構(gòu),圖7展示了語義關(guān)系部分示例.
圖7 語義關(guān)系結(jié)構(gòu)(示例)
通過內(nèi)外部渠道采集近5年內(nèi)城投債行業(yè)的債券募集說明書、債券評(píng)級(jí)報(bào)告等金融文本,共10 000 篇左右,作為平臺(tái)實(shí)驗(yàn)的數(shù)據(jù).
先基于Jieba 分詞器進(jìn)行分詞,并通過添加城投債行業(yè)的詞匯對(duì)詞典進(jìn)行維護(hù),提升分詞的準(zhǔn)確性;在分詞的基礎(chǔ)上,采用正則表達(dá)式與BERT+CRF 模型相結(jié)合的方法進(jìn)行相關(guān)實(shí)體的識(shí)別與抽取.對(duì)于日期、時(shí)間、數(shù)值等這類形式較固定的信息,直接采用正則表達(dá)式進(jìn)行抽取;而對(duì)于行業(yè)、公司名等內(nèi)容較多樣的實(shí)體,正則表達(dá)式難以涵蓋,需采用前述的BERT+CRF模型進(jìn)行識(shí)別.圖8為時(shí)間抽取的正則表達(dá)式示例,通過該正則表達(dá)式可以將時(shí)間內(nèi)容,以及對(duì)應(yīng)的年、月、日等信息分別提取出來.
圖8 時(shí)間抽取正則表達(dá)式(示例)
圖9為安慶市城投債評(píng)級(jí)報(bào)告中的一段文本,基于正則表達(dá)式與BERT+CRF 模型相結(jié)合的信息抽取方法,識(shí)別出了時(shí)間、百分比、行業(yè)、地區(qū)、公司名、經(jīng)濟(jì)指標(biāo)等實(shí)體類型,以及對(duì)應(yīng)的具體文本內(nèi)容.實(shí)體識(shí)別的結(jié)果如圖10所示.
圖9 實(shí)體識(shí)別文本(示例)
圖10 實(shí)體識(shí)別結(jié)果(示例)
在識(shí)別出實(shí)體的基礎(chǔ)上,采用前述的關(guān)系抽取模型進(jìn)行不同實(shí)體間關(guān)系的判斷,圖11為一段城投債金融文本示例,對(duì)其進(jìn)行關(guān)系抽取的結(jié)果如圖12所示.
圖11 關(guān)系抽取文本(示例)
圖12 關(guān)系抽取結(jié)果(示例)
基于語義框架中定義的城投債領(lǐng)域相關(guān)實(shí)體以及關(guān)系類型,結(jié)合從金融文本中提取出的信息,形成點(diǎn)和邊的數(shù)據(jù)集,通過數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)連接,開發(fā)出成型的投研領(lǐng)域企業(yè)債券知識(shí)圖譜.例如,對(duì)于“城投公司屬于某一地區(qū)”這一信息,可表示為“城投公司—所屬地區(qū)—地名”三元組形式,在知識(shí)圖譜構(gòu)建過程中,城投公司實(shí)體數(shù)據(jù)示例如表2所示,地名實(shí)體數(shù)據(jù)示例如表3所示,城投公司和地名之間關(guān)系數(shù)據(jù)集示例如表4所示,將實(shí)體及關(guān)系數(shù)據(jù)集導(dǎo)入圖數(shù)據(jù)庫中,即形成相應(yīng)的關(guān)聯(lián)關(guān)系圖.
表2 公司名實(shí)體數(shù)據(jù)集(示例)
表3 地名實(shí)體數(shù)據(jù)集(示例)
表4 關(guān)系數(shù)據(jù)集(示例)
將從債券行業(yè)文本中提取出的所有相關(guān)實(shí)體,以及實(shí)體的關(guān)系和屬性值導(dǎo)入圖數(shù)據(jù)庫中,即得到較為完整的債券行業(yè)金融知識(shí)圖譜(如圖13所示),實(shí)現(xiàn)了金融文本的結(jié)構(gòu)化、可視化,有助于提升投研分析的便捷性與清晰度.
圖13 城投債關(guān)聯(lián)圖譜(示例)
以前述的實(shí)驗(yàn)設(shè)計(jì)為基礎(chǔ),主要對(duì)報(bào)告的自動(dòng)解析、知識(shí)檢索及情感分析等方面的功能進(jìn)行測(cè)試,以驗(yàn)證智能投研平臺(tái)運(yùn)行的效果及穩(wěn)定性.
通過對(duì)債券相關(guān)文本中實(shí)體、關(guān)系、屬性等金融信息的抽取、關(guān)聯(lián),平臺(tái)能夠自動(dòng)解析債券市場(chǎng)信息,提取核心內(nèi)容并進(jìn)行金融知識(shí)圖譜存儲(chǔ),形成債券行業(yè)的知識(shí)庫.原本人工研讀一份萬字的債券評(píng)級(jí)報(bào)告需2 h 左右,而通過智能投研平臺(tái)進(jìn)行結(jié)構(gòu)化處理僅需1 min 30 s,且解析效率高達(dá)90%左右,能極大提升債券行業(yè)研究人員的文本閱讀效率.圖14表示一份文本形式的評(píng)級(jí)報(bào)告,圖15表示智能投研平臺(tái)對(duì)該評(píng)級(jí)報(bào)告進(jìn)行解析后形成的結(jié)構(gòu)化信息示例.
圖14 債券評(píng)級(jí)報(bào)告截圖
圖15 報(bào)告自動(dòng)化解析
解析出的結(jié)構(gòu)化信息以知識(shí)圖譜的形式進(jìn)行存儲(chǔ),形成金融文本信息的沉淀,可供進(jìn)一步的檢索查詢、推理預(yù)測(cè).人工閱讀與智能投研平臺(tái)解析的效果對(duì)比如表5所示.
表5 智能解析效果
基于圖數(shù)據(jù)庫存儲(chǔ)沉淀的結(jié)構(gòu)化信息,并通過在ElasticSearch 中構(gòu)建倒排索引,平臺(tái)可以實(shí)現(xiàn)對(duì)金融信息快速、精確的查詢檢索.圖16與圖17是信息檢索示例,在經(jīng)過自然語言處理識(shí)別后,圖16中能夠準(zhǔn)確判斷“GDP”與“地區(qū)生產(chǎn)總值”這類同義詞,圖17中則能根據(jù)當(dāng)年數(shù)據(jù)增長情況自動(dòng)計(jì)算出上一年的數(shù)值.
圖16 信息智能檢索(示例一)
圖17 信息智能檢索(示例二)
通過平臺(tái)的智能化檢索,投研人員可迅速獲得行業(yè)數(shù)據(jù),尤其是歷史信息,無須再從紛繁的文本報(bào)告中去查找,極大提升了投研效率.以一條歷史信息的檢索為例,表6展示了人工檢索與智能化檢索的主要差異點(diǎn).
表6 智能檢索效果
在對(duì)金融信息進(jìn)行抽取、檢索等基礎(chǔ)工程化處理的同時(shí),基于對(duì)金融文本的分類預(yù)測(cè),平臺(tái)還實(shí)現(xiàn)了對(duì)新聞報(bào)導(dǎo)、公司公告等信息的情感分析功能.通過對(duì)信息的快速抓取與分析,能夠幫助投研人員及時(shí)、全面地了解市場(chǎng)動(dòng)態(tài),以更前瞻地判斷風(fēng)險(xiǎn)、更精準(zhǔn)地判斷金融資產(chǎn)價(jià)格的走勢(shì).圖18為一則關(guān)于安慶市城投公司的新聞,圖19為平臺(tái)對(duì)這則新聞進(jìn)行情感分析的結(jié)果,針對(duì)“安慶城投”這一分析主體,“正面”表明新聞內(nèi)容對(duì)其有利好影響,相應(yīng)的債券風(fēng)險(xiǎn)也降低.大量文本的測(cè)試結(jié)果顯示情感分析的準(zhǔn)確率能達(dá)到85%以上,對(duì)投研決策能起到較大的輔助作用.
圖18 新聞信息文本(示例)
圖19 平臺(tái)情感分析結(jié)果示例
本文將大數(shù)據(jù)、自然語言處理、知識(shí)圖譜等技術(shù)相結(jié)合,提出了智能金融投研平臺(tái)建設(shè)方案.實(shí)驗(yàn)結(jié)果表明,平臺(tái)能以較高的準(zhǔn)確率全流程、自動(dòng)化地實(shí)現(xiàn)金融業(yè)務(wù)中相關(guān)命名實(shí)體識(shí)別、關(guān)系抽取、知識(shí)圖譜構(gòu)建等信息抽取與整合任務(wù),以及行業(yè)知識(shí)檢索、情感分類等智能金融分析服務(wù),極大地降低了金融行業(yè)投研人員解析、查詢金融信息的時(shí)間,提升了投研工作的效率與精準(zhǔn)度;同時(shí)也實(shí)現(xiàn)了金融領(lǐng)域行業(yè)知識(shí)的多維度、持久化關(guān)聯(lián)與沉淀,為金融投資分析提供更加夯實(shí)的價(jià)值信息.
未來智能金融投研平臺(tái)將進(jìn)一步結(jié)合AI 相關(guān)算法、知識(shí)圖譜等技術(shù)領(lǐng)域的演進(jìn)發(fā)展進(jìn)行更深度的探索研發(fā),一方面持續(xù)提升在金融信息抽取、檢索上的精準(zhǔn)性;另一方面積極探索事件推理、輿情因子等在金融資產(chǎn)配置及風(fēng)險(xiǎn)防控等方面的應(yīng)用,進(jìn)一步提升平臺(tái)在金融投研領(lǐng)域的服務(wù)價(jià)值.