摘要:信用研究作為信用債投資的基礎,具有重要作用。本文嘗試探索金融科技在信用研究領域的應用,針對傳統(tǒng)信用研究存在的難點,從信用研究各環(huán)節(jié)出發(fā),探索運用網絡爬蟲技術、圖文互搜、多模態(tài)信息識別與抽取、信息聚類與展示、文本自動生成技術、人機交互等多種金融科技解決方案,為后續(xù)進一步研究提供一定的基礎。
關鍵詞:金融科技 信用研究 網絡爬蟲 機器學習 自然語言處理
傳統(tǒng)信用研究存在的缺陷
傳統(tǒng)信用研究中研究員一般利用公開報道、財務報表等資料和實地調研,對某一特定行業(yè)或某一特定發(fā)債主體進行深入研究,挖掘性價比相對較高的信用個券和行業(yè),為投資策略的制定提供技術層面的依據。但隨著信用債規(guī)模擴大,傳統(tǒng)信用研究的方式逐漸凸顯一些缺陷。
(一)從海量數(shù)據中挖掘有效信息耗時耗力
信用研究員一方面需要從發(fā)債主體的募集說明書、年度報告、信用評級報告、公司公告等渠道獲得可靠信息,并進行實地調研,以深入研究及印證;另一方面需要從相關數(shù)據中尋找數(shù)據和事件之間的關聯(lián)性,處理數(shù)據并給出合理性解釋。面對海量數(shù)據,需逐一對同行業(yè)中各企業(yè)披露的信息進行判斷和計算,將數(shù)據整合成統(tǒng)一可比的形式,通常這一工作量較大。
(二)人工搜集與處理數(shù)據存在不準確、不全面的情況
手工進行基礎數(shù)據采集時,會遇到發(fā)債主體的不同報告披露的同一數(shù)myiT/cNiaJSR98j4ACwweg==據存在不同數(shù)值的情況,甚至募集說明書出現(xiàn)錯誤的情況,但受限于人工難以全面地搜尋多渠道數(shù)據進行比較,研究數(shù)據可能不準確。同時,研究員時間精力有限,難以獨自在短期內對行業(yè)內橫向全部發(fā)債主體、縱向長時間跨度內進行詳盡分析。
(三)傳統(tǒng)固收研究容易受個人思維和情緒的束縛
信用評級模型建立和個券價值排序主要基于主觀判斷,不同機構、不同研究員對于同一發(fā)債主體、同一行業(yè)可能存在完全不同的看法,研究員往往需要對某一行業(yè)進行數(shù)年的跟蹤研究,才可能較準確地把握行業(yè)特性。個人分析難以全面準確,研究框架還需根據不同行業(yè)的特性相應調整。同時,受限于“套用公式”的研究方式,研究員通常只關注框架內的指標和內容,往往容易忽略加劇違約風險的關鍵因素。比如,某企業(yè)其他應收賬款中關聯(lián)方占款嚴重,存在資金回收困難的風險,但事先建立的研究模型中若未包含這一指標,則該風險點容易被忽略。
(四)研究成果存在時滯問題
傳統(tǒng)信用評級研究往往以某個時點為限,基于歷史數(shù)據,對行業(yè)內存在的信用風險、企業(yè)自身償債能力進行謹慎判斷和預測。從研究框架內的指標選擇、數(shù)據挖掘與處理、圖表繪制和分析,到完成研究報告撰寫需要一定時間,但隨著市場上存續(xù)債到期、發(fā)債主體整合重組、市場突發(fā)事件等情況的發(fā)生,研究成果與行業(yè)和企業(yè)現(xiàn)狀之間存在時滯。
由于傳統(tǒng)信用研究存在前述不足,一些研究開始探索金融科技在該領域的應用。張浩等(2021)認為傳統(tǒng)的人工分析難以覆蓋全市場發(fā)債主體的信用情況,可以運用大數(shù)據、量化分析和人工智能等手段提升信用評級效率和效果。李嘉寶(2019)認為人工分析容易受到情緒、偏見、知識體系等方面的影響,人工智能、大數(shù)據等技術可以優(yōu)化投研質量、提高效率。
本文擬在借鑒眾多研究基礎上,結合自身投資研究實踐,對金融科技在信用研究領域的應用情況進行探索及分析。
金融科技在信用研究領域應用的現(xiàn)狀
(一)金融科技應用的本質
金融科技應用的本質是基于金融數(shù)據,依靠算力和算法解決金融領域特定的問題。數(shù)據是算力和算法的基石,發(fā)債主體所在行業(yè)與發(fā)債主體相關的數(shù)據豐富且披露較為完整,這為科技在信用研究領域的應用提供了廣闊的空間。算力和算法決定著數(shù)據使用的質量和效率,金融科技工具種類較多,比如搜索引擎技術、云計算、人工智能等,且金融科技工具功能開發(fā)具有極大的潛能,這為解決傳統(tǒng)信用研究難點提供了可能性。
國內研究員在數(shù)據挖掘時主要借助萬得(Wind)等財經資訊軟件,但數(shù)據的選擇、處理和分析仍依賴研究員的人工操作和邏輯判斷。金融資訊終端一定程度上降低了研究員在互聯(lián)網上搜集信息的時間成本,然而對于一些特征性數(shù)據,仍需要人工花費大量精力逐一搜尋。盡管這類金融資訊終端已開始利用科技助力金融領域宏觀和微觀數(shù)據的匯總,但對于金融科技在信用研究領域應用的想象遠不應止步于此。事實上,國內外許多頭部金融機構和科技公司已將金融科技更廣泛地運用在信息提取與處理、量化建模、場景模擬、相關性研究等領域。
(二)國外金融科技運用的情況
國際上有許多頭部金融機構和新興科技公司構建或外包“金融+科技”的研究系統(tǒng)。以下簡要介紹三家國際市場上頗負盛名的金融科技公司所打造的金融產品智能研究平臺。
早在2000年,貝萊德基金公司(Blackrock)就開始應用金融科技搭建投資管理和運營平臺(Aladdin Platfrom)1,該智能平臺采用人工智能(AI)中的自然語言處理技術(NLP)讀取和解析文檔,構建數(shù)個儲量巨大的數(shù)據管理中心,為投資者提供風險分析、組合管理、交易等多種服務。
2008年在美國成立的AlphaSense公司2利用自然語言處理技術、高級語言搜索等人工智能技術,開發(fā)了協(xié)助專業(yè)投資者進行數(shù)據導向性決策的市場智能搜索引擎。該公司還擁有整合了行業(yè)監(jiān)管文件、企業(yè)內部數(shù)據、新聞、研究報告等大量資源的商業(yè)數(shù)據庫。
2013年成立于美國的Kensho公司3開發(fā)了Codex和Visallo兩類數(shù)據發(fā)現(xiàn)平臺,Codex是利用人工智能技術進行文本搜索和圖表信息提取的智能研究平臺,可以快速從海量文檔和圖表中提取出有效的相關信息;Visallo集合了以互聯(lián)網為基礎的可視化工具和機器學習數(shù)據分析算力,善于發(fā)掘數(shù)據背后隱藏的關聯(lián)性。Kensho公司提供結構化的數(shù)據集,擅長事件間的相關性分析,主要運用機器學習能力提供以數(shù)據和事實為基礎的決策和結論。
(三)國內金融科技運用的情況
近年來,國內金融科技發(fā)展迅猛,一些公司開始探索金融科技在我國債券市場研究領域應用的可能性。
2015年,天弘基金針對債券市場信用研究開發(fā)了“鷹眼”算法,主要應用搜索引擎技術和人工智能技術中的機器學習,使機器模擬人腦閱讀,自動提取發(fā)債主體行業(yè)動態(tài)、信用評級等影響該發(fā)債企業(yè)資質的相關信息。
2018年,鼎復數(shù)據科技公司發(fā)布了違約預警系統(tǒng),以期能事前提示發(fā)債主體違約風險。該系統(tǒng)主要運用大數(shù)據和自然語言處理技術完成結構化數(shù)據的搜集處理、信息的邏輯判斷和提取,數(shù)據覆蓋經濟周期、行業(yè)特性、公司治理和評級、輿情等多個方面。
金融科技在信用研究中的應用探析
目前,大數(shù)據與云計算技術的應用相對成熟,機器自動搜索與處理結構化的金融數(shù)據較為常見,一些科技公司還應用人工智能技術使機器可以閱讀、分析和回答一些簡單的金融問題,但還未實現(xiàn)信用研究全過程的智能化。完整的信用研究是從整體的研究框架出發(fā),大致包含行業(yè)基本面研究、發(fā)債主體資質評估、個券性價比挖掘、市場情緒把握、信用策略制定、研究報告撰寫等多個環(huán)節(jié),每個環(huán)節(jié)也有各自的分析框架。
在人工智能技術不斷發(fā)展的當代,人腦不再是學習與思考獨一無二的工具,金融科技在信用研究領域的應用存在廣闊的空間。本研究嘗試列舉信用研究各環(huán)節(jié)存在的關鍵問題,并有針對性地提出運用金融科技的解決辦法。
(一)行業(yè)基本面研究
1.網絡爬蟲應用示例
傳統(tǒng)信用研究中,信息挖掘與觀點提煉耗時耗力。而基于網絡爬蟲(Web Crawler)等技術,可以快速有效地提取信息,將研究員從勞動力密集型的數(shù)據搜索和處理工作中解放出來。
網絡爬蟲技術的工作原理是利用算法,從給定的小部分單個網頁(Uniform Resource Locator,URL)開始爬行,從爬行過的網頁中獲取新的單個網頁放入隊列,再重復爬行的過程,直到滿足設定的條件才停止爬行。其中的聚焦爬蟲技術中增加了網頁分析算法,能過濾掉與設定的查詢項完全無關的網頁,提高搜索效率和質量。通過設計聚焦爬蟲的算法,可以智能地爬取行業(yè)上下游、產銷量等基本面信息。
在網絡爬蟲爬取全網資料的過程中,依然會面臨圖像、文本甚至視頻等多種模態(tài)的數(shù)據。為了盡可能保留較全的數(shù)據,可以采用人工智能中的相關技術,如文本識別(OCR)、圖文信息對齊等,把非文本的數(shù)據提取處理、整理成結構化或者半結構化數(shù)據,方便我們在下游抽取有用知識。
由于爬蟲獲取的數(shù)據非常廣泛,無疑會引入大量低質量數(shù)據。為了解決這個問題,可以采用兩種方法來對數(shù)據進行分層處理。一方面基于人工智能中的無監(jiān)督聚類技術及金融領域大量知識,可以設計一個深度學習模型,通過該模型來抽取爬蟲數(shù)據在某個高維空間的語義表征,再進行聚類處理,這樣可以快速地把同質化的內容歸類;另一方面,運用資深研究員的專業(yè)能力,只需要標注某個行業(yè)少量的數(shù)據,就可以利用人工智能中的半監(jiān)督分類技術,在上游數(shù)據中過濾出最為高質量的一批,用于行業(yè)分析決策當中。
2.自然語言處理技術應用示例
信用研究中為現(xiàn)象尋求合理解釋是必要的。比如在分析行業(yè)景氣度時,研究員需找出價格明顯波動背后的成因,可以依據事件發(fā)生的時間點等標簽去尋找事件之間的聯(lián)系。例如,在探究鐵礦石價格在2019年明顯走高的原因時,研究員會提取“2019年”“鐵礦石”“產量”等關鍵詞進行網絡搜索,通過比對搜索結果中時間相近、內容相關的事件“2019年巴西淡水河谷公司潰壩事故”,并根據對全球鐵礦石供給商“寡頭壟斷”及進出口數(shù)據的分析,最終得出“巴西淡水河谷公司潰壩是導致2019年我國鐵礦石價格走高的主要原因”這一結論。
為實現(xiàn)這一過程的智能化,可以利用自然語言處理技術中的自然語言理解算法,對數(shù)據庫內的文本進行機器翻譯、信息摘取、語義對比;采用關聯(lián)規(guī)則算法、主成分分析方法、基于深度學習模型的聚類算法等,可以對跨行業(yè)跨時間的海量數(shù)據進行提取分析,有助于機器發(fā)掘數(shù)據、事件之間的關聯(lián)性;利用深度學習和自然語言處理技術中的自然語言生成算法,借鑒谷歌開源的BERT模型(Bidirectional Encoder Representations from Transformers)或開放智能實驗室的GPT模型(Generative Pre-Training)等自然語言處理尖端技術,可以在信用研究這一特定領域,把資深研究員先驗的分析能力融入深度學習模型,實現(xiàn)機器基于輸入的信息進行訓練、學習,進行機器寫作,并將觀點以人類語言形式反饋出來。
(二)發(fā)債主體資質評估、把握市場情緒及個券挖掘
金融科技還可以助力構建發(fā)債主體資質評級框架。研究框架的搭建離不開人機交互,首先需要資深研究員設定一個初始的研究框架,再基于自動學習(Auto Learning)和主動學習(Active Learning)等各種人工智能技術實現(xiàn)機器在信用研究領域自動、自主學習,以及獲取支撐分析過程的數(shù)據等。這些技術的運用可以方便地獲取全局最優(yōu)解,并且解決過程中的不合理結果(Bad Case),從而檢驗初始模型的有效性,自動調整研究框架。
傳統(tǒng)信用研究框架的擬定往往依賴于研究員個人對市場和行業(yè)的把握,其中評級模型的建立、指標的權重賦值、評分標準等均基于研究員的主觀判斷。機器學習等人工智能技術為這一過程提供了更客觀的解法。此外,算法相比人腦,可以更高效地處理時間跨度更長、比較范圍更廣、更全面的數(shù)據,還可以快速進行多渠道數(shù)據的匯總和比對,提高數(shù)據準確性。在信用評估的過程中,算法使得機器可以創(chuàng)造價值,即通過橫向對比行業(yè)內各企業(yè)償債能力差異,縱向對比企業(yè)自身近幾年盈利狀況和償債能力,分辨財務數(shù)據真實性,甄別企業(yè)財務粉飾和造假行為。
運用爬蟲算法與自然語言算法,可以把握市場情緒和進行個券挖掘。機器可以準確獲取市場中個券的報價與成交情況,通過建模和指標選擇進行市場情緒指數(shù)的計算,加上自然語言算法的發(fā)展,可以使機器巧妙地分辨人類語言,進行圖像與文字的理解轉換,通過對輿情等信息的理解,更好地把握市場情緒。爬蟲算法還可以同時處理市場中海量存續(xù)債估值、剩余期限等數(shù)據,通過人為設定收益率預期,運用模型進行智能投資價值排序,挖掘個券。
(三)投資策略制定與報告自動生成
前述金融科技算法使找出最優(yōu)投資策略成為可能。以人類語言的形式自動生成與展現(xiàn)投資策略及研究報告還需要用到文本自動生成算法和圖表自動生成算法。事實上,金融科技已經可以一定程度上實現(xiàn)這一目標,例如部分銀行手機應用為購買理財?shù)挠脩糇詣由珊屯扑屠碡攬蟾?,包含對歷史收益等情況的分析并給予投資建議。
知識圖譜技術能協(xié)助數(shù)據和信息的整合與關系梳理,可以使零散的數(shù)據和分析搭建成知識體系,方便信息的加工和抽取;網絡爬蟲技術中增量爬蟲算法可以爬取已儲存數(shù)據更新情況,實時更新研究報告;人機交互過程中,各類金融科技算法的應用使得研究能力得以量化和傳承,并能對研究報告質量進行量化評估。例如目前國內一些信用分析及信息終端可以生成信用研究分析報告。
總結來看,智能信用策略及信用研究報告自動生成需要經歷爬數(shù)據、抽數(shù)據、提煉知識、展示、整合、總結觀點等多個步驟,在這些步驟中可以相應地運用網絡爬蟲技術、圖文互搜、多模態(tài)信息識別與抽取、信息聚類與展示、文本自動生成技術、人機交互等多類人工智能算法。
金融科技在信用研究中應用的難點
未來將金融科技深入應用到信用研究領域,需要克服三個主要困難,相應建議如下。
(一)專業(yè)壁壘較高,建議加快人才培育
要實現(xiàn)信用研究的智能化,離不開科技人才對算法的編譯和運用;先進算法應用在信用研究領域時,也需要資深金融從業(yè)人員的先驗知識與專業(yè)能力作為機器學習等各算法的基礎。目前,高等教育已經開始有意識地培養(yǎng)金融與科技復合型人才,但由于金融與計算機學科專業(yè)壁壘均較高,市場上仍以金融專才與科技專才為主。
建議研究員對金融科技加強自主學習,金融機構加快對金融科技團隊的組建,這是打破專業(yè)壁壘,以金融科技賦能信用研究領域的關鍵。
(二)非結構化數(shù)據的挖掘與處理難度高,建議加快新技術研究
算法擅長處理規(guī)整、可量化的結構化數(shù)據,但現(xiàn)實中存在海量文字、圖片、視頻等多種模態(tài)的數(shù)據,即非結構化數(shù)據,這類數(shù)據又是信用研究中定性分析的重要基礎。
建議使用文本識別、圖文信息對齊等技術,把非文本的數(shù)據提取處理整理成結構化或者半結構化數(shù)據。如何設計算法來抓取、處理信用研究所需的這類非結構化信息,并深入分析此類數(shù)據,將是推進金融科技在該領域應用的研究重點。
(三)全智能化對算法算力要求高,建議加強機構間合作
本文針對信用研究領域存在的難點給出了多類算法結合的金融科技解決方案,但目前來看,個人或單家機構的算力十分有限,且難以對多類復雜算法進行編寫和調用。
建議金融機構、金融科技企業(yè)間加強知識共享、資源共享,這樣有助于建立一個算力、算法強大的智能信用研究平臺。
參考文獻
[1]張浩,張驊,邢雯,喻泉.固定收益投資領域的科技應用[J].債券,2021(1):32-36.
[2]李嘉寶.基于智能投研提高券商投研能力的探討[A].中國證券業(yè)協(xié)會.創(chuàng)新與發(fā)展:中國證券業(yè)2018年論文集(下冊)[C].中國證券業(yè)協(xié)會,2019(7).