袁 俊,劉國柱,梁宏濤,羅清彩
1.青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島 266061
2.山東浪潮科學(xué)研究院有限公司,濟(jì)南 250101
近年來,新冠肺炎疫情的突發(fā)在引發(fā)全球范圍內(nèi)不確定風(fēng)險(xiǎn)加劇的同時(shí),不僅造成金融市場(chǎng)的恐慌和極端波動(dòng)[1],也深深影響商業(yè)銀行的經(jīng)營和發(fā)展。國內(nèi)外經(jīng)濟(jì)形勢(shì)動(dòng)蕩不止,金融市場(chǎng)反應(yīng)劇烈,銀行業(yè)在風(fēng)險(xiǎn)管理過程中的難度也不斷加大。在此背景下,傳統(tǒng)風(fēng)控模式下的潛在風(fēng)險(xiǎn)將加速暴露。
傳統(tǒng)風(fēng)控模式存在的局限性如下:
(1)缺乏對(duì)數(shù)據(jù)有效的整合和利用。金融領(lǐng)域?qū)崿F(xiàn)信息化后,歷時(shí)數(shù)十年已經(jīng)積累了龐大的數(shù)據(jù),但在商業(yè)銀行內(nèi)部,客戶信息、賬戶信息、交易信息等數(shù)據(jù)通常散落在各個(gè)獨(dú)立的業(yè)務(wù)系統(tǒng)之中,利用效率和分析能力不足。行內(nèi)往往存在著一個(gè)個(gè)“煙囪式”信息孤島,缺乏有效的信息整合,許多有價(jià)值的非結(jié)構(gòu)化數(shù)據(jù)被埋沒在高熵?zé)o序的信息汪洋之中。
(2)缺乏高效識(shí)別和監(jiān)控風(fēng)險(xiǎn)的手段。對(duì)于授信客戶的風(fēng)險(xiǎn)管理,無法在風(fēng)險(xiǎn)預(yù)警、監(jiān)控等管理層面提供高效科技手段,對(duì)實(shí)際觸發(fā)數(shù)據(jù)的篩查和前期風(fēng)險(xiǎn)特征識(shí)別預(yù)警的手段不多。對(duì)于客戶洞察,通常以單個(gè)客戶為分析對(duì)象,根據(jù)客戶的行為與特征分析其風(fēng)險(xiǎn)狀況,對(duì)客戶關(guān)系網(wǎng)絡(luò)的探索較少。
(3)缺乏與時(shí)俱進(jìn)的風(fēng)險(xiǎn)管控模式。近年來商業(yè)銀行接連推陳出新,新的業(yè)務(wù)和產(chǎn)品層出不窮,業(yè)務(wù)模式由柜臺(tái)服務(wù)向手機(jī)APP、微銀行、網(wǎng)絡(luò)銀行、自助終端、智能柜臺(tái)等線上渠道及平臺(tái)全面延伸。而欺詐行為也變得隱蔽和多樣化,只依靠過去傳統(tǒng)的規(guī)章制度、手工臺(tái)帳報(bào)表、人工審批和事后檢查等方式來發(fā)現(xiàn)潛在風(fēng)險(xiǎn)、解決違規(guī)已顯得力不從心,原有的風(fēng)險(xiǎn)管控模式亟需隨著業(yè)務(wù)改變而調(diào)整。
隨著不斷地經(jīng)營發(fā)展,授信企業(yè)跨業(yè)經(jīng)營、股權(quán)并購、融資結(jié)構(gòu)日益復(fù)雜化、隱蔽化,這對(duì)商業(yè)銀行信用監(jiān)測(cè)、風(fēng)險(xiǎn)評(píng)估等工作帶來了巨大的挑戰(zhàn)。在金融數(shù)字化議程加速的背景下,為解決傳統(tǒng)風(fēng)控模式的弊端,商業(yè)銀行亟需推進(jìn)風(fēng)險(xiǎn)管理工作中的科技創(chuàng)新,加快數(shù)字化轉(zhuǎn)型建設(shè)步伐。在風(fēng)控領(lǐng)域中,風(fēng)險(xiǎn)往往不會(huì)孤立發(fā)生。對(duì)于自然人客戶,盜卡盜刷、非法套現(xiàn)等欺詐行為常常是團(tuán)伙作案。對(duì)于企業(yè)客戶,隨著資金鏈、供應(yīng)鏈、擔(dān)保鏈以及集團(tuán)化的不斷發(fā)展,容易發(fā)生火燒連營般的連鎖反應(yīng)。傳統(tǒng)的風(fēng)控體系難以應(yīng)對(duì)此類關(guān)聯(lián)性風(fēng)險(xiǎn),基于圖數(shù)據(jù)結(jié)構(gòu)構(gòu)建的知識(shí)圖譜(knowledge graph,KG)[2]是解決此類問題的有效途徑。知識(shí)圖譜技術(shù)可以關(guān)聯(lián)不同數(shù)據(jù)源系統(tǒng)的孤立數(shù)據(jù),提供客戶風(fēng)險(xiǎn)的統(tǒng)一視圖,打破信息壁壘,有效解決信息不對(duì)稱問題;能夠?qū)崿F(xiàn)針對(duì)客戶關(guān)系網(wǎng)絡(luò)的洞察,有效防控關(guān)聯(lián)性風(fēng)險(xiǎn),提升風(fēng)控效能;能夠?qū)崿F(xiàn)風(fēng)險(xiǎn)數(shù)據(jù)的自動(dòng)化采集、分析和預(yù)警,并深入挖掘金融實(shí)體之間的隱蔽關(guān)系。
為此,本文將對(duì)風(fēng)控領(lǐng)域知識(shí)圖譜的構(gòu)建方法進(jìn)行系統(tǒng)性綜述。
想要理解風(fēng)控領(lǐng)域知識(shí)圖譜的概念,首先要了解什么是知識(shí)圖譜。1989 年,Bemers-Lee[3]發(fā)明了基于網(wǎng)頁之間相互鏈接的萬維網(wǎng)(world wide web,WWW),并在之后提出了新的網(wǎng)絡(luò)系統(tǒng),在萬維網(wǎng)基礎(chǔ)上將其轉(zhuǎn)換為基于實(shí)體鏈接的語義網(wǎng)絡(luò)——語義網(wǎng)(semantic web,SW)。語義網(wǎng)能夠幫助計(jì)算機(jī)理解蘊(yùn)含在自然語言中的知識(shí)以及它們之間存在的關(guān)聯(lián)關(guān)系。在語義網(wǎng)的鋪墊下,Google 公司于2012 年首次提出了知識(shí)圖譜的概念,并將其用于理解搜索關(guān)鍵詞的語義信息,為搜索結(jié)果提供關(guān)鍵詞相關(guān)的人物、地點(diǎn)、事件等補(bǔ)充內(nèi)容。隨后知識(shí)圖譜逐漸在學(xué)術(shù)界與工業(yè)界得到深入研究,并在搜索服務(wù)、智能問答、情報(bào)分析等多個(gè)領(lǐng)域中大放異彩。但直到如今,知識(shí)圖譜的概念一直未有統(tǒng)一的定義,現(xiàn)借鑒文獻(xiàn)[4]對(duì)知識(shí)圖譜做出定義:“知識(shí)圖譜是一種采集信息并將信息集成到本體中、應(yīng)用推理機(jī)以獲取新知識(shí)的的系統(tǒng)?!本唧w來說,知識(shí)圖譜是將物理世界的事物建模成相互關(guān)聯(lián)的知識(shí)網(wǎng)絡(luò),它將實(shí)體抽象為一個(gè)個(gè)具備屬性的節(jié)點(diǎn),而將兩實(shí)體間的語義關(guān)系抽象為連接這一對(duì)節(jié)點(diǎn)的邊,并以三元組的形式存儲(chǔ)這些實(shí)體、關(guān)系以及屬性。例如三元組“擔(dān)保(客戶A,客戶B)”描述了兩客戶間的擔(dān)保關(guān)系,三元組“行業(yè)類型(客戶,金融業(yè))”描述了客戶的行業(yè)類型屬性。
從知識(shí)的適用范圍出發(fā),可將知識(shí)劃分為常識(shí)知識(shí)和領(lǐng)域知識(shí)。相應(yīng)的,知識(shí)圖譜也可分為通用知識(shí)圖譜與垂直領(lǐng)域知識(shí)圖譜。通用知識(shí)圖譜覆蓋多領(lǐng)域、多場(chǎng)景,具備相當(dāng)大的知識(shí)廣度,如DBpedia[5]、Yago[6]、Wikidata[7]、Knowledge Vault[8]等。與之相比,垂直領(lǐng)域知識(shí)圖譜對(duì)知識(shí)的深度與粒度要求更為嚴(yán)格,其結(jié)構(gòu)更為復(fù)雜,知識(shí)的應(yīng)用形式也并不限于搜索、問答、推薦,可提供更為廣泛的知識(shí)服務(wù)。由于面向的業(yè)務(wù)場(chǎng)景不同,二者側(cè)重也不同,其構(gòu)建流程及關(guān)鍵技術(shù)存在一定的差異。在表1中,對(duì)通用知識(shí)圖譜與垂直領(lǐng)域知識(shí)圖譜在知識(shí)圖譜的構(gòu)建技術(shù)方面作了比較與分析。目前在金融行業(yè)中,已有商業(yè)銀行將知識(shí)圖譜技術(shù)應(yīng)用在金融問答、智能風(fēng)控、精準(zhǔn)營銷、智能決策等領(lǐng)域中。面向商業(yè)銀行的風(fēng)控領(lǐng)域知識(shí)圖譜指的是將知識(shí)的覆蓋范圍和應(yīng)用目標(biāo)聚焦于風(fēng)控領(lǐng)域,圖譜中管理著客戶信息、業(yè)務(wù)信息、風(fēng)險(xiǎn)信息等多方面的知識(shí),能夠結(jié)合規(guī)則指標(biāo)或算法模型自動(dòng)執(zhí)行對(duì)風(fēng)險(xiǎn)的識(shí)別和預(yù)警。
表1 通用知識(shí)圖譜與垂直領(lǐng)域知識(shí)圖譜構(gòu)建技術(shù)的比較Table 1 Comparison of construction technology of general knowledge graph and vertical domain knowledge graph
風(fēng)控領(lǐng)域知識(shí)圖譜的架構(gòu)主要包括其邏輯結(jié)構(gòu)與體系架構(gòu)。
(1)邏輯架構(gòu)。從邏輯上看,風(fēng)控領(lǐng)域知識(shí)圖譜可以分為描述抽象概念的模式層與描述具體事實(shí)的實(shí)例層。模式層中的知識(shí)是經(jīng)過整合和概括的,冗余較少,一般用構(gòu)建本體庫的方式對(duì)這一層次的知識(shí)進(jìn)行管理,并對(duì)領(lǐng)域術(shù)語及它們之間的關(guān)系進(jìn)行形式化表達(dá)。本體的概念源于哲學(xué)領(lǐng)域,早在上世紀(jì)80 年代就被引入人工智能領(lǐng)域中,用于在語義層次上對(duì)知識(shí)進(jìn)行分類和描述。而實(shí)例層中的知識(shí)可以看作是有具體指向?qū)ο蟮谋倔w實(shí)例。
(2)體系架構(gòu)。知識(shí)圖譜的體系架構(gòu)指其使用何種構(gòu)建模式,主要有兩種方式:自底向上和自頂向下。前者是指直接從底層數(shù)據(jù)中獲取資源,將置信度高的實(shí)體、關(guān)系及其屬性歸納到知識(shí)庫中,再根據(jù)知識(shí)庫中的知識(shí)逐步向上抽象形成概念,以構(gòu)建頂層的本體模式。后者指的是首先為知識(shí)圖譜構(gòu)建出本體和數(shù)據(jù)模式,再將抽取的對(duì)象整合到頂層概念中。一般來說,通用知識(shí)圖譜中的知識(shí)面向通用領(lǐng)域,本體的復(fù)雜度不高但數(shù)目龐大,可以通過自底向上的方式、以數(shù)據(jù)為驅(qū)動(dòng)實(shí)現(xiàn)自動(dòng)化創(chuàng)建本體庫,節(jié)省人力和時(shí)間。垂直領(lǐng)域知識(shí)圖譜中涉及的術(shù)語和概念在廣度上相對(duì)有限,其復(fù)雜性表現(xiàn)在知識(shí)的深度上,所以可以由業(yè)務(wù)專家枚舉該領(lǐng)域中的重要業(yè)務(wù)術(shù)語,借助本體編輯軟件手動(dòng)創(chuàng)建本體,能夠有效保證本體庫的質(zhì)量。在風(fēng)控領(lǐng)域,基于特定的業(yè)務(wù)關(guān)注點(diǎn),可以考慮將客戶的電話號(hào)碼、地址等這樣的一些屬性信息設(shè)計(jì)為獨(dú)立實(shí)體節(jié)點(diǎn)。本體建模不僅需要正確而完整地描述已有的業(yè)務(wù),還需要對(duì)將來的業(yè)務(wù)場(chǎng)景有一定的預(yù)估,才能設(shè)計(jì)出高適用性和高穩(wěn)定性的本體框架。
綜上所述,為保證知識(shí)質(zhì)量和準(zhǔn)確度的要求,面向商業(yè)銀行風(fēng)控領(lǐng)域的知識(shí)圖譜可以采取自頂向下與自底向上相結(jié)合的構(gòu)建方式刻畫客戶、賬戶、合同、押品、機(jī)構(gòu)等實(shí)體及其屬性、關(guān)聯(lián)關(guān)系。如圖1所示,其構(gòu)建流程可歸納為知識(shí)抽取、知識(shí)融合以及知識(shí)推理等步驟。
知識(shí)圖譜是一個(gè)橫跨多領(lǐng)域、多專業(yè)的龐雜學(xué)科,想要構(gòu)建一個(gè)大規(guī)模的風(fēng)控領(lǐng)域知識(shí)圖譜,需要綜合自然語言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等各類技術(shù)[9]。在知識(shí)抽取階段,可從商業(yè)銀行積累的海量數(shù)據(jù)中提取出實(shí)體、關(guān)系以及屬性等信息。在知識(shí)融合階段,可以對(duì)描述同一實(shí)體或概念的多源異構(gòu)知識(shí)進(jìn)行融合,消除歧義和冗余,有效提升知識(shí)質(zhì)量。知識(shí)推理階段則是在現(xiàn)有的知識(shí)圖譜基礎(chǔ)上,進(jìn)一步挖掘其中隱式的、包含的知識(shí),對(duì)知識(shí)圖譜進(jìn)行補(bǔ)充。
在知識(shí)圖譜的自動(dòng)化構(gòu)建流程中,知識(shí)抽取是一項(xiàng)重要環(huán)節(jié)。知識(shí)蘊(yùn)藏于數(shù)據(jù)之中,知識(shí)抽取技術(shù)的關(guān)鍵在于如何從異構(gòu)數(shù)據(jù)源中自動(dòng)提取出高價(jià)值信息,并將它們存入知識(shí)庫中。風(fēng)控領(lǐng)域知識(shí)圖譜中的知識(shí)主要來自于商業(yè)銀行的內(nèi)部數(shù)據(jù),一般以結(jié)構(gòu)化的形式存放在關(guān)系型數(shù)據(jù)庫中。2012年,著名的標(biāo)準(zhǔn)化組織W3C發(fā)布了兩種RDB2RDF映射語言:直接映射(direct mapping,DM)[10]與R2RML[11],可以實(shí)現(xiàn)將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為OWL本體或RDF數(shù)據(jù)。商業(yè)銀行外部數(shù)據(jù)包括中國人民銀行征信報(bào)告、銀監(jiān)會(huì)披露的風(fēng)險(xiǎn)預(yù)警數(shù)據(jù)、國家工商總局公示的企業(yè)信用信息、區(qū)域范圍內(nèi)的各級(jí)法院公告的裁判文書及執(zhí)行信息、各級(jí)稅務(wù)機(jī)關(guān)披露的企業(yè)欠稅及行政處罰、網(wǎng)絡(luò)百科及財(cái)經(jīng)新聞等數(shù)據(jù),這些也是風(fēng)控領(lǐng)域知識(shí)圖譜的重要數(shù)據(jù)來源。其中如工商信息、裁判文書、網(wǎng)絡(luò)新聞等主要以半結(jié)構(gòu)化或非結(jié)構(gòu)化的形式存在。對(duì)于來源不同、結(jié)構(gòu)不同的數(shù)據(jù),抽取過程中所使用的關(guān)鍵技術(shù)及其難點(diǎn)也迥乎不同。對(duì)于網(wǎng)頁中的半結(jié)構(gòu)化數(shù)據(jù),通常使用已制定抽取規(guī)則的包裝器對(duì)網(wǎng)站進(jìn)行解析。對(duì)于以文本為代表的非結(jié)構(gòu)化數(shù)據(jù),抽取難度較高,需要借助自然語言處理技術(shù),根據(jù)抽取對(duì)象的不同可以細(xì)分為實(shí)體抽取、關(guān)系抽取、屬性抽取等子任務(wù)。
2.1.1 實(shí)體抽取
實(shí)體抽取,即命名實(shí)體識(shí)別(named entity recognition,NER)[12],旨在從目標(biāo)文本中界定如賬號(hào)、組織機(jī)構(gòu)名、人名、貨幣、金額等命名實(shí)體,是風(fēng)控領(lǐng)域知識(shí)抽取過程的關(guān)鍵部分,如圖2通過舉例對(duì)NER任務(wù)進(jìn)行了描述。銀行賬號(hào)通常是一連串的數(shù)字,也可能夾雜字母,需要結(jié)合銀行制定的賬號(hào)生成規(guī)則進(jìn)行識(shí)別和抽取。組織機(jī)構(gòu)稱呼通常多種多樣,如“阿里巴巴集團(tuán)控股有限公司”別名有“阿里”“阿里巴巴”“阿里集團(tuán)”等。貨幣類型也有多種形式,如“人民幣”也可以用“¥”“RMB”“CNY”“Chinese yuan”等符號(hào)或文本表示。金額可以是數(shù)字,也可能是大寫的漢字,如“1 680.50”“壹仟陸佰捌拾元伍角”等。在風(fēng)控領(lǐng)域,命名實(shí)體形式多樣、專業(yè)術(shù)語復(fù)雜等因素給NER帶來了巨大的挑戰(zhàn)。
圖2 實(shí)體抽取示例Fig.2 Example of entity extraction
經(jīng)過長(zhǎng)時(shí)間的探索和研究,目前工業(yè)界針對(duì)實(shí)體抽取問題已積累了大量的經(jīng)驗(yàn)和方法,表2介紹了幾種具有代表性的NER方法。這些方法大致可分為基于規(guī)則的方法、基于統(tǒng)計(jì)模型的方法和基于深度學(xué)習(xí)的方法。研究初期主要是人工構(gòu)建規(guī)則的方法[13-15],將業(yè)務(wù)專家手工編寫的規(guī)則與目標(biāo)文本進(jìn)行字符串層面的簡(jiǎn)單匹配,從而識(shí)別出命名實(shí)體。但這類方法依賴于規(guī)則的準(zhǔn)確度和詞典的覆蓋面,無法識(shí)別規(guī)則覆蓋范圍外的新實(shí)體,而且在大規(guī)模文本數(shù)據(jù)集上的效果不盡如人意。隨著機(jī)器學(xué)習(xí)算法不斷深入發(fā)展,學(xué)術(shù)界逐漸將其應(yīng)用于解決實(shí)體抽取問題并取得了不錯(cuò)的效果,如隱馬爾科夫模型(hidden Markov model,HMM)[16]、最大熵模型(maximum entropy,ME)[17]、條件隨機(jī)場(chǎng)(conditional random field,CRF)[18]等。這類基于統(tǒng)計(jì)模型的方法實(shí)際是將實(shí)體抽取作為序列標(biāo)注問題處理,通過語料標(biāo)注、特征定義、訓(xùn)練模型等步驟識(shí)別出文本中的實(shí)體。2015 年,為提升商業(yè)銀行風(fēng)控工作效率,Alvarado 等[19]提出了一種基于大量域外數(shù)據(jù)和少量域內(nèi)數(shù)據(jù)相結(jié)合的NER 方法,使用CRF 模型從貸款協(xié)議文件中提取信用風(fēng)險(xiǎn)信息,對(duì)借款人名稱、貸款人名稱、金額、日期、地點(diǎn)等實(shí)體進(jìn)行抽取,F(xiàn)1 值達(dá)到0.798。但對(duì)于機(jī)器學(xué)習(xí)模型,人工預(yù)先定義的特征在很大程度上決定了實(shí)體抽取的準(zhǔn)確率,而深度學(xué)習(xí)方法則可以突破此限制,近年來學(xué)者們提出了多種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在NER 任務(wù)的應(yīng)用中獲得了較好效果。2020年,為了監(jiān)控系統(tǒng)性金融風(fēng)險(xiǎn),Cheng 等[20]基于知識(shí)圖譜框架對(duì)外匯市場(chǎng)參與者進(jìn)行實(shí)時(shí)監(jiān)控,通過BiLSTM-CRF提取新聞文本中的金融實(shí)體,在銀行間市場(chǎng)參與者相關(guān)新聞的數(shù)據(jù)集上,準(zhǔn)確率和Recall 值分別為93.33%、97.68%。2021 年,為防范合規(guī)風(fēng)險(xiǎn),Wang 等[21]提出將BERT 與BiLSTM-CRF 結(jié)合,通過BERT預(yù)訓(xùn)練詞向量并作為BiLSTM-CRF模型的輸入,以銀行間外匯市場(chǎng)中的海量聊天記錄作為數(shù)據(jù)集,對(duì)債券簡(jiǎn)稱、債券類型、發(fā)行人等債券信息實(shí)體的識(shí)別結(jié)果在微平均和宏平均指標(biāo)上比基于規(guī)則的方法高出1%~2%。隨著互聯(lián)網(wǎng)的發(fā)展,負(fù)面輿情能夠在極大程度上影響企業(yè)的經(jīng)營,近年來客戶輿情風(fēng)險(xiǎn)成為商業(yè)銀行風(fēng)控落腳點(diǎn)之一,但輿論文本中往往存在多個(gè)實(shí)體而只有少數(shù)的關(guān)鍵實(shí)體。針對(duì)傳統(tǒng)NER方法無法檢測(cè)關(guān)鍵實(shí)體的問題,Zheng 等[22]提出了一個(gè)端到端的分層多任務(wù)學(xué)習(xí)框架HMFF,可增強(qiáng)關(guān)鍵實(shí)體識(shí)別的特征學(xué)習(xí),在2019 CCF BDCI“金融信息負(fù)面及主體判定”數(shù)據(jù)集上,關(guān)鍵實(shí)體識(shí)別任務(wù)的F1值達(dá)到0.950。對(duì)于同一任務(wù)、同一數(shù)據(jù)集,Zhao等[23]采取了不同的方法,通過基于RoBERTa的輿情分析以及關(guān)鍵金融實(shí)體檢測(cè)的方法,在抽取所有實(shí)體后通過句子匹配任務(wù)進(jìn)一步確認(rèn)關(guān)鍵實(shí)體,模型的F1值達(dá)到了0.952,略優(yōu)于Zheng等人[22]的方法。除輿情風(fēng)險(xiǎn)外,企業(yè)的司法風(fēng)險(xiǎn)也是商業(yè)銀行風(fēng)控工作的重要關(guān)注點(diǎn),文獻(xiàn)[24]針對(duì)司法案件文本中存在的難點(diǎn),將詞語以及詞性關(guān)系的拼接向量輸入到雙向LSTM神經(jīng)網(wǎng)絡(luò)中提取特征,通過2個(gè)多層感知器再編碼得到詞向量與詞性關(guān)系向量,將所有詞向量拼接,并將所有詞性關(guān)系向量與1個(gè)單位向量進(jìn)行拼接,隨后利用中間矩陣對(duì)拼接向量進(jìn)行仿射變化,得到分?jǐn)?shù)矩陣對(duì)實(shí)體頭尾、類別進(jìn)行判斷,有效解決嵌套實(shí)體問題與原被告角色反轉(zhuǎn)問題。
表2 知識(shí)抽取方法的比較Table 2 Comparison of knowledge extraction methods
NER 一直以來都是工業(yè)界和學(xué)術(shù)界研究的熱點(diǎn)問題,根據(jù)實(shí)體抽取的定義可以將其分解為實(shí)體邊界識(shí)別和實(shí)體類型識(shí)別兩個(gè)步驟[25],提高實(shí)體邊界檢測(cè)的效果能夠直接有效地提高NER的準(zhǔn)確率與召回率。
2.1.2 關(guān)系抽取
關(guān)系抽?。╮elation extraction,RE)的目的是為了獲取多個(gè)目標(biāo)實(shí)體之間的關(guān)聯(lián)關(guān)系,例如從“百度集團(tuán)董事長(zhǎng)李彥宏的夫人是馬東敏女士”這句話中,可以抽取出兩個(gè)實(shí)體關(guān)系三元組“董事長(zhǎng)(百度集團(tuán),李彥宏)”、“夫妻(李彥宏,馬東敏)”。目前存在著眾多RE方法,大體上可以分為基于模板的方法、基于監(jiān)督學(xué)習(xí)的方法以及基于弱監(jiān)督學(xué)習(xí)的方法。
初期的RE 任務(wù)大多借助于模板匹配的方法。Wu等[26]采用基于規(guī)則和模板的方法,在2003—2016年中國上市公司財(cái)經(jīng)新聞中提取出訴訟、質(zhì)押、債務(wù)等6 種實(shí)體關(guān)系,以構(gòu)建用于金融領(lǐng)域RE任務(wù)的大規(guī)模語料庫,并提出了基于詞性標(biāo)注與BIES 標(biāo)注的混合方法,經(jīng)人工驗(yàn)證在測(cè)試集上RE 任務(wù)平均準(zhǔn)確率為88.88%。與基于規(guī)則的NER方法的優(yōu)缺點(diǎn)類似,基于模板的RE方法雖然構(gòu)建起來簡(jiǎn)單,在小規(guī)模數(shù)據(jù)集上效果不錯(cuò),但是覆蓋范圍有限,可移植性差。與之不同,基于監(jiān)督學(xué)習(xí)的方法實(shí)際上將RE任務(wù)轉(zhuǎn)換為分類問題。Yamamoto等[27]利用馬爾科夫邏輯網(wǎng)絡(luò)從4 661篇網(wǎng)絡(luò)新聞數(shù)據(jù)集中提取企業(yè)關(guān)系,在每種關(guān)系的100 個(gè)樣本上,對(duì)于合作類關(guān)系與競(jìng)爭(zhēng)類關(guān)系的準(zhǔn)確率分別達(dá)到67%、81%。機(jī)器學(xué)習(xí)模型雖能取得不錯(cuò)的抽取效果,但嚴(yán)重依賴特征工程,于是無需人工構(gòu)建特征的深度學(xué)習(xí)方法受到青睞。在風(fēng)控領(lǐng)域,企業(yè)客戶群體之間關(guān)系不明確會(huì)導(dǎo)致商業(yè)銀行信用風(fēng)險(xiǎn)加大,具體如給予多頭授信以及過度授信等。為有效提升集團(tuán)客戶識(shí)別、貸款集中預(yù)警等風(fēng)控工作的效率及準(zhǔn)確性,2019年,Yan等[28]提出一種基于ERE-GRU 模型的企業(yè)關(guān)系自動(dòng)抽取方法,使用雙向門控循環(huán)單元BiGRU 搭建神經(jīng)網(wǎng)絡(luò),通過提取詞匯特征和句法特征挖掘企業(yè)實(shí)體之間的關(guān)系,在手工標(biāo)注的金融領(lǐng)域新聞數(shù)據(jù)集上F1 值可達(dá)到0.71,但較多的特征增加了向量維數(shù)。在文獻(xiàn)[28]的基礎(chǔ)之上,Yang等[29]提出了一種SDP-BGRU 模型,采用實(shí)體間最短依賴路徑(shortest dependency path,SDP)以及句子級(jí)注意力機(jī)制消除冗余和噪聲數(shù)據(jù),利用雙向門控循環(huán)單元BGRU獲取特征向量,并通過SVM 分類器將企業(yè)關(guān)系抽取問題轉(zhuǎn)化為分類問題,在手工標(biāo)注的財(cái)經(jīng)新聞數(shù)據(jù)集上的F1值為0.919,可有效識(shí)別企業(yè)客戶關(guān)系,增強(qiáng)風(fēng)險(xiǎn)應(yīng)對(duì)策略。在銀行風(fēng)控中,企業(yè)關(guān)系和自然人關(guān)系訓(xùn)練語料來源大不相同且不均衡分布,一起訓(xùn)練會(huì)產(chǎn)生較大噪聲,針對(duì)此問題,李夢(mèng)霄等[30]提出分開訓(xùn)練企業(yè)關(guān)系和自然人關(guān)系抽取模型,隨后利用分開訓(xùn)練的BERT模型對(duì)新聞文本中的實(shí)體與關(guān)系進(jìn)行管道式抽取,并與銀行內(nèi)部圖譜進(jìn)行融合以支持風(fēng)控決策。由于關(guān)系抽取的效果依賴于實(shí)體識(shí)別的準(zhǔn)確率,學(xué)者們發(fā)現(xiàn)實(shí)體關(guān)系聯(lián)合學(xué)習(xí)能夠比單任務(wù)學(xué)習(xí)取得更優(yōu)的泛化結(jié)果。2022年,田鷗等[31]提出了一種風(fēng)險(xiǎn)傳導(dǎo)概率知識(shí)圖譜生成方法,采用BERT-LSTM-CRF模型抽取企業(yè)實(shí)體關(guān)系對(duì)三元組,并引入掩碼多頭注意力結(jié)構(gòu)提升BERT層提取上下文信息的能力,首先將企業(yè)信息輸入到BERT層進(jìn)行編碼得到對(duì)應(yīng)文本向量,再經(jīng)LSTM層得到各字詞對(duì)應(yīng)的類型分布概率,由CRF層生成實(shí)體關(guān)系對(duì),通過計(jì)算企業(yè)關(guān)系對(duì)的風(fēng)險(xiǎn)傳導(dǎo)概率,有效防控沿客戶關(guān)系鏈的風(fēng)險(xiǎn)傳播。針對(duì)金融領(lǐng)域中的復(fù)雜重疊關(guān)系,唐曉波等[32]在預(yù)訓(xùn)練語言模型BERT 的基礎(chǔ)上結(jié)合BiGRU 以及CRF,構(gòu)建端到端的實(shí)體關(guān)系聯(lián)合抽取模型,在采集的上市公司資訊信息數(shù)據(jù)上重疊關(guān)系抽取任務(wù)的F1值達(dá)0.543。2022 年,楊美芳等[33]提出基于知識(shí)圖譜與文本互注意力機(jī)制的實(shí)體關(guān)系聯(lián)合抽取模型,通過大規(guī)模的風(fēng)控領(lǐng)域語料與較少的高質(zhì)量實(shí)體關(guān)系進(jìn)行訓(xùn)練,經(jīng)風(fēng)控領(lǐng)域?qū)<以u(píng)估該模型在測(cè)試集上的整體誤判率為10.7%?;诒O(jiān)督學(xué)習(xí)的方法離不開訓(xùn)練語料,對(duì)深度學(xué)習(xí)模型的優(yōu)化尤其依賴大量訓(xùn)練數(shù)據(jù)。在這一點(diǎn)上,弱監(jiān)督學(xué)習(xí)方法具有突出表現(xiàn),只需要少量標(biāo)注數(shù)據(jù)就能進(jìn)行學(xué)習(xí),主要包括遠(yuǎn)程監(jiān)督以及Bootstraping 方法。為理清股票發(fā)行企業(yè)面臨的金融風(fēng)險(xiǎn),劉政昊等[34]在金融知識(shí)圖譜的構(gòu)建過程中,使用遠(yuǎn)程監(jiān)督方法抽取持股、投資、面臨風(fēng)險(xiǎn)、實(shí)際控制人等13類關(guān)系,通過利用種子知識(shí)圖譜獲取可用于訓(xùn)練的標(biāo)注數(shù)據(jù),可有效節(jié)省標(biāo)注成本,隨后使用PCNN+Attention模型進(jìn)行訓(xùn)練,平均F1 值為0.67。Zuo 等[35]使用弱監(jiān)督策略從金融新聞?wù)Z料庫中提取企業(yè)間復(fù)雜業(yè)務(wù)關(guān)系,通過少量的初始種子迭代抽取實(shí)體關(guān)系,在2007 年新聞文章隨機(jī)挑選的100個(gè)樣本上,recall值與F1值均優(yōu)于PCNN模型。
目前,RE 方法經(jīng)過長(zhǎng)時(shí)間的發(fā)展已經(jīng)取得了一定成果,但在風(fēng)控領(lǐng)域的實(shí)際應(yīng)用中仍存在著一些挑戰(zhàn)。相比較通用領(lǐng)域,風(fēng)控領(lǐng)域中的實(shí)體關(guān)系類型并不復(fù)雜,如圖3所示。一般不需要從知識(shí)圖譜中拓展新的關(guān)系類型,但風(fēng)控領(lǐng)域知識(shí)圖譜往往存在關(guān)聯(lián)關(guān)系十分隱蔽的情況,需要結(jié)合知識(shí)推理技術(shù)進(jìn)行深度挖掘。
圖3 實(shí)體關(guān)系類型Fig.3 Relation types of entities
2.1.3 屬性抽取
屬性抽取(attribute extraction,AE)的目的是為了從文本中抽取出“屬性(實(shí)體,屬性值)”形式的三元組,以助于對(duì)實(shí)體充分理解。風(fēng)控領(lǐng)域中,存在屬性值為日期、金額、企業(yè)名或人名等,如“阿里巴巴(中國)網(wǎng)絡(luò)技術(shù)有限公司”注冊(cè)日期屬性為“1999-09-09”,法定代表人屬性為人名“戴珊”,可使用NER 方法解決屬性抽取問題,將屬性看成實(shí)體與屬性值之間的關(guān)系。2021年,文獻(xiàn)[36]提出了一種基于金融知識(shí)圖譜的信貸風(fēng)險(xiǎn)識(shí)別方法,采集銀行客戶的信貸風(fēng)險(xiǎn)數(shù)據(jù),利用BERT 將文本中的詞語轉(zhuǎn)化為詞向量的形式,輸入到LSTM-CRF神經(jīng)網(wǎng)絡(luò)模型中,以獲取信貸風(fēng)險(xiǎn)實(shí)體及屬性信息。針對(duì)授信企業(yè)涉及的輿情風(fēng)險(xiǎn),文獻(xiàn)[37]提出了一種風(fēng)險(xiǎn)事件分級(jí)方法,通過BERT-BiLSTM-CRF模型對(duì)公司名稱、注冊(cè)資本、經(jīng)營范圍、注冊(cè)地址、金融產(chǎn)品等實(shí)體屬性進(jìn)行抽取,并通過Albert模型對(duì)損失金額、處罰金額、涉訴金額、死亡人數(shù)等事件屬性進(jìn)行抽取,隨后對(duì)風(fēng)險(xiǎn)事件等級(jí)進(jìn)行評(píng)定,以提升商業(yè)銀行在金融交易中的決策能力。文獻(xiàn)[38]采取BERT-BiLSTM-CRF模型對(duì)爬取的輿情信息進(jìn)行輿情主體及對(duì)應(yīng)屬性的提取,將AE 問題轉(zhuǎn)化為NER任務(wù),并利用輿情主體、屬性和預(yù)警模型確定輿情評(píng)分,通過知識(shí)圖譜實(shí)現(xiàn)輿情信息的預(yù)警級(jí)別判定與預(yù)警信息推送。文獻(xiàn)[39]提出了一種基于擴(kuò)充三元組的遠(yuǎn)程監(jiān)督方法對(duì)產(chǎn)品文本數(shù)據(jù)進(jìn)行標(biāo)注,將屬性抽取轉(zhuǎn)化成序列標(biāo)注問題,并通過實(shí)驗(yàn)證明了預(yù)訓(xùn)練語言模型對(duì)屬性抽取性能的有效幫助。
目前在面向商業(yè)銀行風(fēng)控領(lǐng)域的知識(shí)抽取實(shí)踐中,應(yīng)用較為普遍仍是基于規(guī)則和機(jī)器學(xué)習(xí)的方法。針對(duì)關(guān)系和屬性抽取的性能在很大程度上取決于實(shí)體抽取結(jié)果,為保證所獲知識(shí)的質(zhì)量和可用性,目前人工干預(yù)的情況較多,總體上自動(dòng)化程度還不高。隨著商業(yè)銀行數(shù)字化建設(shè)的不斷深入,風(fēng)控領(lǐng)域積累的數(shù)據(jù)體量呈現(xiàn)高速增長(zhǎng)態(tài)勢(shì),對(duì)知識(shí)抽取精度的要求也不斷提升。如何在保證知識(shí)質(zhì)量的情況下提升風(fēng)控領(lǐng)域自動(dòng)化知識(shí)抽取水平和效率,還需要繼續(xù)深入研究。
由于知識(shí)獲取的不確定性,通過知識(shí)抽取技術(shù)獲得的知識(shí)通常會(huì)存在重復(fù)、沖突、質(zhì)量參差不齊等情況,因此需要對(duì)知識(shí)進(jìn)行轉(zhuǎn)換、清洗、消歧等操作,提升知識(shí)質(zhì)量后,方可將其用于知識(shí)推理和知識(shí)應(yīng)用。知識(shí)融合技術(shù)根據(jù)融合對(duì)象的不同,可分為面向模式層的融合方法和面向?qū)嵗龑拥娜诤戏椒?。其中?shí)例層的異構(gòu)問題是風(fēng)控領(lǐng)域知識(shí)融合面臨的主要問題,包括實(shí)體鏈接、實(shí)體對(duì)齊、沖突消解等主要任務(wù)。實(shí)例層客戶實(shí)體的融合是風(fēng)控領(lǐng)域知識(shí)融合任務(wù)的主要目標(biāo)。由于知識(shí)規(guī)模巨大而質(zhì)量參差不齊,多源異構(gòu)實(shí)例數(shù)據(jù)的匹配面臨時(shí)間復(fù)雜度和空間復(fù)雜度的雙重挑戰(zhàn)。
2.2.1 實(shí)體鏈接
實(shí)體鏈接(entity linking,EL)旨在識(shí)別和提取文本中的新實(shí)體,將其與知識(shí)庫中的對(duì)應(yīng)實(shí)體鏈接起來,并加入現(xiàn)有的知識(shí)庫中,消除知識(shí)的不一致性。現(xiàn)有的相關(guān)工作可以總結(jié)為基于實(shí)體屬性、基于實(shí)體流行度、基于上下文或基于外部證據(jù)的實(shí)體鏈接方法。機(jī)器學(xué)習(xí)模型在實(shí)體鏈接任務(wù)中有著廣泛應(yīng)用,2019 年,Miao等[40]在構(gòu)建金融領(lǐng)域動(dòng)態(tài)知識(shí)圖譜的過程中,利用SVM模型基于相似性特征與先驗(yàn)知識(shí)進(jìn)行金融實(shí)體鏈接,在測(cè)試集上的精度可達(dá)0.78。Song 等[41]在企業(yè)知識(shí)圖譜的構(gòu)建過程中,使用代理學(xué)習(xí)技術(shù)訓(xùn)練SVM 模型并計(jì)算給定實(shí)體與每個(gè)候選實(shí)體間的相似性分?jǐn)?shù),在高于預(yù)定義的閾值時(shí)將給定實(shí)體鏈接到具有最高相似性得分的候選實(shí)體,在企業(yè)實(shí)體和自然人實(shí)體數(shù)據(jù)集上的F1值分別為0.90、0.81。Wang等[42]在股票市場(chǎng)知識(shí)圖譜的知識(shí)融合環(huán)節(jié)中,利用VSM模型進(jìn)行實(shí)體鏈接,生成一組候選實(shí)體后通過計(jì)算實(shí)體間的相似度來確定是否需要消歧。近年來,深度學(xué)習(xí)作為研究熱點(diǎn),也被廣泛應(yīng)用于實(shí)體鏈接任務(wù)。2021年,Ding等[43]提出了一種基于端到端神經(jīng)網(wǎng)絡(luò)模型JEL的方法,該模型利用少量的上下文信息和Margin 損失來生成實(shí)體的向量表示,并通過聯(lián)合訓(xùn)練Wide線性模型和深度神經(jīng)網(wǎng)絡(luò)模型分別匹配字符和語義信息,在摩根大通內(nèi)部數(shù)據(jù)以及金融新聞數(shù)據(jù)集上的實(shí)體鏈接任務(wù)中取得不錯(cuò)表現(xiàn)。
2.2.2 實(shí)體對(duì)齊
實(shí)體對(duì)齊(entity alignment,EA)也稱為實(shí)體解析、實(shí)體匹配,指判斷相同或不同來源的兩個(gè)實(shí)體是否描述的是物理世界中的同一對(duì)象,以消除知識(shí)的異構(gòu)性。目前EA 任務(wù)中的方法可分為成對(duì)實(shí)體對(duì)齊方法,以及集體實(shí)體對(duì)齊方法。
成對(duì)實(shí)體對(duì)齊方法是基于實(shí)體及其屬性的相似度進(jìn)行對(duì)齊。2019年,對(duì)于同一客戶在多家商業(yè)銀行同時(shí)擁有賬戶的情況,Suzumura等[44]在對(duì)金融犯罪檢測(cè)任務(wù)的研究中,使用基于簡(jiǎn)單規(guī)則的EA方法,針對(duì)關(guān)系圖譜中的自然人客戶通過“全名+出生日期+國籍”或“身份證件類型+身份證件號(hào)碼+國籍”的屬性組合進(jìn)行對(duì)齊,針對(duì)企業(yè)客戶通過“公司全稱+注冊(cè)日期+注冊(cè)地”或“注冊(cè)類型+注冊(cè)號(hào)+注冊(cè)地”的屬性組合進(jìn)行對(duì)齊,以識(shí)別不同數(shù)據(jù)來源中的同一客戶實(shí)體。 此類方法簡(jiǎn)單而高效,但在實(shí)踐中,由于客戶信息錄入時(shí)打字錯(cuò)誤、文檔質(zhì)量不高、OCR過程出錯(cuò)等問題,給基于規(guī)則匹配的實(shí)體對(duì)齊帶來了許多挑戰(zhàn)。而基于概率的方法具備一定的容錯(cuò)性,早期有Fellegi-Sunter模型[45]為參與相似度計(jì)算的每個(gè)屬性評(píng)價(jià)其重要程度,對(duì)它們分配不同權(quán)重以提高相似度計(jì)算的可靠性,通過組合這些屬性就可以得到兩個(gè)實(shí)體之間的相似度概率。例如,企業(yè)客戶的實(shí)體對(duì)齊中,注冊(cè)地址、法人代表、注冊(cè)日期等屬性對(duì)于兩實(shí)體間相似度概率的影響要顯著大于經(jīng)營范圍、企業(yè)性質(zhì)、企業(yè)規(guī)模等屬性。集體實(shí)體對(duì)齊方法是在成對(duì)實(shí)體對(duì)齊方法的基礎(chǔ)上,將實(shí)體間相互關(guān)系也納入相似度計(jì)算中。2019 年,Trisedya 等[46]提出了一種融合實(shí)體結(jié)構(gòu)向量和屬性字符向量的實(shí)體對(duì)齊模型,利用TransE生成實(shí)體結(jié)構(gòu)向量并隱式地學(xué)習(xí)了關(guān)系傳遞信息,通過屬性三元組生成屬性的字符向量,從而計(jì)算實(shí)體之間的相似度,在真實(shí)知識(shí)圖譜的實(shí)驗(yàn)中比基線模型的性能提高了50%以上。2020 年,Yang 等[47]針對(duì)之前EA 任務(wù)中對(duì)屬性信息的利用中所存在的不足,提出了一種融合實(shí)體結(jié)構(gòu)和屬性信息的協(xié)同訓(xùn)練模型COTSAE,模型的屬性嵌入組件基于偽孿生神經(jīng)網(wǎng)絡(luò)對(duì)字符級(jí)屬性信息進(jìn)行編碼,并提出了聯(lián)合注意方法以確保屬性的類型及屬性值能夠共享注意力權(quán)重,該模型在實(shí)驗(yàn)中優(yōu)于所有基線模型。
商業(yè)銀行中一般存在著多個(gè)業(yè)務(wù)系統(tǒng),如核心銀行系統(tǒng)、信貸管理系統(tǒng)、客戶交易信息服務(wù)系統(tǒng)等,大型國有商業(yè)銀行具有多至上百個(gè)系統(tǒng)。在這些系統(tǒng)中,對(duì)于同一客戶的相關(guān)數(shù)據(jù)可能存在著一定差異,如表結(jié)構(gòu)不同、字段值不一致、數(shù)據(jù)粒度不一致等。除了實(shí)體鏈接、實(shí)體對(duì)齊外,知識(shí)融合還需要解決不同來源的實(shí)例數(shù)據(jù)間的沖突。例如,來自不同數(shù)據(jù)源的同一企業(yè)的規(guī)模描述不同,可能這兩部分信息都是正確的,只是兩個(gè)數(shù)據(jù)源存在時(shí)間差,期間企業(yè)規(guī)模發(fā)生了變化,對(duì)于這種情況保留最新的信息即可。也有可能是因?yàn)橹R(shí)抽取的過程中產(chǎn)生了錯(cuò)誤,針對(duì)此類情況可采取基于投票或是基于質(zhì)量評(píng)估的方法進(jìn)行沖突消解,基于投票的方法是對(duì)不同知識(shí)出現(xiàn)的頻率進(jìn)行投票和統(tǒng)計(jì),出現(xiàn)次數(shù)較多的知識(shí)可視為可信度較高?;谫|(zhì)量評(píng)估的方法是通過考量數(shù)據(jù)來源、數(shù)據(jù)日期等因素對(duì)知識(shí)的置信度進(jìn)行量化計(jì)算,保留置信度較高的知識(shí)。
知識(shí)推理旨在從現(xiàn)有知識(shí)的基礎(chǔ)上深入挖掘出新的知識(shí),從而對(duì)知識(shí)圖譜進(jìn)行完善和拓展,有效應(yīng)用知識(shí)推理技術(shù)可以輔助決策。在風(fēng)控領(lǐng)域知識(shí)圖譜中,推理主要用于知識(shí)圖譜補(bǔ)全(knowledge graph completion,KGC)、三元組分類(triple classification,TC)等任務(wù),其中知識(shí)圖譜補(bǔ)全是對(duì)三元組中缺失或隱含的實(shí)體、關(guān)系進(jìn)行補(bǔ)全,即鏈接預(yù)測(cè)任務(wù)。而三元組分類則是確定三元組所描述的事實(shí)是否正確,進(jìn)行二分類。知識(shí)推理方法大致上可以歸納為以下幾類:基于規(guī)則的推理方法、基于圖結(jié)構(gòu)的推理方法、基于表示學(xué)習(xí)的推理方法、基于強(qiáng)化學(xué)習(xí)的推理方法以及基于時(shí)序性的推理方法。
2.3.1 基于規(guī)則的推理方法
基于規(guī)則的方法在早期的知識(shí)推理任務(wù)中應(yīng)用廣泛,風(fēng)控領(lǐng)域的規(guī)則來自于商業(yè)銀行內(nèi)的業(yè)務(wù)規(guī)定以及專家依據(jù)經(jīng)驗(yàn)從已發(fā)生的風(fēng)險(xiǎn)事件中提取的特征信息。通過預(yù)設(shè)的經(jīng)過驗(yàn)證的規(guī)則,根據(jù)規(guī)則與事實(shí)的匹配與否給出推理結(jié)果。如判定貸款資金是否受托支付的推理規(guī)則為:貸款發(fā)放時(shí),收款人與借款人不一致。對(duì)于與規(guī)則匹配的某筆貸款,其支付方式可被判定為受托支付。2019 年,為預(yù)測(cè)企業(yè)破產(chǎn)風(fēng)險(xiǎn),唐曉波等[48]通過CART 算法從訓(xùn)練集中抽取用于破產(chǎn)預(yù)測(cè)的9 條規(guī)則,并將其轉(zhuǎn)化為對(duì)應(yīng)的SWRL 規(guī)則,隨后利用Drools推理引擎進(jìn)行可解釋的知識(shí)推理,在2008—2017 年美國破產(chǎn)上市公司數(shù)據(jù)上預(yù)測(cè)破產(chǎn)企業(yè)的準(zhǔn)確率達(dá)到84.13%。除此之外,還可以對(duì)實(shí)體間隱含的關(guān)系進(jìn)行推理。表3 中列舉了幾種隱含關(guān)系及其推理規(guī)則,可在風(fēng)控領(lǐng)域知識(shí)圖譜中對(duì)客戶實(shí)體間的關(guān)聯(lián)關(guān)系進(jìn)行深化。
表3 關(guān)系推理規(guī)則舉例Table 3 Example of reasoning rules of relations
為便于書寫規(guī)則,面向數(shù)據(jù)庫及知識(shí)庫的邏輯語言Datalog[49]得到開發(fā),在其基礎(chǔ)上,牛津大學(xué)推出了Vadalog[50],以平衡知識(shí)推理的計(jì)算復(fù)雜度和表達(dá)能力。2020 年,Atzeni 等[51]提出了基于Vadalog 和多層次聚類的Vada-Link框架,將KGC任務(wù)化分為聚類與多分類這兩個(gè)子任務(wù),并在為意大利中央銀行構(gòu)建企業(yè)股權(quán)知識(shí)圖譜的實(shí)踐中取得不錯(cuò)效果,在20 個(gè)集群上的召回率為99.4%,在50 個(gè)集群上的召回率為98.6%?;谝?guī)則的推理方法較為精確且具有可解釋性,但學(xué)習(xí)能力不足,人工提供規(guī)則的效率較低。為彌補(bǔ)此缺陷,有學(xué)者提出了自動(dòng)化的規(guī)則學(xué)習(xí)方法,如AMIE[52]通過迭代地在規(guī)則中增加懸掛邊、實(shí)例邊以及閉合邊,引入剪枝策略以高效地探索搜索空間,并在規(guī)則學(xué)習(xí)的過程中評(píng)估規(guī)則的質(zhì)量,可以有效應(yīng)用在大規(guī)模知識(shí)圖譜上。為對(duì)知識(shí)圖譜缺失的關(guān)系進(jìn)行推理,2020年,Zhang等[53]提出集成全局信息與關(guān)聯(lián)規(guī)則的概率模型FGEM,首先挖掘簡(jiǎn)單規(guī)則并生成大量知識(shí),以構(gòu)造因子圖表示推理空間,然后通過開發(fā)EM算法,E步驟中使用置信度傳播算法計(jì)算候選邊的邊緣分布,M步驟中通過廣義迭代比例擬合框架學(xué)習(xí)軟規(guī)則的可信度,最終在關(guān)系補(bǔ)全任務(wù)中的表現(xiàn)優(yōu)于AMIE、TransH。自動(dòng)化的規(guī)則學(xué)習(xí)方法將挖掘到的置信度高的規(guī)則添加進(jìn)規(guī)則庫中,可以節(jié)省人力,大幅度提升工作效率。
2.3.2 基于圖結(jié)構(gòu)的推理方法
由于知識(shí)圖譜特有的圖屬性,基于圖結(jié)構(gòu)的方法尤其適于知識(shí)圖譜的推理任務(wù)。在知識(shí)圖譜技術(shù)面世之前,Lao等[54]已提出將基于隨機(jī)游走的PRA算法用于大規(guī)模知識(shí)庫中的推理和學(xué)習(xí),將節(jié)點(diǎn)間的路徑作為特征預(yù)測(cè)潛在路徑,具有較好的可解釋性,但計(jì)算量大。Gardner等[55]其PRA基礎(chǔ)上提出表達(dá)能力更強(qiáng)的子圖特征提取模型SFE,舍去路徑特征的概率計(jì)算,直接保留二值特征,以有效降低計(jì)算復(fù)雜度。2022年,Wu等[56]將SFE方法應(yīng)用在金融欺詐風(fēng)險(xiǎn)分析中,構(gòu)建基于SFE的知識(shí)圖推理框架,通過搜索已知詐騙公司以挖掘潛在的詐騙公司,有助于監(jiān)管機(jī)構(gòu)防范欺詐風(fēng)險(xiǎn)。除欺詐風(fēng)險(xiǎn)外,企業(yè)供應(yīng)鏈的風(fēng)險(xiǎn)傳導(dǎo)也不容忽視,傳統(tǒng)的供應(yīng)鏈風(fēng)險(xiǎn)分析方法只針對(duì)鏈中大型核心企業(yè),授信時(shí)以其非流動(dòng)資產(chǎn)作為擔(dān)保,而中小企業(yè)依靠核心企業(yè)的信用擔(dān)保,傳統(tǒng)風(fēng)控模式無法捕捉其日常交易中流動(dòng)資產(chǎn)形式的轉(zhuǎn)換。針對(duì)這一問題,Zhang 等[57]提出了基于圖挖掘的企業(yè)供應(yīng)鏈推理方法,利用企業(yè)間交易合同與企業(yè)基本信息搭建知識(shí)圖譜,隨后通過基于圖的社區(qū)檢測(cè)方法發(fā)現(xiàn)潛在的企業(yè)供應(yīng)鏈,從而對(duì)供應(yīng)鏈中的企業(yè)進(jìn)行風(fēng)險(xiǎn)評(píng)估,以支持商業(yè)銀行授信決策。針對(duì)股權(quán)網(wǎng)絡(luò)中的關(guān)聯(lián)查詢問題,Ouyang等[58]提出了基于金融領(lǐng)域知識(shí)圖譜的雙節(jié)點(diǎn)關(guān)聯(lián)查詢DAQ 算法以及多節(jié)點(diǎn)關(guān)聯(lián)查詢MAQ 算法,以挖掘兩頂點(diǎn)之間最大股權(quán)鏈的k度關(guān)系路徑,為金融風(fēng)險(xiǎn)防控提供強(qiáng)有力的技術(shù)支撐。2020年,黃煒等[59]基于浦發(fā)銀行全行級(jí)企業(yè)關(guān)聯(lián)關(guān)系知識(shí)圖譜,利用隨機(jī)游走以及Fraud Rank 算法模擬了以輿情數(shù)據(jù)、借貸信息為起點(diǎn)的風(fēng)險(xiǎn)傳播過程,并對(duì)風(fēng)險(xiǎn)值進(jìn)行計(jì)算。呂華揆等[60]通過深度優(yōu)先遍歷以及Tarjan算法對(duì)金融實(shí)體間持股關(guān)系、持股比例進(jìn)行穿透式分析,并結(jié)合網(wǎng)絡(luò)中心度指標(biāo)判斷實(shí)體對(duì)象風(fēng)險(xiǎn)水平,為風(fēng)險(xiǎn)識(shí)別和預(yù)測(cè)提供了新方法。
基于圖結(jié)構(gòu)的推理方法可以很好地挖掘圖結(jié)構(gòu)中的路徑特征,結(jié)合業(yè)務(wù)規(guī)則,可以挖掘出實(shí)體間的隱含關(guān)系及路徑等,但在大規(guī)模知識(shí)圖譜的應(yīng)用中會(huì)面臨高復(fù)雜度和巨大計(jì)算量等問題。
2.3.3 基于表示學(xué)習(xí)的推理方法
隨著知識(shí)圖譜的向量表示方法不斷完善,基于表示學(xué)習(xí)的推理也取得了新的進(jìn)展?;诒硎緦W(xué)習(xí)的推理是將實(shí)體和關(guān)系映射到連續(xù)的向量空間中進(jìn)行向量表示,再根據(jù)這些低維向量進(jìn)行知識(shí)圖譜補(bǔ)全、三元組置信度評(píng)估等推理任務(wù)。其中應(yīng)用較為廣泛的是基于平移距離的方法與基于語義匹配的方法。
(1)基于平移距離的方法。其中較為經(jīng)典的模型如TransE[61]、TransH[62]、TransR[63]、TransD[64]等。它們的共同特點(diǎn)是得分函數(shù)通過計(jì)算頭、尾實(shí)體向量間的距離,以衡量此三元組的置信度。最早的翻譯模型TransE 受到詞向量中平移不變性的啟發(fā),將關(guān)系的向量表示解釋成頭、尾實(shí)體向量之間的轉(zhuǎn)移向量,簡(jiǎn)單而高效。TransA[65]在TransE的基礎(chǔ)上,將得分函數(shù)中的歐氏距離改為適用性更高的馬氏距離,并為實(shí)體與關(guān)系向量的每一維學(xué)習(xí)不同的權(quán)重以區(qū)分其重要程度。TransParse[66]將TransR模型中的稠密矩陣簡(jiǎn)化為稀疏矩陣,可以有效解決實(shí)體與關(guān)系的異質(zhì)性,減少參數(shù)數(shù)量,并通過對(duì)頭、尾實(shí)體使用不同的投影矩陣解決關(guān)系的不平衡性問題。為解決一種關(guān)系可能對(duì)應(yīng)多種語義信息的問題,TransG[67]提出使用高斯混合模型及聚類算法生成實(shí)體關(guān)系的多種表示,不同的語義用不同的高斯分布描述。近年來,翻譯模型在風(fēng)控領(lǐng)域知識(shí)推理任務(wù)中得到嘗試。2021 年,Ma等[68]提出了一種基于知識(shí)圖譜語義信息的深度學(xué)習(xí)模型,利用TransR模型將離散符號(hào)表示的知識(shí)圖譜嵌入到向量空間中,以挖掘債券實(shí)體之間的隱含關(guān)系,并使用融合知識(shí)圖譜語義信息的DeepFM 模型對(duì)債券違約進(jìn)行預(yù)測(cè),取得了不錯(cuò)的效果。
(2)基于語義匹配的方法。比較經(jīng)典的模型有RESCAL[69]、DistMult[70]、ComplEx[71]等,這些模型的共同特點(diǎn)是借助矩陣、張量或是神經(jīng)網(wǎng)絡(luò)挖掘?qū)嶓w向量和關(guān)系向量之間的語義聯(lián)系,其得分函數(shù)使用相似度來衡量。在RESCAL、DistMult 的基礎(chǔ)上,HolE[72]將二者相結(jié)合,引入循環(huán)相關(guān)運(yùn)算描述實(shí)體之間的關(guān)聯(lián)。ANALOGY[73]將RESCAL中的關(guān)系矩陣約束為正規(guī)矩陣,以進(jìn)一步對(duì)實(shí)體和關(guān)系的類比屬性進(jìn)行建模。為學(xué)習(xí)到更多的特征,ConvE[74]提出使用多層卷積網(wǎng)絡(luò)進(jìn)行知識(shí)圖譜嵌入,但對(duì)于實(shí)體與關(guān)系間的交互仍不充分,于是ConvR[75]提出將關(guān)系向量作為卷積核,以獲得實(shí)體與關(guān)系之間交互最大化,而InteractE[76]使用特征置換、交叉排列的特征重塑和循環(huán)卷積操作以增加實(shí)體與關(guān)系間的交互。SACN[77]提出使用加權(quán)的圖卷積網(wǎng)絡(luò)解決ConvE中圖結(jié)構(gòu)信息未充分利用的不足,并保留了平移特性。2022年,Alam 等[78]將貸款違約預(yù)測(cè)二分類問題轉(zhuǎn)化為知識(shí)圖譜推理中的鏈接預(yù)測(cè)和三元組分類問題,即對(duì)三元組“分類為(申請(qǐng)人,?)”中缺失的尾實(shí)體預(yù)測(cè)為“違約”或“不會(huì)違約”,利用ComplEx 捕獲語義信息,并作為特征輸入到LR、RF 等傳統(tǒng)機(jī)器學(xué)習(xí)分類器以提升其性能,增強(qiáng)貸款違約預(yù)測(cè)模型的準(zhǔn)確性和可解釋性。
2.3.4 基于強(qiáng)化學(xué)習(xí)的推理方法
2017 年,強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)首次被引入知識(shí)圖譜推理中,經(jīng)過近幾年的探索,目前基于強(qiáng)化學(xué)習(xí)的推理方法已成為知識(shí)推理研究的新方向。開山之作DeepPath[79]旨在推理給定頭實(shí)體到尾實(shí)體之間的路徑,并將其建模為馬爾科夫序列決策問題,通過TransE將知識(shí)圖譜映射到連續(xù)空間中,利用基于蒙塔卡洛策略梯度的REINFORCE算法求解,在獎(jiǎng)勵(lì)函數(shù)的設(shè)置中考慮路徑的多樣性、效率以及準(zhǔn)確率,令智能體執(zhí)行最優(yōu)動(dòng)作以拓展路徑,但其策略網(wǎng)絡(luò)需要預(yù)訓(xùn)練,且搜索效率較低。緊隨其后,Minerva[80]旨在解決已知頭實(shí)體與關(guān)系情況下的查詢回答問題,并將其建模為部分可觀察的馬爾科夫決策過程。與DeepPath 相比,Minerva無需預(yù)訓(xùn)練,獎(jiǎng)勵(lì)函數(shù)較為簡(jiǎn)單,且具備更強(qiáng)大的推理能力,但當(dāng)缺乏高質(zhì)量路徑的訓(xùn)練時(shí),模型易受虛假路徑誤導(dǎo)。后續(xù)工作Multihop-KG[81]改進(jìn)了Minerva的獎(jiǎng)勵(lì)函數(shù),使用預(yù)先訓(xùn)練的ConvE 模型計(jì)算軟獎(jiǎng)勵(lì),并在訓(xùn)練過程中隨機(jī)掩蓋部分出邊,避免智能體受到歷史路徑誤導(dǎo),實(shí)現(xiàn)對(duì)路徑的多樣化探索。于2019 年提出的AttnPath[82]通過引入基于LSTM與圖注意力機(jī)制的記憶組件以擺脫對(duì)預(yù)訓(xùn)練的高度依賴,使用TransD 進(jìn)行知識(shí)圖譜表示學(xué)習(xí),并通過設(shè)定新的強(qiáng)化學(xué)習(xí)機(jī)制以避免智能體在某一節(jié)點(diǎn)持續(xù)停滯,在實(shí)驗(yàn)中顯著優(yōu)于DeepPath。由于基于強(qiáng)化學(xué)習(xí)的推理方法具有良好的可解釋性和學(xué)習(xí)能力,在量化金融、投資交易等決策問題中已得到有效應(yīng)用,同時(shí)在金融風(fēng)控領(lǐng)域也進(jìn)行了初步探索。為識(shí)別與防范企業(yè)重大風(fēng)險(xiǎn),熊盛武等[83]提出了一種基于強(qiáng)化學(xué)習(xí)的區(qū)域產(chǎn)業(yè)關(guān)聯(lián)效應(yīng)趨勢(shì)推理方法,以預(yù)測(cè)如“中美貿(mào)易摩擦”“關(guān)稅”等風(fēng)險(xiǎn)事件對(duì)關(guān)聯(lián)產(chǎn)業(yè)的影響趨勢(shì),首先在產(chǎn)業(yè)知識(shí)圖譜上通過TransE將事實(shí)映射到低維向量空間,并將趨勢(shì)預(yù)測(cè)建模為序列決策問題,利用LSTM提取的歷史路徑特征和自注意力機(jī)制提取的鄰接實(shí)體特征構(gòu)建策略網(wǎng)絡(luò)模型,智能體最終抵達(dá)的實(shí)體即預(yù)測(cè)結(jié)果。
2.3.5 基于時(shí)序性的推理方法
目前大部分知識(shí)圖譜相關(guān)研究大多是基于靜態(tài)知識(shí)圖譜,即認(rèn)為圖譜結(jié)構(gòu)不隨著時(shí)間變化而改變,只能反映某一時(shí)間點(diǎn)的風(fēng)險(xiǎn)信息。而真實(shí)數(shù)據(jù)通常具有隨時(shí)間演化的動(dòng)態(tài)性,T+1 時(shí)刻的知識(shí)圖譜結(jié)構(gòu)可能與T時(shí)刻的知識(shí)圖譜結(jié)構(gòu)有著不小的差異,如企業(yè)實(shí)體的股權(quán)結(jié)構(gòu)發(fā)生頻繁變動(dòng)。同時(shí)新知識(shí)的重要程度一般大于舊知識(shí),風(fēng)控領(lǐng)域中的大部分業(yè)務(wù)都帶有時(shí)間窗口的限制,如統(tǒng)計(jì)客戶自貸款發(fā)放日起一個(gè)月內(nèi)進(jìn)行的借方交易金額。
近年來,基于時(shí)序性的知識(shí)推理方法相關(guān)文獻(xiàn)陸續(xù)發(fā)表。對(duì)于商業(yè)銀行來說,了解客戶行為對(duì)降低信用風(fēng)險(xiǎn)以及欺詐風(fēng)險(xiǎn)非常重要。2020 年,Shumovskaia 等[84]使用鏈接預(yù)測(cè)方法來挖掘銀行客戶間的交互,通過一家歐洲的大型銀行真實(shí)客戶交易數(shù)據(jù)集得到了具有8 600萬節(jié)點(diǎn)和40 億條邊的時(shí)序圖譜,按時(shí)間段劃分為三個(gè)部分:前三年、第四年和第五年,分別用于訓(xùn)練、驗(yàn)證和測(cè)試,隨后采用2-SEAL-RNN 模型進(jìn)行鏈接預(yù)測(cè),其中RNN 用于構(gòu)建注意力機(jī)制,在提取目標(biāo)鏈路周圍的閉合子圖之后處理關(guān)系對(duì)應(yīng)的時(shí)間序列,最后將2-SEALRNN 作為GCN 中的注意力模塊以提高信用評(píng)分的質(zhì)量。針對(duì)擔(dān)保關(guān)系動(dòng)態(tài)變化的擔(dān)保圈風(fēng)險(xiǎn),Cheng 等[85]提出了一種基于時(shí)序圖譜的注意力神經(jīng)網(wǎng)絡(luò)模型DGANN用于預(yù)測(cè)風(fēng)險(xiǎn)擔(dān)保關(guān)系(即借款人違約而其擔(dān)保人未能償還擔(dān)保金額),模型包括具有結(jié)構(gòu)注意力的GCN、具有時(shí)序注意力的GRN 以及計(jì)算風(fēng)險(xiǎn)概率的預(yù)測(cè)層這三部分,并在東亞一家主要金融機(jī)構(gòu)2013—2016年期間的真實(shí)貸款數(shù)據(jù)集上對(duì)DGANN模型進(jìn)行評(píng)估,對(duì)風(fēng)險(xiǎn)擔(dān)保的預(yù)測(cè)精度超越了GCN、SEAL、GRNN 等基線模型。隨后,Wang 等[86]提出通過時(shí)間感知圖神經(jīng)網(wǎng)絡(luò)TemGNN 對(duì)信用風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),該模型結(jié)合了靜態(tài)特征學(xué)習(xí)模型、帶有特殊圖卷積的短期圖編碼器以及基于LSTM的長(zhǎng)期時(shí)序模型這三部分,能夠同時(shí)挖掘短期和長(zhǎng)期的時(shí)間結(jié)構(gòu)信息,最后在支付寶客戶借貸行為時(shí)序圖譜上進(jìn)行違約預(yù)測(cè),效果優(yōu)于所有基線模型。2022 年,Yang 等[87]引入時(shí)間信息構(gòu)建企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜,在“實(shí)體-關(guān)系-實(shí)體”三元組的基礎(chǔ)上增加時(shí)序維度,拓展為“實(shí)體-關(guān)系-日期/時(shí)間-實(shí)體”形式的四元組,通過基于多關(guān)系循環(huán)事件的動(dòng)態(tài)知識(shí)圖譜推理方法Multi-Net 預(yù)測(cè)缺失實(shí)體和關(guān)系,并利用多關(guān)系鄰近聚合器得到每個(gè)時(shí)間戳下實(shí)體鄰近信息聚合后的向量表示,隨后利用基于LSTM的時(shí)序事件編碼器捕捉風(fēng)險(xiǎn)事件在多時(shí)間、多關(guān)系上的依賴性,將鏈接預(yù)測(cè)視為多分類問題并通過改進(jìn)損失平衡函數(shù)提升計(jì)算精度,最后通過金融數(shù)據(jù)集驗(yàn)證該模型在鏈接預(yù)測(cè)任務(wù)中的明顯優(yōu)勢(shì)。
總的來說,基于表示學(xué)習(xí)的推理方法雖然可以自動(dòng)捕捉特征,但可解釋性較差,且知識(shí)表示過程會(huì)產(chǎn)生語義損失。風(fēng)控領(lǐng)域中決策空間巨大、推理鏈較長(zhǎng),基于表示學(xué)習(xí)的推理在復(fù)雜的推理任務(wù)上存在局限性,很難取得令人滿意的效果。Shao 等[88]在新加坡星展銀行的真實(shí)客戶數(shù)據(jù)上驗(yàn)證了這一點(diǎn),將TransE、DistMult、ComplEx用于知識(shí)圖譜補(bǔ)全任務(wù),實(shí)驗(yàn)結(jié)果表明這些模型在金融數(shù)據(jù)集上的性能遠(yuǎn)低于在公共數(shù)據(jù)集上所能達(dá)到的效果?;趶?qiáng)化學(xué)習(xí)的推理方法是新興的推理手段,在風(fēng)控領(lǐng)域有待進(jìn)一步探索,例如用于風(fēng)控領(lǐng)域知識(shí)圖譜中挖掘因果鏈的風(fēng)險(xiǎn)溯因場(chǎng)景,以生成可解釋的風(fēng)險(xiǎn)演化路徑?;跁r(shí)序的推理方法通過引入時(shí)序信息以契合真實(shí)的風(fēng)控場(chǎng)景,主要利用RNN、LSTM 等神經(jīng)網(wǎng)絡(luò)捕獲時(shí)序特征,在對(duì)于可解釋性要求較高的風(fēng)控領(lǐng)域中難以受到信任。目前在風(fēng)控領(lǐng)域中應(yīng)用較多的還是基于規(guī)則的推理方法以及基于圖結(jié)構(gòu)的推理方法。隨著科技的不斷發(fā)展、人力成本上升,知識(shí)推理技術(shù)勢(shì)必要朝著自動(dòng)化、智能化的方向發(fā)展,在這一技術(shù)領(lǐng)域中仍存在著許多挑戰(zhàn)和機(jī)遇。
面向商業(yè)銀行風(fēng)控領(lǐng)域的知識(shí)圖譜有如下幾個(gè)方面的特點(diǎn):(1)全面性。利用知識(shí)抽取技術(shù)以獲取全面的風(fēng)險(xiǎn)信息,基于知識(shí)圖譜描繪客戶風(fēng)險(xiǎn)全景圖以洞察客戶行為,有效防控信用風(fēng)險(xiǎn)、操作風(fēng)險(xiǎn)、欺詐風(fēng)險(xiǎn)。(2)深加工。利用知識(shí)推理技術(shù)挖掘?qū)嶓w間的潛在關(guān)系,以及擔(dān)保圈鏈、資金轉(zhuǎn)移鏈等復(fù)雜關(guān)系鏈。(3)淺表達(dá)。通過可視化工具進(jìn)行圖形化展示,金融實(shí)體間錯(cuò)綜復(fù)雜的關(guān)聯(lián)關(guān)系可以一目了然。近年來知識(shí)圖譜技術(shù)在商業(yè)銀行已有實(shí)際應(yīng)用,表4中列舉了幾家商業(yè)銀行在風(fēng)控領(lǐng)域中的知識(shí)圖譜應(yīng)用成果[43,89-92]。以下從反欺詐、反洗錢、關(guān)聯(lián)風(fēng)險(xiǎn)預(yù)警、可視化分析、數(shù)字普惠金融等方面介紹知識(shí)圖譜的應(yīng)用。
表4 知識(shí)圖譜在商業(yè)銀行風(fēng)控領(lǐng)域的應(yīng)用成果Table 4 Application results of knowledge graph in field of risk management of commercial banks
(1)反欺詐。欺詐行為包括薅羊毛、電信詐騙、刷單、中介代辦、套現(xiàn)等,若未嚴(yán)加防控,可能使商業(yè)銀行造受巨額損失,所以反欺詐在商業(yè)銀行的風(fēng)險(xiǎn)管理中起著重要的作用。風(fēng)控領(lǐng)域知識(shí)圖譜可抽取和挖掘目標(biāo)客戶的設(shè)備信息、交易數(shù)據(jù)以及行為數(shù)據(jù),拓展對(duì)欺詐風(fēng)險(xiǎn)的分析維度。在申請(qǐng)階段,可結(jié)合一定指標(biāo)的預(yù)警規(guī)則對(duì)賬號(hào)、設(shè)備等風(fēng)險(xiǎn)因子進(jìn)行分析,以支持高效、精準(zhǔn)的反欺詐預(yù)測(cè),對(duì)虛假申請(qǐng)等行為進(jìn)行有效預(yù)警;在交易階段,結(jié)合特征工程和算法模型對(duì)目標(biāo)客戶涉及的交易數(shù)據(jù)進(jìn)行分析,對(duì)非法套現(xiàn)、盜刷等欺詐行為進(jìn)行實(shí)時(shí)預(yù)警和監(jiān)控。2019年,金磐石等[93]提出了一種基于企業(yè)畫像與關(guān)聯(lián)圖譜的貸前反欺詐模型,對(duì)小微企業(yè)客戶的欺詐風(fēng)險(xiǎn)進(jìn)行量化,在測(cè)試集上的AUC 值比僅利用企業(yè)基本特征建模提升了5%,能夠有效檢測(cè)申貸階段的欺詐行為。Yang 等[94]提出一種反欺詐檢測(cè)模型FraudMemory,通過TransE在交易圖譜上生成客戶實(shí)體的向量表示以提取語義特征,在某銀行的380萬條客戶交易數(shù)據(jù)上欺詐預(yù)測(cè)效果優(yōu)于SVM、GRU 等基線模型。2022 年,Mao 等[95]通過構(gòu)建企業(yè)交易知識(shí)圖譜,提取交易規(guī)模、類型與頻率等特征,以增強(qiáng)金融欺詐行為檢測(cè)能力,并在2000—2019 年中國上市公司數(shù)據(jù)集上取得不錯(cuò)的效果。
(2)反洗錢。洗錢行為是指通過混淆資金來源,使非法獲得的金錢財(cái)產(chǎn)轉(zhuǎn)變?yōu)楹戏ㄙY產(chǎn)的過程。反洗錢是一項(xiàng)全球范圍內(nèi)的艱巨任務(wù),通常涉及多地域、多機(jī)構(gòu)、多部門。商業(yè)銀行面對(duì)的洗錢犯罪一般是團(tuán)伙作案,利用多身份、多賬戶進(jìn)行操作。隨著互聯(lián)網(wǎng)金融和數(shù)字貨幣的發(fā)展,洗錢作案方法越發(fā)復(fù)雜,洗錢作案手段越發(fā)隱蔽。僅依靠賬戶一度關(guān)聯(lián)交易識(shí)別洗錢賬號(hào)通常步履維艱,而利用知識(shí)圖譜建立賬號(hào)實(shí)體間的資金交易關(guān)系網(wǎng),可以對(duì)監(jiān)管賬號(hào)的關(guān)聯(lián)賬號(hào)進(jìn)行深度追蹤挖掘,由淺到深地逐步排查可疑賬號(hào),從而大幅度減少調(diào)查體量,提升反洗錢能效。2020 年,Bellomarini 等[96]提出基于Vadalog 和知識(shí)圖譜的反洗錢框架,對(duì)最終受益人、控股、夫妻等關(guān)系進(jìn)行挖掘,然后根據(jù)綜合情況對(duì)可疑交易計(jì)算懷疑度評(píng)分。
(3)關(guān)聯(lián)風(fēng)險(xiǎn)預(yù)警。外部風(fēng)險(xiǎn)是客戶發(fā)生違約的重要原因之一,因關(guān)聯(lián)企業(yè)的風(fēng)險(xiǎn)沖擊等外部因素引起的違約案例數(shù)不勝數(shù)。目前商業(yè)銀行的客戶洞察工作中,主要以客戶自身為研究對(duì)象,對(duì)于多個(gè)客戶間的風(fēng)險(xiǎn)傳導(dǎo)進(jìn)行評(píng)估時(shí)通常只能評(píng)估與分析對(duì)象有直接關(guān)聯(lián)的客戶風(fēng)險(xiǎn),而無法對(duì)其間接關(guān)聯(lián)客戶進(jìn)行風(fēng)險(xiǎn)評(píng)估。通過搭建客戶關(guān)聯(lián)圖譜,可以對(duì)客戶錯(cuò)綜復(fù)雜的外部關(guān)聯(lián)關(guān)系逐級(jí)梳理,有效拓展風(fēng)險(xiǎn)預(yù)警范圍,加強(qiáng)對(duì)關(guān)聯(lián)風(fēng)險(xiǎn)客戶的重點(diǎn)關(guān)注??紤]到同一種關(guān)系的緊密程度也存在差異,可根據(jù)關(guān)系屬性劃分關(guān)系等級(jí),在風(fēng)險(xiǎn)傳導(dǎo)概率計(jì)算中為不同等級(jí)的關(guān)系分配不同的權(quán)重,例如,資金往來關(guān)系可以可根據(jù)交易金額的數(shù)量級(jí)劃分權(quán)值,“100 RMB”對(duì)應(yīng)關(guān)系權(quán)值為3,“10 000 RMB”對(duì)應(yīng)關(guān)系權(quán)值為5。2020 年,Xue[97]利用知識(shí)圖譜建立企業(yè)客戶關(guān)系網(wǎng)絡(luò),挖掘風(fēng)險(xiǎn)傳遞路徑并計(jì)算風(fēng)險(xiǎn)傳遞系數(shù),以幫助商業(yè)銀行精準(zhǔn)定位客戶的潛在風(fēng)險(xiǎn)。
(4)可視化分析。風(fēng)控領(lǐng)域知識(shí)圖譜將冗雜的信息轉(zhuǎn)化為高度結(jié)構(gòu)化的知識(shí)網(wǎng)絡(luò),借助可視化技術(shù)可以將知識(shí)資源映射為圖形元素,通過提供多維洞察視角,將實(shí)體間復(fù)雜關(guān)系直觀明了地描繪出來,令圖譜使用者對(duì)客戶、關(guān)系以及風(fēng)險(xiǎn)傳導(dǎo)路徑等信息了解得更為透徹。Wang等[98]基于交易數(shù)據(jù)構(gòu)造了端到端的風(fēng)控領(lǐng)域知識(shí)圖譜,將知識(shí)以三元組的形式存儲(chǔ)在Neo4j 圖數(shù)據(jù)庫,以文本列表和圖形可視化相結(jié)合的方式展示客戶之間的業(yè)務(wù)關(guān)系。
(5)數(shù)字普惠金融。近年來,普惠金融受到高度重視,但風(fēng)險(xiǎn)一直是普惠金融發(fā)展中的核心問題之一,商業(yè)銀行在發(fā)展傳統(tǒng)普惠金融業(yè)務(wù)時(shí)面臨信息不對(duì)稱、貸前審批難、貸中貸后管理難等問題。而數(shù)字普惠金融實(shí)現(xiàn)金融科技與普惠金融的完美結(jié)合,利用知識(shí)圖譜技術(shù)打造數(shù)字化風(fēng)控體系,能夠有效提升風(fēng)控水平與工作效率。由于小微企業(yè)大多處于產(chǎn)業(yè)鏈弱勢(shì)地位,容易受到上下游風(fēng)險(xiǎn)傳導(dǎo),中國農(nóng)業(yè)銀行通過構(gòu)建小微企業(yè)知識(shí)圖譜,劃分風(fēng)險(xiǎn)客群,對(duì)小微客戶風(fēng)險(xiǎn)進(jìn)行洞察和分析,致力于建設(shè)智能中樞,實(shí)現(xiàn)風(fēng)控立體化,為數(shù)字普惠金融開辟了新道路[99]。
目前,國內(nèi)銀行對(duì)于知識(shí)圖譜在風(fēng)控領(lǐng)域中的應(yīng)用尚淺,數(shù)據(jù)質(zhì)量還不完善,面臨數(shù)據(jù)治理能力和數(shù)據(jù)價(jià)值挖掘能力的挑戰(zhàn)。歐美對(duì)于金融知識(shí)圖譜的探索較早,構(gòu)建技術(shù)較為成熟。十多年前,英國Garlik 公司就已將語義網(wǎng)用于在線信用監(jiān)控。由EDM Council 發(fā)布的金融業(yè)業(yè)務(wù)本體(financial industry business ontology,F(xiàn)IBO),此標(biāo)準(zhǔn)經(jīng)過包括美國道富銀行、德意志銀行在內(nèi)的多家銀行的檢驗(yàn)。豐富的語義本體為知識(shí)圖譜奠定基礎(chǔ),能夠準(zhǔn)確描述金融實(shí)體,顯著減少映射工作,并能夠通過ETL代碼生成和自文檔化,降低維護(hù)成本。
本文在對(duì)知識(shí)圖譜的概念、體系架構(gòu)等全面闡述的基礎(chǔ)上,介紹了風(fēng)控領(lǐng)域知識(shí)圖譜構(gòu)建技術(shù)的研究進(jìn)展,并列舉了風(fēng)控領(lǐng)域知識(shí)圖譜的實(shí)際應(yīng)用及成果。由于大型商業(yè)銀行存量客戶可達(dá)千萬量級(jí),在風(fēng)控知識(shí)圖譜的構(gòu)建過程中會(huì)生成以億為量級(jí)的節(jié)點(diǎn)和邊,不僅對(duì)圖譜存儲(chǔ)帶來巨大負(fù)擔(dān),也為知識(shí)抽取、知識(shí)融合、知識(shí)推理等構(gòu)建技術(shù)帶來了新的障礙,大型知識(shí)圖譜的管理和運(yùn)營也是潛在的挑戰(zhàn)[100]。在過去的十年中,知識(shí)圖譜技術(shù)從首次被提出到現(xiàn)在廣泛研究,期間雖取得了諸多實(shí)踐成果,但在風(fēng)控領(lǐng)域的落地實(shí)踐中仍存在進(jìn)一步發(fā)展的空間。
(1)進(jìn)一步提升知識(shí)質(zhì)量與知識(shí)抽取效果。商業(yè)銀行中,各業(yè)務(wù)條線一般有著各自的管理系統(tǒng),不同系統(tǒng)或是同一系統(tǒng)的不同模塊可能出現(xiàn)重復(fù)錄入的情況,從而產(chǎn)生冗余或是數(shù)據(jù)不一致的錯(cuò)誤,另外人工錄入信息時(shí)也可能輸入錯(cuò)誤信息。在風(fēng)控領(lǐng)域,對(duì)數(shù)據(jù)的準(zhǔn)確性有著極高的要求,錯(cuò)誤信息可能還會(huì)造成其關(guān)聯(lián)知識(shí)產(chǎn)生偏差,嚴(yán)重影響決策和判斷。在對(duì)結(jié)構(gòu)化數(shù)據(jù)的抽取時(shí)可結(jié)合ETL技術(shù)提高知識(shí)質(zhì)量,對(duì)于非結(jié)構(gòu)化文本數(shù)據(jù),可通過人工定義規(guī)則過濾掉一部分錯(cuò)誤信息,并使用NLP 技術(shù)進(jìn)行預(yù)處理。針對(duì)商業(yè)銀行風(fēng)控領(lǐng)域的專業(yè)術(shù)語復(fù)雜度較高等特點(diǎn),可以考慮結(jié)合融入專家經(jīng)驗(yàn)的規(guī)則庫提升深度學(xué)習(xí)模型的效果。對(duì)于罕見詞和多義詞,結(jié)合垂直領(lǐng)域的業(yè)務(wù)背景加以解釋,提升知識(shí)抽取效果。
(2)隱私保護(hù)下的知識(shí)共享。風(fēng)控的本質(zhì)是利用數(shù)據(jù)降低信息不對(duì)稱程度,所以銀行需要全面采集客戶信息。而2021年《數(shù)據(jù)安全法》和《個(gè)人信息保護(hù)法》接連頒布,昭示著風(fēng)控工作的前提是保障客戶隱私安全以及數(shù)據(jù)安全。相比較網(wǎng)絡(luò)爬蟲盛行的前幾年,當(dāng)下更為注重個(gè)人隱私安全、數(shù)據(jù)合規(guī)性。考慮到客戶隱私、商業(yè)競(jìng)爭(zhēng)等因素,銀行業(yè)未能形成聯(lián)合風(fēng)控模式,無法共享數(shù)據(jù)、算法模型。故而可能出現(xiàn)這種情況:同一授信客戶在不同銀行的信用評(píng)分相差較大。現(xiàn)有的隱私保護(hù)機(jī)器學(xué)習(xí)技術(shù)如協(xié)作學(xué)習(xí)、聯(lián)邦學(xué)習(xí)以及安全機(jī)器學(xué)習(xí),能夠支持多方在隱私保護(hù)下的數(shù)據(jù)使用和機(jī)器學(xué)習(xí)建模。知識(shí)圖譜中的知識(shí)涉及實(shí)體間的關(guān)聯(lián)關(guān)系,更為復(fù)雜。未來可考慮將知識(shí)存儲(chǔ)、知識(shí)表示與同態(tài)加密、密鑰共享等加密技術(shù)相結(jié)合,以促進(jìn)知識(shí)共享。
(3)增強(qiáng)知識(shí)推理的可解釋性。嵌入表示算法能夠獲得高效的計(jì)算效率,但模型越復(fù)雜,推理結(jié)果就越難被解釋,缺乏可解釋性的自動(dòng)化推理與決策可能導(dǎo)致未知的風(fēng)險(xiǎn)。風(fēng)控領(lǐng)域?qū)λ惴P偷陌踩阅芤筝^高,其可解釋性事關(guān)商業(yè)銀行穩(wěn)健經(jīng)營和客戶權(quán)益保障。有相關(guān)工作通過稀疏注意力機(jī)制、重要性權(quán)重等方法增強(qiáng)知識(shí)嵌入的可解釋性[101-102]。未來可以考慮提高已具備高安全性的基于規(guī)則或圖結(jié)構(gòu)的推理模型性能,以及提升從黑盒模型中提取可解釋性描述的精確性。
“十四五”規(guī)劃提出“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國”,央行也提出“力爭(zhēng)到2025 年實(shí)現(xiàn)整體水平與核心競(jìng)爭(zhēng)力跨越式提升”的金融科技發(fā)展愿景,可以預(yù)見,商業(yè)銀行數(shù)字化建設(shè)仍將不斷加強(qiáng)、加深。在深度學(xué)習(xí)能力的支撐下,知識(shí)圖譜能夠有效提升商業(yè)銀行知識(shí)管理的智能化水平,為智慧金融的建設(shè)提供新動(dòng)力,在銀行業(yè)的大規(guī)模應(yīng)用已成必然趨勢(shì)。面向商業(yè)銀行的風(fēng)控領(lǐng)域知識(shí)圖譜以風(fēng)控業(yè)務(wù)為重心,通過建立以大數(shù)據(jù)為支撐的知識(shí)網(wǎng)絡(luò),對(duì)風(fēng)險(xiǎn)進(jìn)行智能化監(jiān)控與及時(shí)預(yù)警。當(dāng)前知識(shí)圖譜在銀行業(yè)的落地仍處于發(fā)展階段的初期,如何使業(yè)務(wù)和技術(shù)深度融合是知識(shí)圖譜落地的關(guān)鍵。待領(lǐng)域知識(shí)圖譜構(gòu)建技術(shù)進(jìn)一步發(fā)展,知識(shí)圖譜將提供更為廣泛的知識(shí)服務(wù),對(duì)于風(fēng)險(xiǎn)識(shí)別和分析的準(zhǔn)確率也會(huì)越來越高。
計(jì)算機(jī)工程與應(yīng)用2022年19期