趙 暉,朱子言
(1.江蘇銀行,江蘇 南京210001;2.東南大學,江蘇 南京211189)
當前,隨著內外部環(huán)境的深刻變化,商業(yè)銀行信貸風險管理面臨多重挑戰(zhàn)。一是各個經濟主體之間的聯動性越來越緊密,企業(yè)之間的股權、債權和資金往來關系錯綜交錯,授信風險傳染路徑更為復雜,事前防控風險的難度加大。二是客戶利用信息不對稱,通過欺詐等手段套取銀行貸款現象增多。三是銀行客戶內部業(yè)務信息管理分散,風控應用價值受限。四是可用于交叉驗證的外部信息質量不高。同時傳統(tǒng)的評分卡和評級模型也已無法滿足日益復雜的風險環(huán)境。對此,隨著大數據技術的逐步成熟,金融機構開始嘗試運用大數據和復雜網絡技術來構建便捷、直觀的企業(yè)信息挖掘應用模式,以揚長避短,提高風控質效。文章探討當下商業(yè)銀行信貸業(yè)務風險管理面臨的主要問題,介紹基于復雜網絡的企業(yè)信息特征挖掘概念和方法,并提出銀行應對挑戰(zhàn)的舉措及展望。
市場經濟環(huán)境下投資主體逐漸多元化,跨地區(qū)、跨行業(yè)和集團化經營的企業(yè)越來越多,納入集團合并報表范圍內的母子公司或子子公司僅為關聯客戶類型之一,除此以外關聯客戶類型還有總分公司、家族式、合營聯營、擔保關聯、產品關聯、市場關聯客戶等,企業(yè)之間的關系錯綜復雜,也使得授信風險傳染路徑更為復雜。該類客戶,尤其是關聯度高的團系企業(yè)(如集團客戶、實際控制團系企業(yè)、資金關聯度高的企業(yè)、擔保圈企業(yè)),一旦其中某一客戶暴露風險,極易形成多米諾骨牌效應,無疑會給銀行信貸資產安全造成重大威脅。針對該類風險防控,目前,商業(yè)銀行可以通過查詢企業(yè)工商信息、征信報告等手段掌握存在股權關聯、擔保關聯的企業(yè)基本情況,但上述手段受制于查詢不便捷,同時無法獲取企業(yè)資金來往等信息,以致應用價值大大受限。部分銀行則專門開發(fā)了企業(yè)關聯圖譜,通過整合工商數據、征信數據以及線下調查信息項下企業(yè)對外對內擔保、投資和實際控制情況等客戶信息逐戶展現企業(yè)關聯關系,但仍存在展示維度不足、風險揭示不充分的問題。
信貸業(yè)務真實性是銀行信貸決策的前提條件,銀行信貸申報人員往往通過現場走訪了解客戶實際經營情況、盈利模式、結算方式、往來交易等信息。信貸審批和風險管理人員在進行信貸業(yè)務審核或風險排查時通過企業(yè)提供的信貸業(yè)務申請資料和銀行內部掌握的企業(yè)存取款信息、交易信息及基本信用評級等來判斷企業(yè)貸款需求真實與否。然而受制于信息不對稱,特別是在宏觀經濟探底期,企業(yè)通過提供虛假信息及材料套取銀行貸款的現象在增多,主要涉及以下幾方面:一是通過沒有實質現金流的關聯交易增加業(yè)務往來記錄,美化財務報表相關數據,調整和控制企業(yè)的資產負債結構和經營成果,使各項財務指標符合機構借貸條件;二是通過企業(yè)間相互投資參股,虛增資本,營造公司資本雄厚的假象;三是私下互保;四是虛構貿易背景和貸款項目,使商業(yè)銀行無法通過現場調查、第三方數據交叉驗證以及邏輯推導等方式核實企業(yè)的真實狀況,致使不法企業(yè)套取或挪用銀行貸款成為可能。
在商業(yè)銀行風險管理中,內部數據對風控發(fā)揮著重要的作用。國內商業(yè)銀行數據建設普遍為業(yè)務驅動型,即根據業(yè)務單元進行劃分管理,以最先滿足業(yè)務單元需求,這產生了客戶業(yè)務信息分散化、口徑差異化的問題,以致相關數據價值難以被充分挖掘。特別是在當前銀行理財、公司類基金、信用債承銷及投資等業(yè)務規(guī)模迅速膨脹的大背景下,銀行除需加快相關數據互聯互通外,還應探索其他數據應用模式,以克服條線數據不完整、不共享的缺陷。
在信貸風險類型多樣化、復雜化的大背景下,銀行內部數據已遠遠不能支撐銀行信貸風險管理工作,大部分商業(yè)銀行已普遍開始布局涉及授信客戶的外部數據挖掘和分析工作。但可利用的外部數據普遍存在硬數據少、質量不高的現象。結合部分銀行的實際情況看,工商數據、金融市場數據、手機驗證、個人戶籍、學籍學歷等數據獲取相對容易,但稅務、水電等“硬數據”獲取難度較大。同時從不同渠道獲取的同類外部數據,或多或少存在重復、缺失等問題,這也給數據風控應用增加了難度。
復雜網絡技術是以企業(yè)為核心,利用信貸客戶授信基本情況、財務指標、行為信息以及商業(yè)銀行引入的征信、失信人等信息為數據源,運用復雜網絡建模挖掘結構特征,建立起企業(yè)授信要素之間的聯系,結合行為信息計算行為特征,研究企業(yè)與企業(yè)之間、個人與企業(yè)之間以及個人與個人之間的投資、擔保、實際控制人、高管等復雜關聯關系,并以直觀的圖譜形式展示,以供授信管理人員識別和防控信貸風險。該技術因運用了復雜網絡建模,一定程度上能克服內外部數據缺陷對風險識別造成的負面影響。
以文章研究的企業(yè)網絡圖譜為例,圖1 表示的是企業(yè)之間的網絡關系,每個節(jié)點代表的是一個信貸企業(yè)客戶,節(jié)點之間存在的連線若為實線則表示企業(yè)之間存在擔保關系;節(jié)點之間存在的連線為虛線則表示企業(yè)之間存在資金往來,在圖中分別表示為關聯1 和關聯2。如圖中A 與C 之間有連線且為實線,因此說明A 企業(yè)為C 客戶的貸款擔?;蛘逤 企業(yè)為A 企業(yè)的貸款擔保;A 與B 之間有連線且為虛線,因此說明A 企業(yè)貸款客戶與B 企業(yè)貸款客戶之間存在一定的資金往來。并且,若與一個企業(yè)存在擔保關聯或資金往來關系的企業(yè)越多,則代表該企業(yè)的節(jié)點越大。因此,通過網絡圖譜可挖掘出企業(yè)在整個信貸網絡之中的關系特征以及地位。
圖1 企業(yè)之間的網絡關系圖
一是刻畫企業(yè)網絡結構以及風險特征。復雜網絡能夠較為完整地刻畫企業(yè)擔保圈結構、資金往來關系、派系特征等,通過模型算法將授信企業(yè)劃分成團,進行團伙性分析,根據圖論上的屬性,如團的密集程度和某些路徑的關鍵程度、圖直徑等角度來估計風險。二是彌補有限的內外部數據缺陷,弱化數據真實性影響等問題。一方面,利用復雜網絡可以提取企業(yè)行為特征,傳統(tǒng)企業(yè)行為特征大部分來源于外部數據但相對稀疏,復雜網絡可以一定程度地解決外部數據稀缺和有效性欠佳的問題,作為預測信貸風險的有力補充。另一方面,復雜網絡通過對涉及授信企業(yè)基本信息和授信特征的深入挖掘,計算出大量的有效關聯信息,可以提升風險預測精度。三是解決中小企業(yè)風險評價成本高、手段少的問題。通過復雜網絡建模挖掘,能較快地形成企業(yè)特征圖譜,并能識別涉及包括集團關系、擔保關系、資金關系等風險,除能應用于大企業(yè)風控外,同樣也可以適用于中小企業(yè)貸款的風險管理,如結合中小企業(yè)授信流程優(yōu)化,可大幅降低中小企業(yè)風險管理成本。同時隨著可利用數據的多元化,如加入企業(yè)供應鏈、外部投資等信息數據,銀行對企業(yè)風險的評價范圍和尺度也將更加全面和有效。
1.根據業(yè)務流程定位模型數據
文中復雜網絡建模主要針對對公授信客戶,數據主要包括兩大類,分別是某城商行內部數據和外部征信數據。數據直接描述企業(yè)在整個業(yè)務流程中的行為以及關聯關系的形成,并從內部業(yè)務系統(tǒng)獲取客戶業(yè)務、預警等相關數據,按主題進行匯總。
2.特征提取
基于處理好的數據,論文從以下維度提取特征:一是企業(yè)基本信息特征。定性地反映企業(yè)的基本情況、信用及還款能力等,如企業(yè)規(guī)模、所有權性質、所屬行業(yè)、是否集團客戶等。二是結構特征。描述客戶所在網絡關系中的結構特征,企業(yè)在圖中所處的位置對其他節(jié)點產生的影響,比如客戶在圖中的影響程度值。文中結構特征涉及擔保關聯、資金往來、集團關聯和派系關聯等。
我們利用Python 的Networkx 庫構建數據結構。每個網絡圖譜均可轉化為鄰接矩陣的形式,其中網絡圖譜的每條邊均可對應于矩陣中的一個元素。又由于文中網絡圖譜均為無向圖,因此所有邊均可對應為鄰接矩陣中的兩個對稱元素,且鄰接矩陣為對稱陣。
如圖2 所示,根據復雜網絡理論,關聯網絡可由鄰接矩陣A={aij}的形式唯一給出。其中aij=1 表示i企業(yè)與j企業(yè)之間存在關聯,值為0 則表示不存在關聯。假設i企業(yè)的特征為wj,則j企業(yè)受i企業(yè)行為傳染的結果為aij×wj。即若i企業(yè)與j企業(yè)之間存在關聯,則i企業(yè)對j企業(yè)的特征的貢獻為wj。因此,對于一個已知網絡關聯關系或鄰接矩陣,根據所有企業(yè)的特征向量W=[w1,w2,…,wj]可以計算出j企業(yè)受傳染的特征為∑n i aij×wj。根據高等代數知識,我們定義行為特征為經過傳染的特征,可具體用線性代數中的內積表示如下:ω=A×w=[ω1,ω2,…,ωn]。其中,j企業(yè)的特征為ωj=因此,依據企業(yè)關聯關系挖掘,可以分別輸出企業(yè)特征。進一步通過聚類分析即可挖掘特征與潛在風險標識之間的關聯。如果將所有特征通過降維得到唯一的風險特征因子,結合關聯圖譜可以得到如圖3 所示效果。
圖2 關聯網絡創(chuàng)建
圖3 關聯效果
由此,風險特征因子與潛在風險標識之間的關聯可以分割為兩個層面。一方面,風險特征越大的集團派系會具有越大的潛在風險標識發(fā)生概率。另一方面,同一集團或派系的企業(yè)具有相近的風險特征的同時,也會具有相似的潛在風險標識情況。這一結果將進一步表明網絡圖譜對于風險特征挖掘和風險預測的作用,同時給風險管理提供有力建議,即對集團或派系風險進行有針對性的提前預防和監(jiān)控。
3.模型效果
論文所涉及的圖譜呈現明顯的無標度特征,即網絡中少數稱之為Hub 點的節(jié)點擁有極其多的連接,而大多數節(jié)點只有很少量的連接。從復雜網絡理論來看,無標度網絡的整體結構對抗風險的穩(wěn)定性較強,而個別節(jié)點的風險傳染效應較為明顯。這一特征可由雙對數坐標軸下的度累積分布圖佐證。
根據復雜網絡理論,無標度網絡十分符合現實社會網絡結構的形式,其中重要節(jié)點產生變化,將對整個網絡產生巨大影響。而從風險管理角度來看,如果重要節(jié)點產生風險,將迅速傳染至其關聯節(jié)點。一方面,重要節(jié)點關聯企業(yè)較多,被高風險企業(yè)牽連的可能性較大;另一方面,重要節(jié)點由于其自身關聯企業(yè)較多,控制風險和解決短期流動性問題的能力較強??偟膩碚f,節(jié)點的重要性與其自身風險之間存在一定關聯關系。
由此,我們定義結構特征為節(jié)點重要性,可以用節(jié)點度來表征。節(jié)點度即與該節(jié)點關聯節(jié)點的個數,對于有向圖則分為入度和出度。節(jié)點度可以根據網絡結構計算得出,若網絡圖以節(jié)點度作為節(jié)點大小,則可以清晰看出重要節(jié)點的位置。
一是持續(xù)優(yōu)化圖譜展示功能。利用文章所述的復雜網絡技術可以將銀行掌握的企業(yè)信息結構化,銀行可以把企業(yè)基本情況、授信情況、內部數據和外部信息等多維度信息整合到一張圖譜中,并可結合內部數據整合和外部數據引入,持續(xù)優(yōu)化圖譜展示功能,從而不斷提升信貸風險識別和防控能力。二是加強圖譜在信貸“三查”中的應用。結合圖譜展示的風險狀況,客戶經理可根據風險揭示信息開展針對性的現場核查,審查審批人員可判斷企業(yè)是否存在關聯關系風險、擔保圈風險、供應鏈風險、貸款被挪用等風險,并可根據潛在風險狀況采取針對性的授信方案。
銀行可進一步搜集企業(yè)風險數據并進行挖掘處理,通過關聯業(yè)務分析和數據可視化建設,探索并實踐大數據分析方法。對海量客戶信息開展多維度挖掘,并根據業(yè)務風險排查結果總結經驗,梳理客戶風險圖譜多維度展現客戶基本信息、風險信息、銀行業(yè)務與往期風險處置信息,將客戶全方位風險要素可視化,提升風險信息挖掘處理和關聯業(yè)務分析能力。將風險客戶的資產情況、社會關系、行為軌跡等信息橫向關聯、縱向發(fā)掘,可以支持風險信息的交叉分析驗證和風險評估,提升風險客戶評價的可靠性和準確率。內部風險信息在銀行各業(yè)務條線的自動調用與實時展現,可以豐富業(yè)務風險防控的預警模式與參考要素,為客戶風險分析與處置提供保障,為銀行業(yè)務穩(wěn)健安全發(fā)展提供支持。
對于很多中小型銀行,因業(yè)務規(guī)模及信息系統(tǒng)建設滯后等原因,不良授信的案例庫要么缺失、要么案例較少,尤其是對于結構化融資、投資基金等類信貸業(yè)務,不良案例庫更是少之又少。由于案例庫的缺少,目前風頭正勁的機器學習等新的風控技術難有用武之地,大數據風控技術、模型的效果難以得到充分的驗證,基本只能通過對傳統(tǒng)業(yè)務客戶的歷史違約情況進行分析,以此來評價風控模型效果。為此,中小銀行應持續(xù)構建不良授信案例庫,并通過模型校驗,持續(xù)完善本行的風控技術。
隨著國內“雙創(chuàng)”政策的推動和對人工智能產業(yè)的投資拉動,人工智能技術已廣泛運用于各行各業(yè),國內金融行業(yè)已經逐步開始應用人工智能技術,比如平安集團下設平安科技人工智能實驗室研發(fā)人工智能金融應用等。在授信決策方面,人工智能技術可以將不同來源的數據整合到一起,分析企業(yè)的信貸特征,將不同的企業(yè)進行分類。比如將已進入訴訟流程的出險客戶直接標記為“司法訴訟”,并提醒相關人員及時開展處置工作。通過提取企業(yè)或法人在網絡或社交媒體等領域的信息,比如觀測企業(yè)或其產品在搜索網站的搜索數量、在微博中被提及的次數或獲得的評價來判斷貸款企業(yè)綜合實力。在反欺詐方面,人工智能技術中的機器學習可以利用信貸企業(yè)的交易特征和正常貸款數據,學習什么是好的貸款,什么是壞的貸款,推測信貸業(yè)務風險點,提升銀行風險識別能力,推動銀行信貸評價體系向更科學的方向發(fā)展。