戴蓓蓓
(淮北師范大學信息學院,安徽淮北 235000)
商業(yè)銀行在我國金融體系中的地位十分重要,是社會資本運轉的樞紐之一。信貸業(yè)務是商業(yè)銀行最重要的資產業(yè)務。當前,宏觀經濟與國內外形勢復雜多變,金融科技在傳統(tǒng)金融領域持續(xù)開疆破土,導致商業(yè)銀行利潤空間不斷受到擠壓。而積極開拓以消費信貸為代表的個人業(yè)務是商業(yè)銀行經營轉型的有效途徑。
受新冠肺炎疫情影響,我國經濟出現系統(tǒng)性停滯,企業(yè)及個人還款能力下降且信貸需求提升。因此,高效準確地識別信貸客戶資質,平衡信用評估中的信息不對稱,對降低銀行壞賬率、提升銀行風控水平顯得尤為重要。其中,識別個人客戶信貸風險的基礎是信用特征體系的構建。商業(yè)銀行傳統(tǒng)信用指標體系的構建主要是圍繞客戶財務數據,大數據背景下多源信息的覆蓋能更全面反映客戶信用特征。
相比歐美發(fā)達國家,我國針對個人信用指標體系的研究較晚。傳統(tǒng)指標體系的選取主要圍繞個人基本信息、財務數據、信貸歷史三個維度展開,從而評估客戶的償債能力及償債意愿。黃儒靖(2004)提出從資產存量、信用歷史、償債能力三方面構建個人信用評估體系。方先明(2005)使用聚類算法選取指標。這些指標數據之間關聯(lián)度高、耦合性強,但信用數據來源單一,只能片面反映個人信貸客戶的真實信用情況,且審慎的態(tài)度也可能拒絕信用良好但缺乏征信歷史的客戶。
隨著大數據技術在多場景下的成功應用,用戶消費、社交等行為數據被收集記錄,圍繞客戶的數據量和數據維度呈現爆炸式增長。學者們重點探究大數據基礎上的多來源數據,尤其是軟信息對用戶信用評估及風險預測精確度的提升。王正位(2020)對信貸人的消費行為數據在信用評估中的作用展開實證研究,發(fā)現消費行為數據能高效彌補傳統(tǒng)征信記錄不足的弊端,從而提升征信歷史信息不足人群的風險識別效果。黃益平(2021)利用大數據風控模型進行實證分析,結果表明,樣本量及信息時效性提高有助于提升預測違約準確率。
但大數據信用評估體系的構建也存在諸多問題,主要體現在海量數據采集及評估結果的可解釋性方面。相對于商業(yè)銀行傳統(tǒng)信用評估指標體系,大數據征信從多平臺、廣角度收集用戶不同場景下的支付、消費、瀏覽歷史等信息,缺乏信息隱私保護下統(tǒng)一的數據收集標準,數據量大但稀疏性強,且以非結構化數據為主。此外,大數據征信更依賴KVM、隨機森林等在內的機器學習模型,訓練后高度擬合數據的機器學習模型的黑盒機制缺乏對評估結果的有力解釋。
指標體系和所選模型決定信用評估效果。在商業(yè)銀行傳統(tǒng)信用評估體系中,個人指標特征的選取主要圍繞客戶基本靜態(tài)信息、財務指標和信貸歷史展開,特征維度有限。以UCI 平臺上可以公開獲取的“German Credit Dataset”真實信息為例,每條記錄描述借款人20個屬性信息,包括性別、年齡、從業(yè)年限、職位、信用卡等變量。數據維度主要覆蓋貸款人基本情況、財務信息等方面,以及個人償債能力強關聯(lián),能部分映射貸款人信用狀況。
大數據技術的飛速發(fā)展變革了數據處理模式,“互聯(lián)網+”影響著人們的消費及生活習慣。人們在互聯(lián)網上留下眾多行為痕跡,多維海量碎片化數據的積累可以刻畫用戶心理及行為特征,間接反映貸款人還款能力及還款意愿?;谏虡I(yè)銀行視角,大數據背景下數據來源也更為廣泛,主要包括以下三方面。(1)以資金為核心的基本業(yè)務(存、貸等)辦理中所獲取的數據。主要覆蓋銀行傳統(tǒng)信用評估中涉及的特征維度。(2)獲得以銀行卡為交易接口的外部線上、線下消費數據。一般情況下,第三方支付平臺并不將交易明細回傳商業(yè)銀行,但若采取合作方式接入二級商戶,仍可捕捉客戶消費類別及消費傾向等外部消費信息,比如“外賣”、“出行”等。(3)獲取外部合作數據。相比以阿里為代表的金融科技企業(yè),商業(yè)銀行在掌握用戶核心經濟數據上具有絕對優(yōu)勢,但在用戶網絡交易、社交行為數據獲取上乏善可陳?;趹?zhàn)略合作及資源交換,商業(yè)銀行和金融科技企業(yè)就各自核心資源展開數據合作,但受制于各自利益最大化的內在追求,盡管商業(yè)銀行從金融科技企業(yè)所獲信貸客戶軟信息有限,卻仍可通過與其他相關數據耦合捕獲客戶的部分瀏覽習慣、支付偏好等非傳統(tǒng)信貸信息。
大數據背景下,商業(yè)銀行個人信用評估數據來源廣泛、松散。本人將上述多來源數據按照以下原則構建商業(yè)銀行個人信用評價指標體系。(1)全面性?;诂F有研究,除與信用強關聯(lián)的財務指標外,客戶消費偏好、行為習慣、人脈信息等弱關聯(lián)數據能有效彌補信用缺失客戶的額外信息。(2)靈活性。指標選取應具有靈活調整的動態(tài)性,能滿足信貸申請人的多場景需求,適應銀行所處宏觀環(huán)境的變遷。且靈活性較強的信用特征體現較好的時效性。相比時間維度跨越較大、信息更新較慢的歷史信貸數據,新鮮動態(tài)的信用指標能更彈性地反映借款人的還款能力及還款意愿。(3)客觀性。構建指標體系以數據的可獲得性為基礎,且需符合國家政策法規(guī)。數據來源真實可靠、客觀公正,保證信用評估體系的完整和穩(wěn)定。
基于以上原則,以商業(yè)銀行傳統(tǒng)信用評估指標體系為基礎,綜合大科技信貸風控經驗,提出具有六個維度的一級信用評估特征類別,分別為用戶基本屬性、用戶財務能力、用戶信貸歷史、用戶交易特征、用戶行為偏好及用戶社交關系。(1)用戶基本靜態(tài)信息。包括信貸人年齡、性別、籍貫等靜態(tài)特征,主要來自用戶申請銀行存貸、理財等相關服務時提交的個人基本資料。(2)用戶財務能力。包括信貸人的收入、房產車輛信息、所持銀行金融資產等直接反應客戶還款能力的財務指標。(3)用戶信貸及抵押歷史。包括來自銀行內部及央行征信獲取的信貸人歷史信用數據,信用卡、房貸、車貸等負債還款、逾期等情況,可以較為直接地衡量信貸人的還款意愿。(4)用戶交易特征。包括銀行內部及外部的用戶消費行為數據。內部交易數據主要體現在購買商業(yè)銀行金融產品所記錄的信息,比如消費金額、時間、頻次等內容。外部交易數據主要來自第三方平臺的接口數據回傳,比如消費類別、金額、支付渠道等內容。(5)用戶行為偏好。包括線上線下消費傾向、商品瀏覽歷史、社交網站行為數據等內容,主要來自資源合作下金融科技公司提供的電商及社交媒體數據,也來自其他渠道獲取的用戶行為信息。(6)用戶社交關系。包括社交網站行為數據、人際關系網絡等內容,主要來自資源合作下金融科技公司提供的電商及社交媒體數據,也來自其他渠道獲取的用戶行為信息。
客戶的償債能力和償債意愿是商業(yè)銀行授信的依據,也是信用評估和風險預測的最終目的。上述六大特征維度從不同角度表達借款人的還款能力及意愿,但維度信息表達強弱不同。用戶財務能力、信貸歷史來自銀行大量原始業(yè)務數據,價值密度高,對用戶信用評估的表達力最強。用戶交易特征、用戶行為偏好、用戶社交關系主要來自用戶線上行為大數據搜集,價值密度低、直觀解釋性差,對借款人信用評估的數據表達力相對較弱。且每項特征維度下又包含多項二級或三級指標,數據維度間存在高耦合信息,過多的冗余增加了高維數據處理的難度和復雜度。
考慮指標可解釋力及后續(xù)信用評估模型選擇,在保證數據來源盡可能全面的基礎上,對特征指標進行維度壓縮。剔除六大特征維度下對信用評估數據表現較差的子類指標,實現對原始變量的降維處理,提升商業(yè)銀行個人信用評估準確性,降低數據處理負擔,緩解“維度災難”和模型過擬合問題。降維的本質是重構原始高維空間特征指標,將其映射至低維空間。依據數據結構、樣本信息等不同視角,對特征指標有不同降維處理方式。為提高數據處理和使用效率,結合大數據本身數據結構類型多樣化特性,針對不同結構的數據采取不同的降維處理方式。
大數據背景下商業(yè)銀行個人信用評估數據來源渠道廣泛,聚焦信貸人償債能力的傳統(tǒng)經濟指標一般以靜態(tài)數據為主,可以采用主成分分析法進行降維。主成分分析法屬于無監(jiān)督方法,是將原始特征進行線性組合,構建少數新變量,實現指標數據降維。新產生的主成分因子保留盡可能多的原始信息,并避免原始信息的重復。在主成分分析法中,新構建的主成分因子可以表達為:
其中,x,x,…,x為原始數據特征指標值,Z,Z,…,Z是原始變量線性組合得到的主成分因子,其通過正交變換將貢獻度低的變量舍棄掉,在指標降維的同時具有較好的信息解釋力。
除商業(yè)銀行等傳統(tǒng)靜態(tài)經濟指標,社交、電商等線上平臺記錄用戶動態(tài)使用痕跡,比如支付訂單、消費偏好、瀏覽黏性等,數據量龐大冗余,多為個人信用評估間接衡量數據,記錄真實可靠,樣本覆蓋面廣,信息價值密度低??紤]線上平臺大數據處理效能,可以采用隨機森林進行降維處理。隨機森林是基于Bagging 方法的集成學習模型,由多個彼此之間沒有關聯(lián)的決策樹構成。其在訓練決策樹模型時,通過抽取方式獲得多個樣本,在每個樣本集上分別訓練。在對特征指標進行降維時,統(tǒng)計每個特征的分裂屬性,找到能保留最大信息量的特征子集。
通過對商業(yè)銀行個人信用評估指標降維處理,壓縮各特征變量下所構建的二級或三級指標,剔除信息貢獻度低的數據,且盡可能多地保留原始數據所蘊含的價值。在保證個人信用評估準確性的同時,壓縮數據處理的時間復雜度,提升數據處理效能。
個人信用風險的有效預測和管控,對商業(yè)銀行降低違約風險具有舉足輕重的意義。傳統(tǒng)商業(yè)銀行個人信用風險評估指標體系主要以客戶財務指標為核心,數據源較為單一,對缺乏信用記錄的客戶并不友好。信用評估方法是動態(tài)發(fā)展的過程,隨著大數據和機器學習技術的成熟,包括社交數據在內的多維數據源能更加全面、精準、動態(tài)地衡量客戶資質和還款能力。本文在大數據背景下構建商業(yè)銀行個人信用評估六大指標維度,依據不同維度數據表征不同,采用主成分分析和機器學習的組合方法開展降維處理,能夠充分彌補傳統(tǒng)信用評估中數據來源單一、指標信息解釋弱的缺陷。