劉芳 齊菲菲 李祥霞
[摘? ? 要] 隨著大數(shù)據(jù)時代的到來,金融大數(shù)據(jù)應(yīng)用已成為行業(yè)熱點趨勢,使得面向金融的大數(shù)據(jù)技術(shù)吸引了越來越多的關(guān)注。從大量的金融數(shù)據(jù)中挖掘有價值的數(shù)據(jù)是非常重要的,與人工智能結(jié)合,由機器代替人去挖掘信息,可實現(xiàn)數(shù)據(jù)增值??蛻粜庞迷u估是金融的一個重要應(yīng)用,可根據(jù)訓(xùn)練樣本建立模型分析新用戶是否會違約,將客戶分成“信用客戶”和“違約客戶”。本文引入遷移學(xué)習(xí)和深度學(xué)習(xí),描繪了基本的流程,強調(diào)了機器學(xué)習(xí)用于客戶信用評估的優(yōu)勢。
[關(guān)鍵詞] 人工智能;金融大數(shù)據(jù);客戶信用評估;遷移學(xué)習(xí);深度學(xué)習(xí)
1? ? ? 引? ? 言
近年來,中國經(jīng)濟走向新常態(tài),預(yù)計2017-2022年,中國金融行業(yè)大數(shù)據(jù)應(yīng)用市場規(guī)模年均復(fù)合增長率為55.21%,到2022年,達到497億元。隨著大數(shù)據(jù)時代的到來,金融大數(shù)據(jù)應(yīng)用已經(jīng)成為行業(yè)熱點,已經(jīng)廣泛應(yīng)用在精準(zhǔn)營銷、智能風(fēng)險評估、交易欺詐識別等領(lǐng)域,帶來了潛在的、巨大的社會效益和經(jīng)濟效益。國家開始重視金融大數(shù)據(jù),國務(wù)院發(fā)布《十三五國家科技創(chuàng)新規(guī)劃》,規(guī)劃中明確提出促進科技金融產(chǎn)品和服務(wù)創(chuàng)新、建設(shè)國家科技金融創(chuàng)新中心等。國務(wù)院頒布的《推進普惠金融發(fā)展規(guī)劃(2016-2020年)》中更是直接提到“鼓勵金融機構(gòu)運用大數(shù)據(jù)、云計算等新興信息技術(shù),打造互聯(lián)網(wǎng)金融服務(wù)平臺”。黨的十九大報告明確提出,要推動“互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合”。國家、高校和企業(yè)開始重視金融大數(shù)據(jù),面向金融的大數(shù)據(jù)技術(shù)吸引了越來越多的關(guān)注。將從大量的金融數(shù)據(jù)中挖掘有價值的數(shù)據(jù)與人工智能相結(jié)合,由機器代替人去挖掘信息,可實現(xiàn)數(shù)據(jù)的增值。
人工智能在金融領(lǐng)域中有很多應(yīng)用,如信用評估。信用評估是銀行業(yè)務(wù)經(jīng)營中非常重要的一個環(huán)節(jié)。信用風(fēng)險是借款人無愿望或者無力支付其所借貸的款項而產(chǎn)生的風(fēng)險。因此,需要有一個合適的方法對該風(fēng)險進行定性、定量,進而有效識別風(fēng)險,追求利益最大化。但是傳統(tǒng)方法更多的是基于人為的經(jīng)驗信息進行判斷,如通過信用評分卡。伴隨著金融大數(shù)據(jù)時代的到來,人為判斷不足以應(yīng)付快速產(chǎn)生的金融數(shù)據(jù),因此需要引入人工智能技術(shù),利用機器學(xué)習(xí)來處理金融大數(shù)據(jù),以有效地進行信用評估。
人工智能越來越引起社會各界的關(guān)注。未來以金融大數(shù)據(jù)為背景,推動發(fā)展人工智能在信用評估方面的應(yīng)用,將會給行業(yè)發(fā)展帶來不可限量的增長。
在評估的過程中,有訓(xùn)練集和測試集。根據(jù)訓(xùn)練樣本建立模型分析新用戶是否會違約,分成“信用客戶” 和“違約客戶”。在訓(xùn)練階段,常常面臨的一個問題是兩類客戶比例分布不均衡,即“好客戶”占多數(shù),而“壞客戶”只占少數(shù)。在這種類別不均衡的情況下,找到一個好的方法建立模型,很好地預(yù)測新客戶是非常重要的。
在此背景下,本文根據(jù)我國金融的發(fā)展,引入機器學(xué)習(xí)中的遷移學(xué)習(xí)(Transfer Learning,TL)[1]和深度學(xué)習(xí)(Deep Learning,DL)[2]。遷移學(xué)習(xí)技術(shù)是利用以前所學(xué)的先驗知識和技巧應(yīng)用于新任務(wù)的學(xué)習(xí)。換句話說,遷移學(xué)習(xí)可以借助源領(lǐng)域中的知識來幫助目標(biāo)域的學(xué)習(xí)。目前遷移學(xué)習(xí)已經(jīng)應(yīng)用于文本、圖片、情感、視頻等領(lǐng)域,并取得了一定的成果。筆者期望利用遷移學(xué)習(xí)技術(shù)來幫助金融大數(shù)據(jù)的學(xué)習(xí),通過遷移其他領(lǐng)域的客戶信息來建立客戶信用評估模型,進而解決少數(shù)類樣本稀疏帶來的類別不平衡問題。深度學(xué)習(xí)是人工智能浪潮的巨大推動力之一。在金融服務(wù)中深度學(xué)習(xí)通過在大數(shù)據(jù)中尋找規(guī)律,減少了人工介入和人為干涉,預(yù)測客戶信用評估的結(jié)果。一般是通過分層特征提取并通過激活函數(shù)尋找關(guān)聯(lián)關(guān)系,解決金融大數(shù)據(jù)。最終將模型應(yīng)用于銀行等金融大數(shù)據(jù)分析中。
2? ? ? 相關(guān)工作
針對金融領(lǐng)域中的信用評估問題對人工智能技術(shù)提出的新挑戰(zhàn),本文將描述人工智能技術(shù)在金融大數(shù)據(jù)中的應(yīng)用,并基于遷移學(xué)習(xí)、深度學(xué)習(xí)將此模型應(yīng)用于客戶信用評估。
2.1? ?遷移學(xué)習(xí)
從心理學(xué)和人類智能的角度來看,人類具有利用以前學(xué)過的知識幫助新內(nèi)容學(xué)習(xí)的能力。比如:一個人騎自行車技術(shù)很好,那么他在學(xué)騎摩托車過程中就會非常容易;若是一個人對彈鋼琴比較熟悉,那么她會輕松的學(xué)會彈古箏。在機器視覺領(lǐng)域中,遷移學(xué)習(xí)的思想源于 1995 年 NIPS-95 的專題研討會。會上開展了關(guān)于“學(xué)會學(xué)習(xí)(Learning to Learn)”的討論。從 1995 年開始,關(guān)于遷移學(xué)習(xí)的研究已經(jīng)引起了眾多關(guān)注,并有多個不同名稱:學(xué)會學(xué)習(xí)、知識轉(zhuǎn)移、終身學(xué)習(xí)、多任務(wù)學(xué)習(xí)、歸納轉(zhuǎn)移、知識整合等[3]。
在 2005 年,美國國防高級研究計劃局(DARPA)的信息處理技術(shù)辦公室(IPTO)對遷移學(xué)習(xí)進行了定義:遷移學(xué)習(xí)技術(shù)能夠遷移以前學(xué)到的知識和技能,并將這部分應(yīng)用于目標(biāo)域中的新任務(wù)學(xué)習(xí)。其中,遷移學(xué)習(xí)的目的是從一個或多個源任務(wù)中提取知識,并遷移這部分知識應(yīng)用于目標(biāo)域中的任務(wù)學(xué)習(xí)。在這一年,NIPS 國際會議上給出了一個關(guān)于遷移學(xué)習(xí)的比較有代表性的定義:遷移學(xué)習(xí)目的是在不同但相似的領(lǐng)域、任務(wù)和分布之間進行知識的遷移。具體的描述如下:
定義(遷移學(xué)習(xí))[1]:給定源域和學(xué)習(xí)任務(wù),遷移學(xué)習(xí)旨在利用和中學(xué)習(xí)到的知識,并遷移這部分知識來幫助目標(biāo)域中預(yù)測函數(shù)的學(xué)習(xí)。
圖1展示了傳統(tǒng)的機器學(xué)習(xí)與遷移學(xué)習(xí)的學(xué)習(xí)過程之間的不同之處。從圖1可以看出,前者的目標(biāo)是對每個任務(wù)進行學(xué)習(xí),然而后者的目標(biāo)是利用少量的有標(biāo)簽訓(xùn)練數(shù)據(jù),通過遷移源領(lǐng)域中的任務(wù)知識幫助目標(biāo)任務(wù)的學(xué)習(xí)。
2.2? ?深度學(xué)習(xí)
深度學(xué)習(xí)的概念最先有這個想法的是G.E. Hinton等人[4]在2006年提出,主要就是將樣本數(shù)據(jù)通過一定的訓(xùn)練方法得到多層網(wǎng)絡(luò)結(jié)構(gòu)的機器學(xué)習(xí)過程。最初提出的依據(jù)是模擬人類大腦結(jié)構(gòu),通過對大腦吸收的信號進行處理,然后給出數(shù)據(jù)解釋。以圖像數(shù)據(jù)為例,靈長類的視覺系統(tǒng)中對這類信號的處理順序依次為:首先是檢測邊緣、紋理等簡單的初始形狀特征,然后再逐步形成更復(fù)雜的視覺形狀。同樣地,深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示、屬性類別或特征,給出數(shù)據(jù)的分層特征表示。
深度學(xué)習(xí)從數(shù)據(jù)中自動學(xué)習(xí)特征,從而代替人工設(shè)計特征。把原始數(shù)據(jù)通過一些簡單的但是非線性的模型,逐層變化提取特征,進而變成為更高層次的,更加抽象的表達,且深層的結(jié)構(gòu)使其具有很強的表達能力和學(xué)習(xí)能力。
深度學(xué)習(xí)有著廣泛的應(yīng)用,例如:圖像分類、語音識別、物品檢測和內(nèi)容描述。目前已經(jīng)提出很多深度學(xué)習(xí)的方法,有卷積網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、超網(wǎng)絡(luò)等,
3? ? ? “人工智能+金融大數(shù)據(jù)”客戶信用評估流程
利用遷移學(xué)習(xí)和深度學(xué)習(xí)進行客戶信用評估,詳細的流程如下所述。
3.1? ?遷移學(xué)習(xí)+客戶信用評估
客戶信用評估是非常重要的一項,目前機構(gòu)只采用自有的信息進行客戶信用評估,忽略了其他領(lǐng)域帶來的額外信息。比如,如某客戶可能在工商銀行借貸,同時也在建設(shè)銀行借貸,本文認(rèn)為如果某客戶在工商銀行是“信用客戶”,那么在建設(shè)銀行很大程度上也是“信用客戶”,否則為“違約客戶”。通過遷移其他領(lǐng)域的信息,可以更好地幫助評估客戶,有效預(yù)防風(fēng)險。
如圖2中所示,在利用遷移學(xué)習(xí)進行客戶信用評估中,遷移其他領(lǐng)域的客戶信息幫助目標(biāo)域?qū)W習(xí)。與傳統(tǒng)的客戶信用評估學(xué)習(xí)不同,學(xué)習(xí)器只能利用當(dāng)前目標(biāo)域的客戶信息進行學(xué)習(xí)預(yù)測,沒有額外的信息。因而該問題轉(zhuǎn)變?yōu)檫w移其他領(lǐng)域的客戶信息幫助目標(biāo)域客戶信用評估。同時,由于不同領(lǐng)域的特征分布不一致,學(xué)習(xí)器還應(yīng)解決領(lǐng)域特征分布不一致的問題。下面詳細描述利用遷移學(xué)習(xí)評估客戶信用的過程。
(1)考慮客戶來自不同業(yè)務(wù)的遷移知識信用評估。在客戶進行金融業(yè)務(wù)中,客戶可能會辦理不同的業(yè)務(wù),比如在某銀行辦理貸款業(yè)務(wù)、基金投資、股票投資等銀行業(yè)務(wù)。如果某客戶在辦理其他業(yè)務(wù)擁有很好的信用時,本文認(rèn)為在信用還貸上很可能歸類為“信用客戶”,否則為“違約客戶”。因此,需要考慮客戶在進行不同業(yè)務(wù)辦理時,遷移客戶信息進行建立信用評估模型的問題。這個過程需要研究:①如果客戶信用評估選擇了考慮客戶業(yè)務(wù)信息,那評估應(yīng)該選擇一項銀行業(yè)務(wù)信息還是多項業(yè)務(wù)信息?如果選擇了一項業(yè)務(wù)信息,則如何遷移有效的客戶業(yè)務(wù)信息幫助目標(biāo)客戶信用評估?②如果選擇了多項業(yè)務(wù)協(xié)同幫助目標(biāo)客戶信用評估,則應(yīng)如何建立合理的數(shù)學(xué)模型,實現(xiàn)知識的協(xié)同有效遷移?
(2)考慮客戶來自不同銀行的遷移知識信用評估。在客戶進行業(yè)務(wù)辦理存在中,客戶可能會的過程在不同的銀行辦理業(yè)務(wù)信息,如某客戶可能在工商銀行借貸,同時也在建設(shè)銀行借貸。本文認(rèn)為如果某客戶在工商銀行是“信用客戶”,那么在建設(shè)銀行很大程度上也是“違約客戶”。因此,需要考慮不同銀行客戶信息進行客戶信用評估問題:①如果客戶信用評估選擇了考慮銀行信息,那評估應(yīng)該選擇一家銀行還是多家銀行?如果選擇了一家銀行,則如何遷移該銀行客戶信息幫助目標(biāo)客戶信用評估?②如果選擇了多家銀行共同幫助客戶信用評估,則應(yīng)如何建立合理的數(shù)學(xué)模型進而有效預(yù)測“信用客戶”和“違約客戶”。
(3)領(lǐng)域特征分布不一致對于目標(biāo)域的學(xué)習(xí)有著重要的影響。為了進一步提高客戶信用評估的預(yù)測率,學(xué)習(xí)器還要解決領(lǐng)域分布不一致的問題。領(lǐng)域知識的遷移最有利于目標(biāo)域客戶信息的評估,考慮利用領(lǐng)域自適應(yīng)(Domain Adaptation)來解決這個問題。領(lǐng)域自適應(yīng)將不同領(lǐng)域(如兩個不同的數(shù)據(jù)集)的數(shù)據(jù)特征映射到同一個特征空間,這樣可利用其他領(lǐng)域數(shù)據(jù)來增強目標(biāo)領(lǐng)域訓(xùn)練,最大化地減小領(lǐng)域間的分布差異,有效解決領(lǐng)域間數(shù)據(jù)分布的變化。根據(jù)領(lǐng)域自適應(yīng)研究解決遷移知識領(lǐng)域特征分布不一致方法,嘗試建立基于遷移學(xué)習(xí)的客戶信用評估模型,提高預(yù)測率。
在基于遷移學(xué)習(xí)的客戶信用評估中,闡述了遷移哪部分知識用于遷移,以及遷移過程中需要解決的問題。
3.2? ?深度學(xué)習(xí)+客戶信用評估
利用深度學(xué)習(xí)技術(shù)來進行客戶信用評估是一種趨勢,深度學(xué)習(xí)可以學(xué)習(xí)更高層的特征用于預(yù)測風(fēng)險。尤其金融大數(shù)據(jù)時代的到來,傳統(tǒng)方法已經(jīng)不能滿足金融數(shù)據(jù)的需求。深度學(xué)習(xí)可以有效處理大數(shù)據(jù),挖掘潛在數(shù)據(jù)價值,有效完成評估。
利用深度學(xué)習(xí),建立如圖3所示的客戶信用評估整體模型框架,整個模型可以分為三部分:
(1)客戶信用數(shù)據(jù)的獲取。一方面,客戶信用數(shù)據(jù)可以利用標(biāo)準(zhǔn)信用數(shù)據(jù)集。另一方面,也可以從各大銀行獲取有效客戶信用數(shù)據(jù)進行客戶預(yù)測。
(2)客戶信用數(shù)據(jù)的特征提取。如圖3所示,客戶信用數(shù)據(jù)采用One-hot進行編碼。輸入數(shù)據(jù)包括兩部分,一個是靜態(tài)數(shù)據(jù),如描述用戶的基本屬性的性別、職業(yè)等;另一個為動態(tài)數(shù)據(jù),主要包括用戶的銀行流水記錄、信用卡賬單記錄。經(jīng)過數(shù)據(jù)編碼后,得到客戶信用數(shù)據(jù)的特征表示。
(3)深度學(xué)習(xí)框架下,高級特征的學(xué)習(xí)及客戶的預(yù)測率。如圖3所示,數(shù)據(jù)經(jīng)過編碼后輸入到神經(jīng)網(wǎng)絡(luò)中,通過分層學(xué)習(xí)到特征表示,進而建立合理的模型,得到 “信用客戶”與“違約客戶”的預(yù)測率。
DNN(Deep Neural Network)神經(jīng)網(wǎng)絡(luò)模型又叫全連接神經(jīng)網(wǎng)絡(luò),是基本的深度學(xué)習(xí)框架。DNN模型表達能力強,能夠?qū)W習(xí)出高階非線性特征,具有特征交叉能力的特點。
本文將One-hot類型的特征輸入到DNN進行客戶信用評估預(yù)測,如圖3所示。DNN方法不斷發(fā)展,其基本架構(gòu)模型不斷改變。比如Wide and deep 模型是Tensor Flow在 2016 年 6 月左右發(fā)布的一類用于分類和回歸的模型[5]。Wide and deep 模型的核心思想是結(jié)合線性模型的記憶能力(memorization)和 DNN 模型的泛化能力(generalization)。Wide 端對應(yīng)的是線性模型,輸入特征可以是連續(xù)特征,也可以是稀疏的離散特征,離散特征之間進行交叉后可以構(gòu)成更高維的離散特征。線性模型訓(xùn)練中通過 L1 正則化,能夠很快收斂到有效的特征組合中。Deep 端對應(yīng)的是 DNN 模型,每個特征對應(yīng)一個低維的實數(shù)向量,稱之為特征的 embedding。DNN 模型通過反向傳播調(diào)整隱藏層的權(quán)重,并且更新特征的 embedding。Wide and deep 整個模型的輸出是線性模型輸出與 DNN 模型輸出的疊加,如圖4所示。
DeepFM模型[6]的提出,包含兩部分:神經(jīng)網(wǎng)絡(luò)部分與因子分解機部分,分別負責(zé)低階特征的提取和高階特征的提取。這兩部分共享同樣的輸入,如圖5所示。
通過DNN模型的改進模型,本文也將學(xué)習(xí)到的One-hot類型的特征輸入Wide and deep 模型和DeepFM模型,通過交叉組合可以得到dense特征,dense特征進一步再通過神經(jīng)網(wǎng)絡(luò)模型,得到最后的預(yù)測。
4? ? ? 結(jié)? ? 語
本文詳細介紹了“人工智能+金融大數(shù)據(jù)”客戶信用評估總體框架和基本思路??蛻粜庞迷u估是金融機構(gòu)中一項重要的組成部分,人工智能技術(shù)的引入,為解決客戶評估問題提供了一個有效的路徑。其價值在于快速高效地完成客戶評估,為金融機構(gòu)有效識別違約客戶群。
為更好地提升“人工智能+金融大數(shù)據(jù)”客戶信用評估的效率和效果,需要做好:①擴展數(shù)據(jù)。用于訓(xùn)練集和測試集的客戶數(shù)據(jù),合理的數(shù)據(jù)可以更好地檢驗?zāi)P?,有效地完成預(yù)測;②完善模型。引入人工智能技術(shù),不斷完善基于遷移學(xué)習(xí)和深度學(xué)習(xí)的客戶信用評估模型,以便適應(yīng)時代變化、個人信息變化和政策變化。
主要參考文獻
[1]Pan S J, Yang Q. A Survey on Transfer Learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10):1345-1359.
[2]Minar M R , Naher J . Recent Advances in Deep Learning: An Overview[J/OL].ResearchGate,2018.
[3]Henri J,Dillon K. Learning to learn[J]. Australian Library Journal, 1992,41(2):103-117.
[4]Hinton G, Osindero S, Teh Y-W. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006,18(7):1527-1554.
[5]Cheng H T,Koc L,Harmsen J,et al.Wide & Deep Learning for Recommender Systems[J/OL]. ResearchGate,2016.
[6]Lian J , Zhou X , Zhang F , et al. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems[J/OL]. ResearchGate,2018.