亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

XAI 在反洗錢領(lǐng)域的探索與應(yīng)用

2022-01-05 09:16:34中銀金科閆玲玲

華東科技 2021年12期

文/ 中銀金科閆玲玲

在大數(shù)據(jù)時(shí)代背景下，機(jī)器學(xué)習(xí)相關(guān)技術(shù)的應(yīng)用正全面滲透到金融行業(yè)當(dāng)中。與傳統(tǒng)的統(tǒng)計(jì)模型相比，機(jī)器學(xué)習(xí)模型具有更好的預(yù)測(cè)表現(xiàn)能力。然而，隨著需要處理的數(shù)據(jù)規(guī)模越來越大，機(jī)器學(xué)習(xí)模型的復(fù)雜度也逐漸增加，這就為模型的可解釋性帶來了巨大的挑戰(zhàn)，用戶只能看到模型結(jié)果，無法了解模型做出決策的原因和過程。反洗錢場(chǎng)景的特殊性在于它屬于強(qiáng)監(jiān)管領(lǐng)域，工作人員在進(jìn)行可疑交易上報(bào)時(shí)，必須給出詳細(xì)的判斷依據(jù)，從而確保決策的合理性，因此模型的可解釋性就顯得尤為重要。為了提高機(jī)器學(xué)習(xí)模型的可解釋性，建立用戶與決策模型之間的信任關(guān)系，更好地推動(dòng)復(fù)雜機(jī)器學(xué)習(xí)模型在反洗錢領(lǐng)域的應(yīng)用，中銀金科在可解釋機(jī)器學(xué)習(xí)（XAI）領(lǐng)域進(jìn)行了初步探索。

可解釋機(jī)器學(xué)習(xí)相關(guān)概念

可解釋性是指我們具有足夠的可以理解的信息來解決某個(gè)問題，可解釋的機(jī)器學(xué)習(xí)是指我們能夠?qū)斎氲奶卣骱妥罱K預(yù)測(cè)結(jié)果之間的關(guān)系進(jìn)行定性理解，即每個(gè)預(yù)測(cè)結(jié)果都具備相應(yīng)的決策依據(jù)。例如金融風(fēng)控領(lǐng)域的評(píng)分卡模型，通過客戶最終得分來決定他能否通過貸款申請(qǐng)，同時(shí)通過不同特征項(xiàng)的得分給出判決依據(jù)。

通常情況下，模型的復(fù)雜程度與模型的準(zhǔn)確度相關(guān)聯(lián)，同時(shí)又與模型的可解釋性相對(duì)立。線性回歸、邏輯回歸、決策樹等結(jié)構(gòu)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型往往具有較強(qiáng)的可解釋性，我們可以針對(duì)模型進(jìn)行歸因分析，從而確保決策的合理性，但學(xué)習(xí)能力有限，準(zhǔn)確率不高；而集成樹模型、神經(jīng)網(wǎng)絡(luò)等復(fù)雜的機(jī)器學(xué)習(xí)模型具有較強(qiáng)的擬合能力，在許多目標(biāo)任務(wù)中取得了良好的性能，但由于模型參數(shù)量大、工作機(jī)制復(fù)雜、透明性低，因而可解釋性又相對(duì)較差，無法說明從輸入到輸出之間的因果關(guān)系。決策者使用復(fù)雜的黑盒模型時(shí)，由于缺乏模型解釋信息，無法判別模型結(jié)果合理性，所以導(dǎo)致很難將模型應(yīng)用到某些實(shí)際工作場(chǎng)景，大大降低了模型的實(shí)際效益。

可解釋機(jī)器學(xué)習(xí)的分類

（1）根據(jù)可解釋性方法的作用階段，可以分為內(nèi)在可解釋性和事后可解釋性。

·內(nèi)在可解釋性：通過訓(xùn)練結(jié)構(gòu)簡(jiǎn)單、可解釋性好的模型或?qū)⒖山忉屝越Y(jié)合到具體的模型結(jié)構(gòu)中使模型本身具備可解釋能力。

·事后可解釋性：通過開發(fā)可解釋性技術(shù)解釋已訓(xùn)練好的機(jī)器學(xué)習(xí)模型。

（2）根據(jù)可解釋性方法的使用范圍，可以分為全局可解釋性和局部可解釋性。

·全局可解釋性：解釋整個(gè)模型的預(yù)測(cè)行為，旨在幫助人們理解復(fù)雜模型背后的整體邏輯以及內(nèi)部的工作機(jī)制。

·局部可解釋性：解釋單個(gè)實(shí)例的預(yù)測(cè)行為，旨在幫助人們理解機(jī)器學(xué)習(xí)模型針對(duì)每一個(gè)輸入樣本的決策過程和決策依據(jù)。

（3）根據(jù)可解釋方法與模型的匹配關(guān)系，可以分為特定于模型的解釋和模型無關(guān)的解釋。

· 特定于模型的解釋：意味著所使用的解釋方法必須應(yīng)用到特定的模型體系結(jié)構(gòu)中。

·模型無關(guān)的解釋：意味著解釋方法與所用模型無關(guān)聯(lián)。

可解釋機(jī)器學(xué)習(xí)的常用方法

為了提高機(jī)器學(xué)習(xí)模型的可解釋性，建立用戶與模型之間的信任關(guān)系，近年來機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)者對(duì)可解釋機(jī)器學(xué)習(xí)方法進(jìn)行了廣泛且深入的研究。其中，決策樹主要是根據(jù)特征分裂前后的信息增益變化來衡量特征的重要性；GLM（廣義線性模型）和GAM（廣義加性模型）都是對(duì)線性模型的擴(kuò)展，其核心是將模型結(jié)果看作特征效應(yīng)的總和；Rulefit 訓(xùn)練M 個(gè)基分類器，生成規(guī)則，然后對(duì)規(guī)則加懲罰項(xiàng)進(jìn)行線性擬合；ALE 根據(jù)條件分布得到在特定特征值時(shí)，預(yù)測(cè)值在局部范圍內(nèi)的平均變化；PDP 和ICE 考察某項(xiàng)特征的不同取值對(duì)模型輸出值的影響；Permutation Importance 隨機(jī)重排或打亂樣本中的特定一列數(shù)據(jù)，通過模型預(yù)測(cè)準(zhǔn)確率的變化來判斷特征的重要程度；LIME 的核心思想是對(duì)于每條樣本，尋找一個(gè)更容易解釋的代理模型解釋原模型。SHAP 的概念源于博弈論，核心思想是計(jì)算特征對(duì)模型輸出的邊際貢獻(xiàn)。

可解釋方法的選擇

由于不同的可解釋方法解決問題的角度和側(cè)重點(diǎn)不同，中銀金科結(jié)合具體的工程化實(shí)施過程，對(duì)可解釋方法的選擇過程進(jìn)行了系統(tǒng)的歸納和科學(xué)的總結(jié)，如下圖所示。

可解釋機(jī)器學(xué)習(xí)應(yīng)用案例

本次探索選取的應(yīng)用場(chǎng)景為反洗錢可疑交易監(jiān)測(cè)場(chǎng)景，我們的任務(wù)是通過構(gòu)建機(jī)器學(xué)習(xí)模型找出潛在的高洗錢評(píng)分案例，輔助一線工作人員進(jìn)行可疑案例篩查。該場(chǎng)景要求工作人員甄別可疑案例時(shí)，不僅要保持較高的準(zhǔn)確性，而且要給出每一個(gè)可疑案例的詳細(xì)判斷依據(jù)。傳統(tǒng)反洗錢領(lǐng)域建模的痛點(diǎn)在于，無法兼顧模型的準(zhǔn)確性和可解釋程度。如果選擇邏輯回歸等傳統(tǒng)機(jī)器學(xué)習(xí)算法，使用者可以很清晰地看到每個(gè)客戶的評(píng)分構(gòu)成，但精度往往不盡如人意；而如果選擇預(yù)測(cè)精度較高的“黑盒”模型，那么可解釋程度又會(huì)大大下降。

目前該領(lǐng)域的常規(guī)做法是，模型構(gòu)建完畢后，給出每個(gè)客戶的可疑度評(píng)分，再由甄別人員按照可疑度由高到低進(jìn)行人工復(fù)核，撰寫可疑案例報(bào)告。這種做法不僅造成了大量人力資源浪費(fèi)，而且沒有充分體現(xiàn)出機(jī)器學(xué)習(xí)模型的輔助作用?；谝陨贤袋c(diǎn)，中銀金科借助可解釋機(jī)器學(xué)習(xí)方法，在保證模型預(yù)測(cè)結(jié)果精度的基礎(chǔ)上，給出該結(jié)果的可讀性理由，使得用戶能夠理解模型做出決策的內(nèi)在邏輯，同時(shí)根據(jù)用戶需求自動(dòng)生成可疑客戶報(bào)送信息，真正做到利用機(jī)器學(xué)習(xí)模型減少一線人員的工作量，提升甄別工作效率。整體流程如下圖所示。

我們選取分別來自客戶的基礎(chǔ)信息、交易信息、補(bǔ)充信息以及可疑案例信息四個(gè)維度的數(shù)據(jù)，經(jīng)過數(shù)據(jù)清洗后整合成客戶寬表；根據(jù)數(shù)據(jù)探查情況，結(jié)合專家經(jīng)驗(yàn)構(gòu)建特征工程；綜合比較MLP、XGBoost、SVM 等多種機(jī)器學(xué)習(xí)算法，我們發(fā)現(xiàn)XGBoost 實(shí)現(xiàn)的梯度提升樹能夠提供最佳的準(zhǔn)確率；XGBoost的局限性在于它僅能給出全局的特征重要性度量，而反洗錢場(chǎng)景還需要我們對(duì)模型給出局部解釋，即針對(duì)每個(gè)客戶交易案例進(jìn)行可疑度歸因分析，給出可疑度評(píng)分的預(yù)測(cè)依據(jù)。

基于以上考慮，我們結(jié)合上一節(jié)總結(jié)的可解釋方法選擇策略，最終選取SHAP 方法對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行解釋。SHAP的優(yōu)點(diǎn)在于表達(dá)直觀且理論完備，兼顧了全局解釋、局部解釋和特征的交互作用。

主要解釋過程包括以下四個(gè)部分：

（1）構(gòu)建解釋器：輸入XGBoost 模型參數(shù)，構(gòu)建一個(gè)解釋器。SHAP 支持很多類型的解釋器，我們選取適用于樹模型的treeshap。

（2）局部解釋：選擇一條客戶數(shù)據(jù)輸入至解釋器，計(jì)算每個(gè)特征對(duì)該客戶評(píng)分結(jié)果的貢獻(xiàn)度，即shap value，shap value 的絕對(duì)值大小代表該特征對(duì)客戶評(píng)分結(jié)果的影響程度。

（3）全局解釋：取每個(gè)特征的shap value 絕對(duì)值的平均值作為該特征的重要性。

（4）生成可疑交易識(shí)別報(bào)告：根據(jù)業(yè)務(wù)經(jīng)驗(yàn)，將量化結(jié)果轉(zhuǎn)化成符合業(yè)務(wù)邏輯的語言，提升模型的可解釋程度，輸出可解釋報(bào)告，輔助業(yè)務(wù)人員完成案例描述，樣例如下。

可解釋機(jī)器學(xué)習(xí)是各行各業(yè)都在關(guān)注的重要課題，模型使用者對(duì)模型的安全感、信賴感、認(rèn)同度都取決于模型的透明性和可理解性，尤其是在智能金融領(lǐng)域，模型的可解釋性尤為迫切和重要。

本文列舉了可解釋機(jī)器學(xué)習(xí)的常用方法，對(duì)可解釋方法的選擇過程進(jìn)行了系統(tǒng)的歸納和科學(xué)的總結(jié)，形成了一套通用的方法論，同時(shí)針對(duì)反洗錢場(chǎng)景選擇合適的可解釋方法進(jìn)行案例應(yīng)用，旨在為復(fù)雜機(jī)器學(xué)習(xí)模型在強(qiáng)監(jiān)管領(lǐng)域的落地和應(yīng)用提供一些思路，同時(shí)為國(guó)內(nèi)使用人工智能技術(shù)的未來監(jiān)管政策打好知識(shí)和實(shí)踐基礎(chǔ)。

盡管可解釋機(jī)器學(xué)習(xí)的相關(guān)研究已經(jīng)取得了一系列可觀的成果，但該研究領(lǐng)域仍處于萌芽階段，仍然還有很多關(guān)鍵性的問題有待探索，例如缺乏一個(gè)用于評(píng)估解釋方法的科學(xué)評(píng)估體系。中銀金科也將繼續(xù)在可解釋機(jī)器學(xué)習(xí)領(lǐng)域進(jìn)行積極的探索，為推動(dòng)機(jī)器學(xué)習(xí)可解釋性研究的進(jìn)一步發(fā)展和應(yīng)用提供一定幫助。