[摘要]本文在闡述大數(shù)據(jù)時(shí)代銀行內(nèi)部審計(jì)數(shù)據(jù)分析方法發(fā)展趨勢的基礎(chǔ)上,分析了統(tǒng)計(jì)與可視化分析技術(shù)應(yīng)用于內(nèi)部審計(jì)工作的獨(dú)特優(yōu)勢,并通過展示真實(shí)性審計(jì)、合規(guī)性審計(jì)、效率性審計(jì)及經(jīng)濟(jì)性審計(jì)方面的典型應(yīng)用案例,詮釋了該技術(shù)應(yīng)用于銀行內(nèi)部審計(jì)的實(shí)施方向和廣闊空間。
[關(guān)鍵詞]大數(shù)據(jù) 統(tǒng)計(jì)分析 可視化分析 商業(yè)銀行 內(nèi)部審計(jì)
一、銀行內(nèi)部審計(jì)數(shù)據(jù)分析方法的發(fā)展趨勢
21世紀(jì)初,基于數(shù)據(jù)庫管理的結(jié)構(gòu)化數(shù)據(jù)查詢技術(shù)開始應(yīng)用到銀行內(nèi)部審計(jì)工作中,幫助內(nèi)部審計(jì)人員定向篩查異常交易,快速鎖定可疑對象,并逐漸成為主流的審計(jì)數(shù)據(jù)分析方法。但如今處于數(shù)據(jù)爆炸的時(shí)代,銀行業(yè)的數(shù)據(jù)更具有數(shù)量大、種類多、變化快的特征,傳統(tǒng)的數(shù)據(jù)存儲、處理以及分析技術(shù)已捉襟見肘。內(nèi)部審計(jì)要在大數(shù)據(jù)時(shí)代有效履行風(fēng)險(xiǎn)控制第三道防線的職能,需緊跟大數(shù)據(jù)技術(shù)的發(fā)展步伐,堅(jiān)定地走“科技化審計(jì)”之路。銀行內(nèi)部審計(jì)數(shù)據(jù)分析方法的未來發(fā)展將呈現(xiàn)如下趨勢。
(一)全量整體性分析
利用傳統(tǒng)的數(shù)據(jù)庫技術(shù)對海量數(shù)據(jù)進(jìn)行查詢分析,需耗用大量的計(jì)算機(jī)軟硬件資源,且運(yùn)行速度難以保證。因此,審計(jì)人員往往按照時(shí)間、歸屬單位等維度對數(shù)據(jù)進(jìn)行分段查詢,或者按照一定特征抽取部分樣本數(shù)據(jù)進(jìn)行分析,再推斷總體狀況。大數(shù)據(jù)技術(shù)采用集群存儲、分布式運(yùn)算,可以高效識別、歸類和查詢數(shù)據(jù),實(shí)現(xiàn)了對海量數(shù)據(jù)的高速檢索,從而為審計(jì)工作開展全量數(shù)據(jù)分析消除了技術(shù)壁壘。
(二)全程穿透式分析
在傳統(tǒng)模式下,數(shù)據(jù)存儲及處理成本較高,銀行內(nèi)部審計(jì)往往只存儲和處理核心業(yè)務(wù)的關(guān)鍵數(shù)據(jù),而且存儲期限較短,因此,以此為基礎(chǔ)的數(shù)據(jù)分析相對片面。而大數(shù)據(jù)平臺可以長期滾存全量數(shù)據(jù),這一升級使得審計(jì)人員可以針對跨業(yè)務(wù)條線、跨機(jī)構(gòu)、跨產(chǎn)品的數(shù)據(jù)進(jìn)行穿透式分析,也可以進(jìn)行較長時(shí)段內(nèi)的趨勢分析,從而更加完整、準(zhǔn)確、客觀地評價(jià)相關(guān)機(jī)構(gòu)或條線的整體狀況,并及時(shí)揭示潛在風(fēng)險(xiǎn)。
(三)多元化綜合分析
由于技術(shù)的限制,傳統(tǒng)的數(shù)據(jù)查詢分析對象基本局限在結(jié)構(gòu)化數(shù)據(jù),審計(jì)人員在面對同樣具有價(jià)值的文本、圖片、聲音及影像等大量非結(jié)構(gòu)化數(shù)據(jù)時(shí),往往束手無策,或需要通過人工分析處理,不僅效率低下,而且分析結(jié)果也不盡如人意。而大數(shù)據(jù)技術(shù)與自然語言處理、圖像分析、語音分析等技術(shù)的結(jié)合應(yīng)用,即可化繁為簡,審計(jì)人員以此為基礎(chǔ)開展多元化的數(shù)據(jù)分析,可得出更豐富的分析結(jié)論。
二、銀行內(nèi)部審計(jì)應(yīng)用統(tǒng)計(jì)與可視化分析技術(shù)的優(yōu)勢
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量大、增速快的特點(diǎn)為審計(jì)數(shù)據(jù)分析工作的開展帶來了機(jī)遇,但如何在龐大多樣的數(shù)據(jù)中快速、準(zhǔn)確、高效地發(fā)現(xiàn)數(shù)據(jù)異常,如何以種種異常為線索,透過現(xiàn)象看本質(zhì)、發(fā)現(xiàn)深層次的問題,成為審計(jì)數(shù)據(jù)分析工作不得不面對的挑戰(zhàn)。近年來,國內(nèi)外審計(jì)業(yè)界嘗試應(yīng)用統(tǒng)計(jì)及可視化分析技術(shù),為審計(jì)人員開展數(shù)據(jù)分析工作帶來了嶄新的思路。該技術(shù)的應(yīng)用優(yōu)勢主要體現(xiàn)在如下方面。
(一)借力統(tǒng)計(jì)分析,快速識別異常數(shù)據(jù),深入挖掘?qū)徲?jì)線索
與傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)查詢相比,統(tǒng)計(jì)數(shù)據(jù)挖掘分析一般不預(yù)設(shè)主題,主要是根據(jù)現(xiàn)有數(shù)據(jù),進(jìn)行基于各種算法的運(yùn)算,快速發(fā)現(xiàn)數(shù)據(jù)中的離群值,實(shí)現(xiàn)高級別的數(shù)據(jù)分析需求,從而發(fā)揮估計(jì)、相關(guān)性分組、預(yù)測等作用。比較典型的算法包括用于聚類的 Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的 NaiveBayes等。因此,審計(jì)人員進(jìn)行數(shù)據(jù)分析時(shí),不再局限于基于個(gè)人經(jīng)驗(yàn)設(shè)定的異常篩查思路、腳本、模型以及異常值范圍,而是通過應(yīng)用聚類分析、趨勢分析、回歸分析等經(jīng)過科學(xué)論證的統(tǒng)計(jì)分析方法,快速找出數(shù)據(jù)的分布特征,完整掌握數(shù)據(jù)的發(fā)展變化趨勢,準(zhǔn)確找出數(shù)據(jù)間的相互影響因素,避免分析結(jié)果的片面性。
(二)依托可視化分析,直觀呈現(xiàn)數(shù)據(jù)特征,敏銳洞悉業(yè)務(wù)實(shí)質(zhì)
可視化分析是通過圖形分析處理復(fù)雜數(shù)據(jù)模型的一種方式,過去在一定程度上被簡單地理解為數(shù)據(jù)分析結(jié)果的展示工具,而忽略了其在數(shù)據(jù)分析過程中發(fā)揮的重要作用。借助人類大腦對圖像及文字接受處理能力的差異特性,可視化分析可通過圖形圖像模型,將大量枯燥的、以二維表格形式展現(xiàn)的數(shù)據(jù)以直觀、形象的方式展示給審計(jì)人員,有助于快速發(fā)現(xiàn)數(shù)據(jù)的特征、系統(tǒng)梳理數(shù)據(jù)的規(guī)律、深入挖掘數(shù)據(jù)背后隱藏的關(guān)系,從而有效地從海量數(shù)據(jù)中發(fā)現(xiàn)審計(jì)線索及其背后隱藏的問題。
三、統(tǒng)計(jì)與可視化分析技術(shù)在銀行內(nèi)部審計(jì)中的應(yīng)用
本課題組聚焦近年來國內(nèi)外銀行業(yè)關(guān)注的風(fēng)險(xiǎn)點(diǎn),從真實(shí)性、合規(guī)性、效率性及經(jīng)濟(jì)性等不同審計(jì)角度出發(fā),各挑選一個(gè)案例進(jìn)行模擬數(shù)據(jù)演練,運(yùn)用統(tǒng)計(jì)分析模型挖掘數(shù)據(jù)線索,并結(jié)合可視化技術(shù)梳理數(shù)據(jù)規(guī)律,具體分析思路及方法如下。
(一)真實(shí)性審計(jì)案例——企業(yè)授信客戶行業(yè)真實(shí)性核查
業(yè)務(wù)背景:為防范政策風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)及洗錢風(fēng)險(xiǎn),銀行會限制甚至停止對某些高風(fēng)險(xiǎn)行業(yè)的授信,因此,這些行業(yè)的企業(yè)可能瞞報(bào)或錯(cuò)報(bào)其真實(shí)行業(yè)以騙取銀行信貸資金或優(yōu)惠授信條件。銀行貸前調(diào)查和貸后審查主要依賴客戶提供的證明資料,客觀性不足,而現(xiàn)場驗(yàn)證成本高且易被借款人提前安排。
審計(jì)思路:審計(jì)人員可先建立各類企業(yè)與交易對手行業(yè)匹配規(guī)則,再將授信客戶的賬戶交易流水在大數(shù)據(jù)平臺上進(jìn)行統(tǒng)計(jì)分析,得出其偏離規(guī)則的情況,以指導(dǎo)現(xiàn)場審計(jì),最終確認(rèn)客戶實(shí)際經(jīng)營行業(yè)。這種方式較傳統(tǒng)的手工逐戶對碰以查找非相關(guān)交易對手,準(zhǔn)確性高、耗時(shí)短。
統(tǒng)計(jì)挖掘分析:采用關(guān)聯(lián)規(guī)則學(xué)習(xí)模型算法,在銀行已積累或外購的大數(shù)據(jù)中學(xué)習(xí),自動生成常規(guī)交易對手的行業(yè)相關(guān)性分析規(guī)則,具體步驟如下:
首先,定義授信客戶及其交易對手的行業(yè)集合。
其次,整合客戶的交易數(shù)據(jù),用于模型訓(xùn)練數(shù)據(jù)集,如表1所示,以輔助建立常規(guī)交易對手行業(yè)的關(guān)聯(lián)規(guī)則關(guān)系模型。
再次,建立各類客戶行業(yè)的關(guān)聯(lián)規(guī)則關(guān)系。如圖1所示,由于在訓(xùn)練集的數(shù)據(jù)中,大部分處于行業(yè)甲企業(yè)客戶的交易對手為行業(yè)A、B及C,因此,可以形成針對客戶行業(yè)甲的關(guān)聯(lián)規(guī)則。
然后,從數(shù)據(jù)中挖掘客戶行業(yè)與交易對手行業(yè)的相關(guān)性,即的關(guān)聯(lián)規(guī)則關(guān)系,及 。如果需要量化表達(dá)客戶行業(yè)與交易對手行業(yè)的相關(guān)性,則需計(jì)算每個(gè)關(guān)聯(lián)規(guī)則的置信度,即給定客戶行業(yè) X,其交易對手為 Y 公司所處行業(yè)公司的條件概率。在此過程中,可以通過調(diào)試置信度的值,控制模型訓(xùn)練輸出關(guān)聯(lián)規(guī)則關(guān)系的強(qiáng)度,如將置信度調(diào)為0.1,即模型訓(xùn)練輸出的關(guān)聯(lián)規(guī)則關(guān)系,是根據(jù)置信度每100名中至少有10名客戶擁有此類行業(yè)交易對手的關(guān)聯(lián)關(guān)系。
最后,將授信客戶的交易數(shù)據(jù)輸入已訓(xùn)練的模型,對碰已建立的關(guān)聯(lián)規(guī)則關(guān)系,輸出偏離模型交易對手行業(yè)規(guī)則的客戶,即客戶報(bào)稱行業(yè)與實(shí)際交易對手行業(yè)不相關(guān)的情況。如圖2所示,把報(bào)稱行業(yè)甲的授信客戶與已建立的關(guān)聯(lián)規(guī)則關(guān)系對碰,并計(jì)算各授信客戶實(shí)際交易對手行業(yè)與已建立的關(guān)聯(lián)規(guī)則關(guān)系的吻合度。此步驟可以設(shè)定吻合度的閾值,篩選出吻合度低于閾值的授信戶進(jìn)一步調(diào)查。除了計(jì)算客戶交易模式與其自身報(bào)稱行業(yè)的吻合度外,同時(shí)還可以計(jì)算客戶交易模式與其他行業(yè)的吻合度,如客戶的交易模式是否與高風(fēng)險(xiǎn)行業(yè)相似,從而篩查出疑似高風(fēng)險(xiǎn)客戶回避申報(bào)其真實(shí)行業(yè)的情況。
可視化分析:利用可視化工具,如圖3所示,以分層顏色顯示客戶報(bào)稱行業(yè)與規(guī)則吻合度的值,顏色越深代表吻合度越高。由于可視化工具具有高互動性,因此,審計(jì)人員可按實(shí)際需要調(diào)校數(shù)據(jù)顯示的維度與深度,即可視化結(jié)果輸出圖的數(shù)據(jù)列數(shù)目、運(yùn)行結(jié)果與其客戶報(bào)稱行業(yè)吻合度的閾值。
(二)合規(guī)性審計(jì)案例——洗錢客戶群多層交易分析
業(yè)務(wù)背景:不法分子洗錢手段越來越隱蔽,往往會利用銀行渠道建立多層次的復(fù)雜交易網(wǎng)絡(luò),以隱藏資金的真實(shí)流向。各國監(jiān)管部門對銀行反洗錢的要求日趨嚴(yán)格,因此銀行面臨著前所未有的監(jiān)管處罰風(fēng)險(xiǎn)。
審計(jì)思路:全量建立客戶之間的交易關(guān)系網(wǎng)絡(luò),整體展示具有多層次復(fù)雜交易關(guān)系的客戶群,并識別出資金循環(huán)交易等疑似具有洗錢交易特征的客戶。相較于從單層交易入手,逐筆追蹤資金流向的傳統(tǒng)核查方法顯得更加完整、高效。結(jié)合可視化工具,可圖形化展示交易流,使復(fù)雜的資金流向一目了然。
統(tǒng)計(jì)挖掘分析:利用有向網(wǎng)絡(luò)圖模型將客戶的所有單層關(guān)系編織成一個(gè)網(wǎng)絡(luò),再以不同算法提取交易網(wǎng)絡(luò)中的各種特征,如利用強(qiáng)連通子圖算法識別網(wǎng)絡(luò)中的循環(huán)群組,即客戶間資金呈現(xiàn)循環(huán)交易特征。如圖4所示,有向網(wǎng)絡(luò)圖是由節(jié)點(diǎn)與連接兩個(gè)節(jié)點(diǎn)并帶有方向性的邊組成,分別代表個(gè)體、兩個(gè)個(gè)體間的關(guān)系,而且邊可以加上權(quán)重,代表節(jié)點(diǎn)間關(guān)系的強(qiáng)度。
首先,定義客戶洗錢交易的有向網(wǎng)絡(luò)圖。在獲取全量客戶賬戶交易數(shù)據(jù)的基礎(chǔ)上,把各賬戶的單層交易關(guān)系導(dǎo)入有向網(wǎng)絡(luò)圖模型。之后,以每個(gè)客戶為一個(gè)節(jié)點(diǎn),客戶之間的金融交易為邊,邊的權(quán)重代表兩個(gè)客戶一段時(shí)間內(nèi)的累計(jì)交易金額。如圖5所示,將取款戶作為起點(diǎn),收款戶作為終點(diǎn),若取款戶曾將款項(xiàng)入賬到收款戶,則兩客戶之間由有向線段相連。
可視化分析:把所有單層關(guān)系編織成全量的交易關(guān)系網(wǎng)絡(luò)圖,可視化地顯示客戶間的交易關(guān)系,就可發(fā)現(xiàn)涉及多層復(fù)雜交易關(guān)系的客戶群。如圖6所示,形成多個(gè)客戶交易群組,審計(jì)人員可據(jù)此入手,針對不同的群組,分析客戶交易的頻率、金額、對手、模式等,并對比客戶職業(yè)、收入、交易習(xí)慣等,識別疑似洗錢交易特征的客戶群。
(三)效率性審計(jì)案例——分行授信審批效率評估
業(yè)務(wù)背景:在互聯(lián)網(wǎng)金融企業(yè)“秒批貸款”的強(qiáng)烈沖擊下,授信審批效率成為決定傳統(tǒng)商業(yè)銀行貸款業(yè)務(wù)拓展的關(guān)鍵之一。各大銀行均設(shè)法提高授信審批效率,但由于多種因素作用,同一家銀行內(nèi)不同分行的授信審批效率存在差異,因此,需要客觀評估各分行審批效率并有針對性地加以改進(jìn)。
審計(jì)思路:審計(jì)人員整體分析各分行整體平均授信審批時(shí)間及其年度間變化情況,再評估單個(gè)分行授信審批效率,并對偏離整體表現(xiàn)的分行進(jìn)行調(diào)查。
統(tǒng)計(jì)挖掘分析:應(yīng)用簡單線性回歸模型擬合上年與今年各分行授信項(xiàng)目的平均審批時(shí)間,并協(xié)助識別偏離整體表現(xiàn)的分行,再利用統(tǒng)計(jì)學(xué)的假設(shè)檢驗(yàn),推斷所有分行的整體變化,主要分析步驟如下:
首先,定義簡單線性回歸模型的自變量X(今年各分行授信項(xiàng)目平均處理天數(shù))與因變量Y(上年各分行授信項(xiàng)目平均處理天數(shù)),并假定兩者間的線性關(guān)系,其中為誤差項(xiàng),從而利用自變量來預(yù)測因變量。
其次,利用回歸模型擬合數(shù)據(jù),計(jì)算出最優(yōu)擬合直線并輸出擬合線圖,再進(jìn)行假設(shè)檢驗(yàn)。如圖7所示,每一數(shù)據(jù)點(diǎn)代表一家分行,大部分?jǐn)?shù)據(jù)點(diǎn)均置于擬合直線的附近。整體而言,擬合直線偏向橫軸一側(cè)(β= 1.49),因此分行的授信審批時(shí)間普遍較上年短。同時(shí),計(jì)算出95%置信區(qū)間 =(1.406752,1.581935),區(qū)間完全處于大于1的一側(cè),單邊對立假設(shè)成立,即整體而言,授信審批時(shí)間較上年改善,如圖8所示。
可視化分析:把回歸模型的擬合結(jié)果以圖表形式顯示出來,以可視化方式分析各分行審批效率的分布,從而識別偏離整體表現(xiàn)的機(jī)構(gòu)。圖7中,右下角三點(diǎn)、左上角兩點(diǎn)偏離擬合直線,分別表示今年有三家分行授信審批時(shí)間較上年顯著增加,有兩家分行較上年明顯縮短,均需關(guān)注其背后的原因。
(四)經(jīng)濟(jì)性審計(jì)案例——客戶差異化存款利率的分布分析
業(yè)務(wù)背景:在存款利率逐步市場化的背景下,銀行會為客戶量身定制存款利率分層產(chǎn)品,即存款利率隨客戶存款規(guī)模變化而調(diào)整。存款利率定價(jià)的準(zhǔn)確性直接影響銀行整體經(jīng)濟(jì)效益,因此需要科學(xué)評估。
審計(jì)思路:審計(jì)人員一方面綜合分析銀行整體利率風(fēng)險(xiǎn)狀況,另一方面快速識別異常利率組合,提示審計(jì)人員進(jìn)行針對性審計(jì)。
統(tǒng)計(jì)挖掘分析:審計(jì)人員應(yīng)用階梯函數(shù),圖形化展示客戶的利率分層方案,再用箱線圖分析其分布情況并識別異常利率組合,具體實(shí)施步驟如下:
首先,針對每一個(gè)賬戶存款利率分層方案 k,定義一個(gè)階梯函數(shù)如下:
并滿足以下條件:
(1) n≥0
(2) αi是正實(shí)數(shù),代表每個(gè)分層的利率
(3) Ai是左閉右開實(shí)數(shù)區(qū)間,代表每個(gè)分層的金額區(qū)間
(4) δAi是 Ai的指示函數(shù):
假設(shè)某一個(gè)賬戶的量身定制存款利率分層方案如下:
此方案的階梯函數(shù)為:
其次,應(yīng)用箱線圖分析利率分層方案的分布。箱線圖是通過顯示數(shù)據(jù)的最小值、下四分位數(shù)(Q1)、中位數(shù)(Q2)、上四分位數(shù)(Q3)及最大值,來展現(xiàn)數(shù)據(jù)的分布情況。一般最大值的定義為 Q3+1.5(Q3-Q1)/2,而最小值定義為Q1-1.5(Q3-Q1)/2,超過最大值與最小值區(qū)間的數(shù)據(jù)被定義為離群值。
可視化分析:將每一客戶分層利率所定義的階梯函數(shù)繪制到同一圖表上,有助于了解客戶利率分層的整體分布情況,識別利率異常的離群值。如圖9所示,在不同的分層金額下,多個(gè)客戶利率方案經(jīng)箱線圖識別為離群值,即該利率較整體分布高,需進(jìn)一步了解這些利率設(shè)定的合理性。
四、總結(jié)
身處大數(shù)據(jù)時(shí)代,面對海量的業(yè)務(wù)數(shù)據(jù),審計(jì)人員如果僅滿足于現(xiàn)場檢查、數(shù)據(jù)抽樣等傳統(tǒng)工作思路,將不可避免地被時(shí)代所淘汰。銀行內(nèi)部審計(jì)一方面需要建立“數(shù)據(jù)先行”理念,將統(tǒng)計(jì)與可視化分析等先進(jìn)技術(shù)靈活應(yīng)用于審計(jì)計(jì)劃制定、非現(xiàn)場數(shù)據(jù)分析、審計(jì)報(bào)告編寫等各個(gè)環(huán)節(jié);另一方面需要加強(qiáng)對復(fù)合型審計(jì)人才的培養(yǎng),審計(jì)人員在掌握金融業(yè)務(wù)知識的同時(shí),需要加強(qiáng)對數(shù)據(jù)分析方法的學(xué)習(xí),并將其靈活運(yùn)用于日常審計(jì)工作中。
[作者單位:中國銀行(香港)有限公司,郵政編碼:999077,電子郵箱:luming@bochk.com]
主要參考文獻(xiàn)
陳偉,居江寧.基于大數(shù)據(jù)可視化技術(shù)的審計(jì)線索特征挖掘方法研究[J].審計(jì)研究, 2018(1)
田程濤.大數(shù)據(jù)審計(jì)下統(tǒng)計(jì)分析方法研究[J].會計(jì)之友, 2018(1)
王群,朱小英,關(guān)郁波.大數(shù)據(jù)背景下審計(jì)工作面臨的挑戰(zhàn)和啟示[J].沈陽大學(xué)學(xué)報(bào)(社會科學(xué)版), 2016(2)