黃洲丹
【摘要】本文主要分析大量數(shù)據(jù)的機器學習方法以及金融服務領域內(nèi)的機器學習方法的應用,介紹機器學習的背景和機器學習方法的概述,對機器學習的使用領域進行探索,討論金融機構(gòu)內(nèi)的若干應用案例:信用風險模型,信用卡欺詐和洗錢檢測以及監(jiān)控金融機構(gòu)違反行為標準的行為。
【關(guān)鍵詞】機器學習 深度學習 信用風險與收益模型 信用卡欺詐 反洗錢
一、前言
機器學習是一個人工智能領域,它使用算法,允許計算機無需編程即可學習。機器學習有兩種形式:監(jiān)督和無監(jiān)督。在有監(jiān)督的機器學習中,建立統(tǒng)計模型以便基于特定輸入預測結(jié)果(例如,基于各種宏觀經(jīng)濟變量的輸入預測GDP增長);在無監(jiān)督的機器學習中,執(zhí)行數(shù)據(jù)分析以識別模式而不估計因變量。
機器學習很重要,因為它可以分析數(shù)據(jù)樣本,以便識別數(shù)據(jù)中的模式和關(guān)系,并可以進行樣本外預測,然后對模型進行數(shù)千或數(shù)百萬次分析,以便模型可以提高其預測能力。在這方面,機器學習與“大數(shù)據(jù)”革命密切相關(guān)。有監(jiān)督的機器學習還可以分析非參數(shù)和非線性關(guān)系,這些關(guān)系可以適合任何給定的模型并對依賴變量和自變量進行推斷。
機器學習主要應用于三大類統(tǒng)計問題:回歸,分類和聚類。回歸和分類都可以通過有監(jiān)督的機器學習來解決,而聚類則遵循無監(jiān)督的方法?;貧w問題可以預測定量的連續(xù)變量,包括通貨膨脹和GDP增長;分類問題對離散的因變量進行預測,例如過濾垃圾郵件和血液類型;聚類涉及觀察輸入變量而不包括因變量,例子包括反洗錢分析。
二、深度學習
深度學習方法遠離我們迄今為止討論的“經(jīng)典”模型方法,經(jīng)典模型專注于定義明確的結(jié)構(gòu)化數(shù)據(jù)集,而深度學習則通過在學習過程中應用多層算法并轉(zhuǎn)換原始數(shù)據(jù)來識別復雜模式,從根本上模仿人類大腦。每種算法都關(guān)注數(shù)據(jù)的特定特征(稱為表示),并且這些表示的分層允許模型包含各種輸入,包括低質(zhì)量或非結(jié)構(gòu)化數(shù)據(jù)。重要的是,這些層不是由工程師設計的,而是由模型從各種數(shù)據(jù)中學習的。
例如,深度學習已被用于面部識別和自然語言學習模型,模型已足夠復雜,不僅能夠?qū)τ懻撝黝}進行分類,還能夠?qū)λ嫒藛T的情緒進行分類。然而,深度學習模型非常復雜,通常需要數(shù)百萬或數(shù)億個數(shù)據(jù)集。
三、機器學習的應用
金融機構(gòu)處理他們需要分析的大量數(shù)據(jù),這需要復雜的分析工具。為響應新的法規(guī)和合規(guī)措施,在2007 - 2009金融危機之后,金融機構(gòu)需要報告更全面的資產(chǎn)負債表指標和業(yè)務模式細節(jié),進行壓力測試以及流動性測量,對資本和抵押品進行報告。
金融機構(gòu)還面臨著來自消費者應用程序,社交媒體供稿和各種系統(tǒng)元數(shù)據(jù)輸出的大量低質(zhì)量,非結(jié)構(gòu)化數(shù)據(jù)(稱為大數(shù)據(jù))。機構(gòu)能夠有效地分析這些大量數(shù)據(jù)變得越來越重要,包括使用傳統(tǒng)的機器學習技術(shù)以及更復雜的深度學習技術(shù)。金融機構(gòu)應使用傳統(tǒng)的機器學習技術(shù)來挖掘高質(zhì)量的結(jié)構(gòu)化監(jiān)管數(shù)據(jù),深度學習和神經(jīng)網(wǎng)絡應該用于低質(zhì)量,高頻率,“大數(shù)據(jù)”類型的源。
(一)信用風險與收益模型
金融機構(gòu)最近采用機器學習方法和傳統(tǒng)模式來提高他們預測金融風險的能力,他們逐漸擺脫了不那么復雜的傳統(tǒng)線性信用風險模型回歸。但是,機器學習模型往往不適合成功地納入金融機構(gòu)的持續(xù)風險監(jiān)控,機器學習模型可能過于復雜并且對過度擬合數(shù)據(jù)敏感。它們的(通常是極端的)復雜性使得難以應用管轄一致的數(shù)據(jù)定義,并且模型對于監(jiān)管目的而言過于復雜,包括基于巴塞爾內(nèi)部評級(IRB)方法的內(nèi)部模型也是如此,審計員很難了解他們。盡管存在缺點,但機器學習模型可以成功地用于優(yōu)化具有監(jiān)管功能的現(xiàn)有模型。例如,線性和較不復雜的非線性機器學習模型都可以應用于現(xiàn)有的監(jiān)管和收益預測模型。
(二)欺詐
銀行已成功將機器學習用于檢測信用卡欺詐,信用卡欺詐可以比其他風險領域更有用地結(jié)合機器學習,因為模型的培訓,回測和驗證需要大量的信用卡交易。模型還可以通過無監(jiān)督的學習方法(如聚類)成功地用于反洗錢或打擊資助恐怖主義活動,但難以僅使用歷史數(shù)據(jù)來訓練洗錢檢測算法以檢測欺詐活動。
(三)交易中行為和市場濫用的監(jiān)督
對交易者違規(guī)行為的監(jiān)控是另一個不斷增長的領域,其中機器學習越來越多地用于檢測流氓交易,內(nèi)幕交易和基準操縱活動。金融機構(gòu)發(fā)現(xiàn)這些違規(guī)行為的早期發(fā)現(xiàn)很重要,因為它們可能對機構(gòu)造成重大的財務和聲譽損害。
金融機構(gòu)成功應用機器學習所面臨的挑戰(zhàn)之一包括與開發(fā)人員共享過去違規(guī)信息的法律復雜性。此外,系統(tǒng)需要是可審計的,但由于機器學習模型旨在不斷從數(shù)據(jù)中學習,因此很難向合規(guī)官員解釋為什么某個行為會引發(fā)警報。作為對這些問題的補救,可以設計系統(tǒng)以將機器學習與人類決策相結(jié)合。通過將人類決策與機器學習相結(jié)合,系統(tǒng)數(shù)據(jù)可用于了解有關(guān)交易者的全面信息,并創(chuàng)建一個不太復雜且更適合審計和監(jiān)管目的的系統(tǒng)。
四、小結(jié)
如今,機器學習和人工智能是金融服務領域的重要課題。金融機構(gòu)正在尋求更強大的分析方法,以便管理和挖掘越來越多的監(jiān)管報告數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),用于合規(guī)和風險管理或為了與其他金融機構(gòu)和金融科技公司有效競爭。
機器學習方法具備分析大量數(shù)據(jù)的能力,同時提供深度的預測分析,可以提高金融機構(gòu)中風險管理和合規(guī)領域的分析能力。例如,檢測付費系統(tǒng)中復雜的非法交易模式以及更準確的信用風險建模。機器學習方法在金融服務領域的應用高度依賴于環(huán)境,金融機構(gòu)并不總是提供用于培訓或分析的高質(zhì)量數(shù)據(jù)。更重要的是,幾種方法的分析的預測能力可能以增加模型復雜性和缺乏解釋性洞察力為代價,這是需要改進的地方。
參考文獻:
[1] Van Liebergen, Bart,“Machine Learning:A Revolution in RiskManagement and Compliance" Institute of International Finance,April 2017.
[2]彼得·哈靈頓著.李銳,李鵬,曲亞東,王斌,譯.機器學習實戰(zhàn)[M].北京:人民郵電出版社,2013.
[3]賀建清.金融科技:發(fā)展,影響與監(jiān)管[J].金融發(fā)展研究,2017(06).