吳永飛 王彥博 楊 璇 徐 奇
習(xí)近平總書(shū)記在中央政治局第二十四次集體學(xué)習(xí)時(shí)強(qiáng)調(diào),“量子科技發(fā)展具有重大科學(xué)意義和戰(zhàn)略?xún)r(jià)值,是一項(xiàng)對(duì)傳統(tǒng)技術(shù)體系產(chǎn)生沖擊、進(jìn)行重構(gòu)的重大顛覆性技術(shù)創(chuàng)新,將引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革方向”。2021年3月發(fā)布的《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》提出,“加強(qiáng)關(guān)鍵數(shù)字技術(shù)創(chuàng)新應(yīng)用”“加快布局量子計(jì)算、量子通信、神經(jīng)芯片、DNA存儲(chǔ)等前沿技術(shù)”。作為量子科技中的重要領(lǐng)域,量子計(jì)算近年來(lái)迅猛發(fā)展,并已經(jīng)在我國(guó)銀行業(yè)取得應(yīng)用突破。當(dāng)前國(guó)內(nèi)已有商業(yè)銀行開(kāi)始在運(yùn)營(yíng)管理、資產(chǎn)管理等業(yè)務(wù)條線探索應(yīng)用量子計(jì)算技術(shù)。本文面向銀行智能風(fēng)控場(chǎng)景,運(yùn)用量子神經(jīng)網(wǎng)絡(luò)算法開(kāi)展小樣本學(xué)習(xí)技術(shù)創(chuàng)新應(yīng)用探索,在樣本量極小且“壞”樣本量極小的苛刻條件下,實(shí)現(xiàn)良好的智能建模效果,為商業(yè)銀行智能風(fēng)控在小樣本數(shù)據(jù)量下的創(chuàng)新發(fā)展提供有益借鑒,并為解決小樣本學(xué)習(xí)這一世界性難題提供全新思路。
自圖靈提出機(jī)器也可以像人類(lèi)一樣進(jìn)行學(xué)習(xí)和思考的想法以來(lái),國(guó)內(nèi)外研究人員便開(kāi)始致力于讓計(jì)算機(jī)從數(shù)據(jù)中學(xué)習(xí)規(guī)律并形成智能。隨著信息時(shí)代的高速發(fā)展,數(shù)據(jù)量爆發(fā)式增長(zhǎng),數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等研究方向應(yīng)運(yùn)而生。依托于大量樣本數(shù)據(jù),上述領(lǐng)域得到了高速發(fā)展。目前來(lái)看,當(dāng)樣本量充足時(shí),存在于數(shù)據(jù)中的規(guī)律更容易被歸納出來(lái),并且在測(cè)試數(shù)據(jù)上可以得到具有更小泛化誤差的知識(shí)模型。然而與人類(lèi)智能相比,機(jī)器智能仍存在諸多難題:人類(lèi)可以從極少數(shù)的案例中進(jìn)行學(xué)習(xí)和總結(jié),快速地建立具有泛化能力的認(rèn)知體系,即使只有少量數(shù)據(jù)樣本輸入,也能較為快速準(zhǔn)確地建立認(rèn)知,并且面對(duì)一定的噪聲影響,依然不會(huì)改變最終的判斷和預(yù)測(cè)結(jié)果;而機(jī)器在樣本量較小時(shí)往往難以訓(xùn)練出泛化性很強(qiáng)的模型。小樣本學(xué)習(xí)要實(shí)現(xiàn)的目標(biāo)正是在樣本量不充足的苛刻條件下,仍可以訓(xùn)練出具有良好泛化能力的模型。
針對(duì)小樣本學(xué)習(xí),國(guó)內(nèi)外學(xué)者展開(kāi)了一系列研究。2022年7月,在軸承故障診斷場(chǎng)景中,呂云開(kāi)、武兵、李聰明等人基于小樣本數(shù)據(jù)建模,輸入定義為一對(duì)帶有正負(fù)標(biāo)簽的原始振動(dòng)信號(hào)樣本,在樣本數(shù)量?jī)H為140個(gè)時(shí),采用基于SNN-LSTM的故障診斷方法實(shí)現(xiàn)了80.57%的模型準(zhǔn)確率。2022年1月,王登峰、郭 通過(guò)引入工業(yè)小樣本模型和灰色分析模型,探索出了基于優(yōu)化算法和灰色理論的小樣本學(xué)習(xí)方法。2022年5月,吳永飛等人在商業(yè)銀行100—500學(xué)習(xí)集樣本量的小樣本智能風(fēng)控場(chǎng)景中,采用創(chuàng)新的關(guān)聯(lián)規(guī)則挖掘分類(lèi)算法構(gòu)建模型,為小樣本學(xué)習(xí)提供了新思路。
本文參考質(zhì)量管理中的“人-機(jī)-料-法-環(huán)-測(cè)”六要素,提出了小樣本學(xué)習(xí)技術(shù)發(fā)展的“6M”框架方法論。一是基于專(zhuān)家經(jīng)驗(yàn)的小樣本學(xué)習(xí)(Man-based few-shot learning),即依托業(yè)務(wù)專(zhuān)家經(jīng)驗(yàn)形成規(guī)則來(lái)構(gòu)建模型,常見(jiàn)的技術(shù)方法包括規(guī)則模型、評(píng)分卡模型、層次分析法模型、社交網(wǎng)絡(luò)與知識(shí)圖譜模型等。二是基于數(shù)據(jù)的小樣本學(xué)習(xí)(Material-based fewshot learning),即通過(guò)增加數(shù)據(jù)量將樣本擴(kuò)充為大樣本,常見(jiàn)的技術(shù)方法有兩類(lèi):一類(lèi)是基于數(shù)據(jù)本身,通過(guò)樣本增強(qiáng)的方法(如SMOTE、GAN等)擴(kuò)充樣本量進(jìn)行建模;另一類(lèi)是在“數(shù)據(jù)可用不可見(jiàn)”的思想下,利用聯(lián)邦學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)擴(kuò)充樣本進(jìn)行建模。三是基于模型的小樣本學(xué)習(xí)(Model-based fewshot learning),即從模型的角度入手,利用某類(lèi)數(shù)據(jù)集學(xué)會(huì)一種學(xué)習(xí)的機(jī)制(如每個(gè)類(lèi)別分類(lèi)器參數(shù)的產(chǎn)生機(jī)制等),然后遷移到目標(biāo)小樣本數(shù)據(jù)集中,通過(guò)參數(shù)微調(diào)使得模型具有更強(qiáng)的泛化性,能夠快速進(jìn)行新類(lèi)的學(xué)習(xí),常見(jiàn)的技術(shù)方法包括遷移學(xué)習(xí)、元學(xué)習(xí)等。四是基于算法的小樣本學(xué)習(xí)(Methodbased few-shot learning),即聚焦算法創(chuàng)新,選擇合適的嵌入方法將數(shù)據(jù)的原始特征嵌入一個(gè)可分的空間,在新空間構(gòu)造特征后進(jìn)行建模,常見(jiàn)的技術(shù)方法包括支持向量機(jī)中的核函數(shù)法、分類(lèi)關(guān)聯(lián)規(guī)則挖掘中的頻繁項(xiàng)集法和利用網(wǎng)絡(luò)進(jìn)行特征嵌入法等。五是基于仿真環(huán)境的小樣本學(xué)習(xí)(Environment-based few-shot learning),即在極少樣本甚至無(wú)樣本的條件下,通過(guò)梳理業(yè)務(wù)傳導(dǎo)邏輯,構(gòu)建端到端的數(shù)字孿生仿真模擬環(huán)境,并通過(guò)強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行建模。六是基于計(jì)算機(jī)發(fā)展的小樣本學(xué)習(xí)(Machine-based few-shot learning),即基于量子科技發(fā)展將經(jīng)典計(jì)算機(jī)升級(jí)為量子計(jì)算機(jī),從而對(duì)小樣本數(shù)據(jù)集直接構(gòu)建量子算法模型。實(shí)證表明,該類(lèi)技術(shù)方法在解決小樣本學(xué)習(xí)問(wèn)題上較傳統(tǒng)機(jī)器學(xué)習(xí)算法有著明顯的優(yōu)勢(shì)。
小樣本學(xué)習(xí)不僅在學(xué)界被認(rèn)為是從現(xiàn)有的智能走向真正人工智能的重要一步,在業(yè)界應(yīng)用中同樣具有重要意義。以商業(yè)銀行智能風(fēng)控場(chǎng)景為例,當(dāng)前以邏輯回歸、決策樹(shù)、集成樹(shù)模型、Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)、因子分解機(jī)、高斯混合模型、孤立森林、圖卷神經(jīng)網(wǎng)絡(luò)、BERT等為代表的算法已得到廣泛應(yīng)用。然而,基于上述算法所構(gòu)建的智能模型往往需要對(duì)大規(guī)模數(shù)據(jù)樣本進(jìn)行學(xué)習(xí),而在商業(yè)銀行的實(shí)際業(yè)務(wù)場(chǎng)景中,往往存在很多小樣本學(xué)習(xí)建模需求。例如:當(dāng)銀行開(kāi)拓一個(gè)新的業(yè)務(wù)領(lǐng)域時(shí),總是需要一個(gè)逐漸積累業(yè)務(wù)數(shù)據(jù)樣本的過(guò)程,我們稱(chēng)為業(yè)務(wù)的“冷啟動(dòng)”階段;相比銀行零售業(yè)務(wù)板塊數(shù)以千萬(wàn)計(jì)或更大規(guī)模的樣本量,對(duì)公業(yè)務(wù)板塊的數(shù)據(jù)樣本量呈數(shù)量級(jí)銳減之勢(shì),若按照行業(yè)、區(qū)域、規(guī)模進(jìn)行細(xì)分后,相關(guān)業(yè)務(wù)的數(shù)據(jù)樣本量則變得十分有限;銀行智能風(fēng)控場(chǎng)景中還經(jīng)常遇到“好”“壞”標(biāo)簽的樣本數(shù)量很不平衡的問(wèn)題,特別是在開(kāi)拓新業(yè)務(wù)領(lǐng)域的初期,能夠積累到的“壞”樣本數(shù)量極少;從而導(dǎo)致傳統(tǒng)算法模型應(yīng)用效果受限。綜上,如何面向少量數(shù)據(jù)樣本,尤其是“壞”樣本數(shù)量極少的情況,來(lái)構(gòu)建相對(duì)準(zhǔn)確可靠的風(fēng)控模型,是商業(yè)銀行智能風(fēng)控領(lǐng)域亟待突破的重要難題。
本文參考發(fā)表于《銀行家》2022年5月刊《數(shù)字金融領(lǐng)域小樣本學(xué)習(xí)技術(shù)創(chuàng)新》一文中所介紹的銀行業(yè)務(wù)場(chǎng)景,并采用文中所描述的“加盟平臺(tái)型”數(shù)字金融業(yè)務(wù)數(shù)據(jù)。在“加盟平臺(tái)型”數(shù)字金融業(yè)務(wù)中,本文進(jìn)一步聚焦物流類(lèi)客群,從之前的數(shù)據(jù)集中進(jìn)一步提取了相關(guān)數(shù)據(jù)樣本,開(kāi)展量子智能風(fēng)控算法建模的數(shù)據(jù)準(zhǔn)備工作:選取近年來(lái)產(chǎn)品類(lèi)型為個(gè)人經(jīng)營(yíng)性貸款且貸款額度在50萬(wàn)元以下、還款期限為3—6個(gè)月、貸款利率在8%以下,同時(shí)借款人在該銀行的累計(jì)經(jīng)營(yíng)性貸款總金額不超過(guò)500萬(wàn)元、貸款逾期不超過(guò)2.5個(gè)月、借款人信用卡總授信金額大于50萬(wàn)元、正常貸記卡共享額度不超過(guò)40萬(wàn)元,且借款人的央行信用評(píng)分在675—935之間,提取相關(guān)樣本作為實(shí)證分析數(shù)據(jù)進(jìn)行建模研究。通過(guò)上述條件篩選,在這個(gè)更小規(guī)模的數(shù)據(jù)集中,定義逾期10天及以上為“壞”樣本,“壞”樣本濃度約占5%。經(jīng)過(guò)數(shù)據(jù)清洗、特征工程等預(yù)處理過(guò)程后,最終形成10個(gè)變量作為建模的解釋變量,其中包含歷史逾期類(lèi)變量2個(gè)、歷史額度類(lèi)變量4個(gè)、時(shí)間和查詢(xún)類(lèi)變量4個(gè)。
本文使用的量子神經(jīng)網(wǎng)絡(luò)是一種參數(shù)化的量子線路,其訓(xùn)練過(guò)程主要是利用量子線路不斷預(yù)測(cè)類(lèi)別標(biāo)簽并計(jì)算損失函數(shù),而后使用梯度下降、反向傳播的方法得到最小化損失函數(shù)下的最優(yōu)量子線路參數(shù)。這保證了量子線路能夠充分借鑒經(jīng)典神經(jīng)網(wǎng)絡(luò)的思想進(jìn)行參數(shù)優(yōu)化。本研究中的量子機(jī)器學(xué)習(xí)算法可以理解為應(yīng)用量子門(mén)線路將數(shù)據(jù)嵌入一個(gè)易于區(qū)分的量子態(tài)空間,以量子態(tài)的測(cè)量值作為樣本分類(lèi)的依據(jù),其中量子門(mén)線路包含12個(gè)旋轉(zhuǎn)門(mén)、3個(gè)受控門(mén)和1個(gè)測(cè)量門(mén),整個(gè)模型包含12個(gè)參數(shù)。
在基于量子神經(jīng)網(wǎng)絡(luò)算法構(gòu)建量子智能風(fēng)控模型的基礎(chǔ)上,為進(jìn)一步驗(yàn)證算法模型的有效性,本文基于相同數(shù)據(jù)集進(jìn)一步構(gòu)建了傳統(tǒng)的邏輯回歸模型、決策樹(shù)模型、隨機(jī)森林模型、XGboost模型、神經(jīng)網(wǎng)絡(luò)模型和分類(lèi)關(guān)聯(lián)規(guī)則挖掘模型,并將各類(lèi)模型結(jié)果進(jìn)行對(duì)比分析。本研究將數(shù)據(jù)集按照1∶1的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,并且針對(duì)訓(xùn)練集樣本量從60下降至10的11種情況(即60、55、50、45、40、35、30、25、20、15和10)進(jìn)行模型驗(yàn)證(見(jiàn)表1)。為了排除模型結(jié)果的偶然性,在每個(gè)驗(yàn)證樣本量下采取50次隨機(jī)抽樣,根據(jù)大數(shù)定律,多次抽樣數(shù)據(jù)形成的模型平均評(píng)估指標(biāo)(AUC、KS、Recall等)依概率收斂于最終結(jié)果(見(jiàn)圖1、圖2、圖3)。
表1 基于量子小樣本學(xué)習(xí)技術(shù)的銀行智能風(fēng)控模型評(píng)估指標(biāo)
圖1 各類(lèi)模型在不同樣本量下AUC變化曲線圖
圖2 各類(lèi)模型在不同樣本量下KS變化曲線圖
圖3 各類(lèi)模型在不同樣本量下Recall變化曲線圖
實(shí)證研究結(jié)果顯示,基于AUC、KS和Recall三個(gè)模型評(píng)估指標(biāo),在訓(xùn)練集樣本數(shù)量從60到10不斷下降的過(guò)程中(各組數(shù)據(jù)集以5個(gè)樣本遞減),量子神經(jīng)網(wǎng)絡(luò)算法模型的效果均優(yōu)于傳統(tǒng)的邏輯回歸模型、決策樹(shù)模型、隨機(jī)森林模型、XGboost模型、神經(jīng)網(wǎng)絡(luò)模型和分類(lèi)關(guān)聯(lián)規(guī)則挖掘模型。同時(shí),量子神經(jīng)網(wǎng)絡(luò)算法模型的評(píng)估效果在各組小樣本數(shù)據(jù)集下均保持較高的穩(wěn)定水平,且隨著樣本量的不斷下降,量子神經(jīng)網(wǎng)絡(luò)算法模型的表現(xiàn)效果較其他模型的優(yōu)勢(shì)越發(fā)凸顯。
面向本文所描述的業(yè)務(wù)場(chǎng)景,在模型訓(xùn)練集樣本數(shù)據(jù)量從60下降到10的各組小樣本學(xué)習(xí)數(shù)據(jù)條件下,量子神經(jīng)網(wǎng)絡(luò)算法模型的AUC指標(biāo)均達(dá)到0.7及以上,KS指標(biāo)均達(dá)到0.55以上,能夠滿(mǎn)足相關(guān)銀行對(duì)模型效果評(píng)估指標(biāo)的基本要求。研究結(jié)果初步驗(yàn)證了量子神經(jīng)網(wǎng)絡(luò)算法模型在面對(duì)小樣本數(shù)據(jù)條件時(shí)具有良好的智能風(fēng)險(xiǎn)識(shí)別效果,運(yùn)用量子機(jī)器學(xué)習(xí)技術(shù)構(gòu)建風(fēng)控模型可為商業(yè)銀行建立基于小樣本學(xué)習(xí)的智能風(fēng)控體系,對(duì)助力商業(yè)銀行全面提升智能風(fēng)控能力起到積極的推動(dòng)作用。
本文立足商業(yè)銀行業(yè)務(wù)實(shí)踐,面向智能風(fēng)控典型業(yè)務(wù)場(chǎng)景,創(chuàng)新運(yùn)用前沿的量子神經(jīng)網(wǎng)絡(luò)算法對(duì)小樣本學(xué)習(xí)建模問(wèn)題進(jìn)行研究。面向本文所描述的業(yè)務(wù)場(chǎng)景,實(shí)證分析結(jié)果顯示,在學(xué)習(xí)集樣本數(shù)據(jù)量從60下降到10的小樣本數(shù)據(jù)條件下,量子神經(jīng)網(wǎng)絡(luò)算法模型的AUC、KS和Recall三項(xiàng)模型評(píng)估指標(biāo)均較傳統(tǒng)機(jī)器學(xué)習(xí)模型有著顯著提升,為銀行金融機(jī)構(gòu)突破小樣本學(xué)習(xí)難題提供了全新思路。后續(xù)有必要進(jìn)一步探索其他量子人工智能算法在商業(yè)銀行各類(lèi)小樣本學(xué)習(xí)建模場(chǎng)景中的研究與應(yīng)用,以期為數(shù)字經(jīng)濟(jì)時(shí)代商業(yè)銀行數(shù)字化轉(zhuǎn)型、智能化發(fā)展以及量子金融科技創(chuàng)新發(fā)展提供技術(shù)支撐和借鑒思路。