亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

量子小樣本學(xué)習(xí)技術(shù)應(yīng)用—基于銀行智能風(fēng)控領(lǐng)域

2022-10-23 08:31:34吳永飛王彥博

銀行家 2022年10期

吳永飛王彥博楊璇徐奇

習(xí)近平總書記在中央政治局第二十四次集體學(xué)習(xí)時(shí)強(qiáng)調(diào)，“量子科技發(fā)展具有重大科學(xué)意義和戰(zhàn)略價(jià)值，是一項(xiàng)對傳統(tǒng)技術(shù)體系產(chǎn)生沖擊、進(jìn)行重構(gòu)的重大顛覆性技術(shù)創(chuàng)新，將引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革方向”。2021年3月發(fā)布的《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》提出，“加強(qiáng)關(guān)鍵數(shù)字技術(shù)創(chuàng)新應(yīng)用”“加快布局量子計(jì)算、量子通信、神經(jīng)芯片、DNA存儲等前沿技術(shù)”。作為量子科技中的重要領(lǐng)域，量子計(jì)算近年來迅猛發(fā)展，并已經(jīng)在我國銀行業(yè)取得應(yīng)用突破。當(dāng)前國內(nèi)已有商業(yè)銀行開始在運(yùn)營管理、資產(chǎn)管理等業(yè)務(wù)條線探索應(yīng)用量子計(jì)算技術(shù)。本文面向銀行智能風(fēng)控場景，運(yùn)用量子神經(jīng)網(wǎng)絡(luò)算法開展小樣本學(xué)習(xí)技術(shù)創(chuàng)新應(yīng)用探索，在樣本量極小且“壞”樣本量極小的苛刻條件下，實(shí)現(xiàn)良好的智能建模效果，為商業(yè)銀行智能風(fēng)控在小樣本數(shù)據(jù)量下的創(chuàng)新發(fā)展提供有益借鑒，并為解決小樣本學(xué)習(xí)這一世界性難題提供全新思路。

小樣本學(xué)習(xí)研究發(fā)展

自圖靈提出機(jī)器也可以像人類一樣進(jìn)行學(xué)習(xí)和思考的想法以來，國內(nèi)外研究人員便開始致力于讓計(jì)算機(jī)從數(shù)據(jù)中學(xué)習(xí)規(guī)律并形成智能。隨著信息時(shí)代的高速發(fā)展，數(shù)據(jù)量爆發(fā)式增長，數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等研究方向應(yīng)運(yùn)而生。依托于大量樣本數(shù)據(jù)，上述領(lǐng)域得到了高速發(fā)展。目前來看，當(dāng)樣本量充足時(shí)，存在于數(shù)據(jù)中的規(guī)律更容易被歸納出來，并且在測試數(shù)據(jù)上可以得到具有更小泛化誤差的知識模型。然而與人類智能相比，機(jī)器智能仍存在諸多難題：人類可以從極少數(shù)的案例中進(jìn)行學(xué)習(xí)和總結(jié)，快速地建立具有泛化能力的認(rèn)知體系，即使只有少量數(shù)據(jù)樣本輸入，也能較為快速準(zhǔn)確地建立認(rèn)知，并且面對一定的噪聲影響，依然不會改變最終的判斷和預(yù)測結(jié)果；而機(jī)器在樣本量較小時(shí)往往難以訓(xùn)練出泛化性很強(qiáng)的模型。小樣本學(xué)習(xí)要實(shí)現(xiàn)的目標(biāo)正是在樣本量不充足的苛刻條件下，仍可以訓(xùn)練出具有良好泛化能力的模型。

針對小樣本學(xué)習(xí)，國內(nèi)外學(xué)者展開了一系列研究。2022年7月，在軸承故障診斷場景中，呂云開、武兵、李聰明等人基于小樣本數(shù)據(jù)建模，輸入定義為一對帶有正負(fù)標(biāo)簽的原始振動信號樣本，在樣本數(shù)量僅為140個(gè)時(shí)，采用基于SNN-LSTM的故障診斷方法實(shí)現(xiàn)了80.57%的模型準(zhǔn)確率。2022年1月，王登峰、郭通過引入工業(yè)小樣本模型和灰色分析模型，探索出了基于優(yōu)化算法和灰色理論的小樣本學(xué)習(xí)方法。2022年5月，吳永飛等人在商業(yè)銀行100—500學(xué)習(xí)集樣本量的小樣本智能風(fēng)控場景中，采用創(chuàng)新的關(guān)聯(lián)規(guī)則挖掘分類算法構(gòu)建模型，為小樣本學(xué)習(xí)提供了新思路。

本文參考質(zhì)量管理中的“人-機(jī)-料-法-環(huán)-測”六要素，提出了小樣本學(xué)習(xí)技術(shù)發(fā)展的“6M”框架方法論。一是基于專家經(jīng)驗(yàn)的小樣本學(xué)習(xí)（Man-based few-shot learning），即依托業(yè)務(wù)專家經(jīng)驗(yàn)形成規(guī)則來構(gòu)建模型，常見的技術(shù)方法包括規(guī)則模型、評分卡模型、層次分析法模型、社交網(wǎng)絡(luò)與知識圖譜模型等。二是基于數(shù)據(jù)的小樣本學(xué)習(xí)（Material-based fewshot learning），即通過增加數(shù)據(jù)量將樣本擴(kuò)充為大樣本，常見的技術(shù)方法有兩類：一類是基于數(shù)據(jù)本身，通過樣本增強(qiáng)的方法（如SMOTE、GAN等）擴(kuò)充樣本量進(jìn)行建模；另一類是在“數(shù)據(jù)可用不可見”的思想下，利用聯(lián)邦學(xué)習(xí)技術(shù)來實(shí)現(xiàn)擴(kuò)充樣本進(jìn)行建模。三是基于模型的小樣本學(xué)習(xí)（Model-based fewshot learning），即從模型的角度入手，利用某類數(shù)據(jù)集學(xué)會一種學(xué)習(xí)的機(jī)制（如每個(gè)類別分類器參數(shù)的產(chǎn)生機(jī)制等），然后遷移到目標(biāo)小樣本數(shù)據(jù)集中，通過參數(shù)微調(diào)使得模型具有更強(qiáng)的泛化性，能夠快速進(jìn)行新類的學(xué)習(xí)，常見的技術(shù)方法包括遷移學(xué)習(xí)、元學(xué)習(xí)等。四是基于算法的小樣本學(xué)習(xí)（Methodbased few-shot learning），即聚焦算法創(chuàng)新，選擇合適的嵌入方法將數(shù)據(jù)的原始特征嵌入一個(gè)可分的空間，在新空間構(gòu)造特征后進(jìn)行建模，常見的技術(shù)方法包括支持向量機(jī)中的核函數(shù)法、分類關(guān)聯(lián)規(guī)則挖掘中的頻繁項(xiàng)集法和利用網(wǎng)絡(luò)進(jìn)行特征嵌入法等。五是基于仿真環(huán)境的小樣本學(xué)習(xí)（Environment-based few-shot learning），即在極少樣本甚至無樣本的條件下，通過梳理業(yè)務(wù)傳導(dǎo)邏輯，構(gòu)建端到端的數(shù)字孿生仿真模擬環(huán)境，并通過強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行建模。六是基于計(jì)算機(jī)發(fā)展的小樣本學(xué)習(xí)（Machine-based few-shot learning），即基于量子科技發(fā)展將經(jīng)典計(jì)算機(jī)升級為量子計(jì)算機(jī)，從而對小樣本數(shù)據(jù)集直接構(gòu)建量子算法模型。實(shí)證表明，該類技術(shù)方法在解決小樣本學(xué)習(xí)問題上較傳統(tǒng)機(jī)器學(xué)習(xí)算法有著明顯的優(yōu)勢。

小樣本學(xué)習(xí)不僅在學(xué)界被認(rèn)為是從現(xiàn)有的智能走向真正人工智能的重要一步，在業(yè)界應(yīng)用中同樣具有重要意義。以商業(yè)銀行智能風(fēng)控場景為例，當(dāng)前以邏輯回歸、決策樹、集成樹模型、Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)、因子分解機(jī)、高斯混合模型、孤立森林、圖卷神經(jīng)網(wǎng)絡(luò)、BERT等為代表的算法已得到廣泛應(yīng)用。然而，基于上述算法所構(gòu)建的智能模型往往需要對大規(guī)模數(shù)據(jù)樣本進(jìn)行學(xué)習(xí)，而在商業(yè)銀行的實(shí)際業(yè)務(wù)場景中，往往存在很多小樣本學(xué)習(xí)建模需求。例如：當(dāng)銀行開拓一個(gè)新的業(yè)務(wù)領(lǐng)域時(shí)，總是需要一個(gè)逐漸積累業(yè)務(wù)數(shù)據(jù)樣本的過程，我們稱為業(yè)務(wù)的“冷啟動”階段；相比銀行零售業(yè)務(wù)板塊數(shù)以千萬計(jì)或更大規(guī)模的樣本量，對公業(yè)務(wù)板塊的數(shù)據(jù)樣本量呈數(shù)量級銳減之勢，若按照行業(yè)、區(qū)域、規(guī)模進(jìn)行細(xì)分后，相關(guān)業(yè)務(wù)的數(shù)據(jù)樣本量則變得十分有限；銀行智能風(fēng)控場景中還經(jīng)常遇到“好”“壞”標(biāo)簽的樣本數(shù)量很不平衡的問題，特別是在開拓新業(yè)務(wù)領(lǐng)域的初期，能夠積累到的“壞”樣本數(shù)量極少；從而導(dǎo)致傳統(tǒng)算法模型應(yīng)用效果受限。綜上，如何面向少量數(shù)據(jù)樣本，尤其是“壞”樣本數(shù)量極少的情況，來構(gòu)建相對準(zhǔn)確可靠的風(fēng)控模型，是商業(yè)銀行智能風(fēng)控領(lǐng)域亟待突破的重要難題。

面向銀行智能風(fēng)控的量子小樣本學(xué)習(xí)

業(yè)務(wù)理解與數(shù)據(jù)準(zhǔn)備

本文參考發(fā)表于《銀行家》2022年5月刊《數(shù)字金融領(lǐng)域小樣本學(xué)習(xí)技術(shù)創(chuàng)新》一文中所介紹的銀行業(yè)務(wù)場景，并采用文中所描述的“加盟平臺型”數(shù)字金融業(yè)務(wù)數(shù)據(jù)。在“加盟平臺型”數(shù)字金融業(yè)務(wù)中，本文進(jìn)一步聚焦物流類客群，從之前的數(shù)據(jù)集中進(jìn)一步提取了相關(guān)數(shù)據(jù)樣本，開展量子智能風(fēng)控算法建模的數(shù)據(jù)準(zhǔn)備工作：選取近年來產(chǎn)品類型為個(gè)人經(jīng)營性貸款且貸款額度在50萬元以下、還款期限為3—6個(gè)月、貸款利率在8%以下，同時(shí)借款人在該銀行的累計(jì)經(jīng)營性貸款總金額不超過500萬元、貸款逾期不超過2.5個(gè)月、借款人信用卡總授信金額大于50萬元、正常貸記卡共享額度不超過40萬元，且借款人的央行信用評分在675—935之間，提取相關(guān)樣本作為實(shí)證分析數(shù)據(jù)進(jìn)行建模研究。通過上述條件篩選，在這個(gè)更小規(guī)模的數(shù)據(jù)集中，定義逾期10天及以上為“壞”樣本，“壞”樣本濃度約占5%。經(jīng)過數(shù)據(jù)清洗、特征工程等預(yù)處理過程后，最終形成10個(gè)變量作為建模的解釋變量，其中包含歷史逾期類變量2個(gè)、歷史額度類變量4個(gè)、時(shí)間和查詢類變量4個(gè)。

模型構(gòu)建與模型評估

本文使用的量子神經(jīng)網(wǎng)絡(luò)是一種參數(shù)化的量子線路，其訓(xùn)練過程主要是利用量子線路不斷預(yù)測類別標(biāo)簽并計(jì)算損失函數(shù)，而后使用梯度下降、反向傳播的方法得到最小化損失函數(shù)下的最優(yōu)量子線路參數(shù)。這保證了量子線路能夠充分借鑒經(jīng)典神經(jīng)網(wǎng)絡(luò)的思想進(jìn)行參數(shù)優(yōu)化。本研究中的量子機(jī)器學(xué)習(xí)算法可以理解為應(yīng)用量子門線路將數(shù)據(jù)嵌入一個(gè)易于區(qū)分的量子態(tài)空間，以量子態(tài)的測量值作為樣本分類的依據(jù)，其中量子門線路包含12個(gè)旋轉(zhuǎn)門、3個(gè)受控門和1個(gè)測量門，整個(gè)模型包含12個(gè)參數(shù)。

在基于量子神經(jīng)網(wǎng)絡(luò)算法構(gòu)建量子智能風(fēng)控模型的基礎(chǔ)上，為進(jìn)一步驗(yàn)證算法模型的有效性，本文基于相同數(shù)據(jù)集進(jìn)一步構(gòu)建了傳統(tǒng)的邏輯回歸模型、決策樹模型、隨機(jī)森林模型、XGboost模型、神經(jīng)網(wǎng)絡(luò)模型和分類關(guān)聯(lián)規(guī)則挖掘模型，并將各類模型結(jié)果進(jìn)行對比分析。本研究將數(shù)據(jù)集按照1∶1的比例隨機(jī)劃分為訓(xùn)練集和測試集，并且針對訓(xùn)練集樣本量從60下降至10的11種情況（即60、55、50、45、40、35、30、25、20、15和10）進(jìn)行模型驗(yàn)證（見表1）。為了排除模型結(jié)果的偶然性，在每個(gè)驗(yàn)證樣本量下采取50次隨機(jī)抽樣，根據(jù)大數(shù)定律，多次抽樣數(shù)據(jù)形成的模型平均評估指標(biāo)（AUC、KS、Recall等）依概率收斂于最終結(jié)果（見圖1、圖2、圖3）。

表1 基于量子小樣本學(xué)習(xí)技術(shù)的銀行智能風(fēng)控模型評估指標(biāo)

圖1 各類模型在不同樣本量下AUC變化曲線圖

圖2 各類模型在不同樣本量下KS變化曲線圖

圖3 各類模型在不同樣本量下Recall變化曲線圖

實(shí)證研究結(jié)果顯示，基于AUC、KS和Recall三個(gè)模型評估指標(biāo)，在訓(xùn)練集樣本數(shù)量從60到10不斷下降的過程中（各組數(shù)據(jù)集以5個(gè)樣本遞減），量子神經(jīng)網(wǎng)絡(luò)算法模型的效果均優(yōu)于傳統(tǒng)的邏輯回歸模型、決策樹模型、隨機(jī)森林模型、XGboost模型、神經(jīng)網(wǎng)絡(luò)模型和分類關(guān)聯(lián)規(guī)則挖掘模型。同時(shí)，量子神經(jīng)網(wǎng)絡(luò)算法模型的評估效果在各組小樣本數(shù)據(jù)集下均保持較高的穩(wěn)定水平，且隨著樣本量的不斷下降，量子神經(jīng)網(wǎng)絡(luò)算法模型的表現(xiàn)效果較其他模型的優(yōu)勢越發(fā)凸顯。

面向本文所描述的業(yè)務(wù)場景，在模型訓(xùn)練集樣本數(shù)據(jù)量從60下降到10的各組小樣本學(xué)習(xí)數(shù)據(jù)條件下，量子神經(jīng)網(wǎng)絡(luò)算法模型的AUC指標(biāo)均達(dá)到0.7及以上，KS指標(biāo)均達(dá)到0.55以上，能夠滿足相關(guān)銀行對模型效果評估指標(biāo)的基本要求。研究結(jié)果初步驗(yàn)證了量子神經(jīng)網(wǎng)絡(luò)算法模型在面對小樣本數(shù)據(jù)條件時(shí)具有良好的智能風(fēng)險(xiǎn)識別效果，運(yùn)用量子機(jī)器學(xué)習(xí)技術(shù)構(gòu)建風(fēng)控模型可為商業(yè)銀行建立基于小樣本學(xué)習(xí)的智能風(fēng)控體系，對助力商業(yè)銀行全面提升智能風(fēng)控能力起到積極的推動作用。

結(jié)語

本文立足商業(yè)銀行業(yè)務(wù)實(shí)踐，面向智能風(fēng)控典型業(yè)務(wù)場景，創(chuàng)新運(yùn)用前沿的量子神經(jīng)網(wǎng)絡(luò)算法對小樣本學(xué)習(xí)建模問題進(jìn)行研究。面向本文所描述的業(yè)務(wù)場景，實(shí)證分析結(jié)果顯示，在學(xué)習(xí)集樣本數(shù)據(jù)量從60下降到10的小樣本數(shù)據(jù)條件下，量子神經(jīng)網(wǎng)絡(luò)算法模型的AUC、KS和Recall三項(xiàng)模型評估指標(biāo)均較傳統(tǒng)機(jī)器學(xué)習(xí)模型有著顯著提升，為銀行金融機(jī)構(gòu)突破小樣本學(xué)習(xí)難題提供了全新思路。后續(xù)有必要進(jìn)一步探索其他量子人工智能算法在商業(yè)銀行各類小樣本學(xué)習(xí)建模場景中的研究與應(yīng)用，以期為數(shù)字經(jīng)濟(jì)時(shí)代商業(yè)銀行數(shù)字化轉(zhuǎn)型、智能化發(fā)展以及量子金融科技創(chuàng)新發(fā)展提供技術(shù)支撐和借鑒思路。