戴雨璇,張永杰,熊 熊,馮 緒,張 維
(天津大學(xué)管理與經(jīng)濟(jì)學(xué)部,天津 300072)
Facebook泄露5.33億用戶數(shù)據(jù)的事件引起了一時(shí)轟動(dòng)。2021年4月,據(jù)Appleinsider稱,F(xiàn)acebook官方正式作出了回應(yīng),稱其數(shù)據(jù)泄露并非黑客入侵系統(tǒng)所致,而是2019年Facebook同步聯(lián)系人工具中的漏洞被惡意破壞者利用所造成的。在人工智能時(shí)代背景下,人們的關(guān)注點(diǎn)逐漸由數(shù)據(jù)轉(zhuǎn)向數(shù)據(jù)隱私與數(shù)據(jù)安全,隨著人工智能應(yīng)用的智能化程度不斷提高,數(shù)據(jù)隱私風(fēng)險(xiǎn)程度會(huì)越高,但數(shù)據(jù)安全問題仍存在諸多漏洞,比如計(jì)算機(jī)的開放性特點(diǎn)使得存儲(chǔ)在計(jì)算機(jī)中的信息遭到泄漏,亦或是人為操作不當(dāng)、計(jì)算機(jī)軟件和硬件設(shè)施陳舊都會(huì)增加數(shù)據(jù)泄漏的風(fēng)險(xiǎn)。在國(guó)家提出“互聯(lián)網(wǎng)+”“大數(shù)據(jù)+”的計(jì)劃后,人們對(duì)于數(shù)據(jù)價(jià)值的重視度也隨之提高,但人們對(duì)于數(shù)據(jù)隱私范圍以及特征的界定沒有明確的標(biāo)準(zhǔn)。由于數(shù)字經(jīng)濟(jì)出現(xiàn)的時(shí)間較短,對(duì)于數(shù)據(jù)隱私保護(hù)與數(shù)據(jù)安全的解決辦法仍在探索之中,在面對(duì)這種不確定的情況時(shí),人們的態(tài)度也會(huì)愈加保守[1]。歐美國(guó)家是較早進(jìn)行數(shù)據(jù)隱私保護(hù)方面探索的,最早的研究框架是“知情—同意”機(jī)制,而這一機(jī)制在如今的大數(shù)據(jù)時(shí)代和人工智能背景下,受到了嚴(yán)峻沖擊與挑戰(zhàn)[2]。2016年,谷歌首次提出了聯(lián)邦學(xué)習(xí)的概念,聯(lián)邦學(xué)習(xí)被用于更新Gboard系統(tǒng)。在我國(guó),微眾銀行的AI團(tuán)隊(duì)開源了第一個(gè)工業(yè)級(jí)的聯(lián)邦學(xué)習(xí)框架FATE[3],用以解決數(shù)據(jù)泄露、數(shù)據(jù)孤島等問題。
在聯(lián)邦學(xué)習(xí)的發(fā)展過程中,聯(lián)邦學(xué)習(xí)與區(qū)塊鏈的結(jié)合取得了有效的研究進(jìn)展。將區(qū)塊鏈應(yīng)用到聯(lián)邦學(xué)習(xí)中,能夠同時(shí)存儲(chǔ)訓(xùn)練的最終模型和在訓(xùn)練過程中產(chǎn)生的迭代模型。Unal等提出了整合區(qū)塊鏈與聯(lián)邦學(xué)習(xí)的方案,引入?yún)^(qū)塊鏈的聯(lián)邦學(xué)習(xí)算法能夠有效減少外部攻擊,提升了聯(lián)邦學(xué)習(xí)的隱私保護(hù)能力[4]?;趨^(qū)塊鏈的聯(lián)邦學(xué)習(xí)的訓(xùn)練模型能夠得到更高的市場(chǎng)定價(jià),模型產(chǎn)生的價(jià)值能夠?yàn)槁?lián)邦學(xué)習(xí)用戶(參與方)帶來經(jīng)濟(jì)效益,從而吸引更多的用戶提供更高質(zhì)量的數(shù)據(jù)參與到聯(lián)邦學(xué)習(xí)訓(xùn)練中,得到高質(zhì)量聚合模型,這也將成為聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制建立的基礎(chǔ)。
聯(lián)邦學(xué)習(xí)在醫(yī)療領(lǐng)域中也得到了很好的應(yīng)用,醫(yī)療數(shù)據(jù)通過聯(lián)邦學(xué)習(xí)在不共享的前提下進(jìn)行模型的聯(lián)合訓(xùn)練,從而有效克服醫(yī)療數(shù)據(jù)不能共享的難題,提升醫(yī)療機(jī)構(gòu)的服務(wù)效率。Price等根據(jù)相關(guān)法律法規(guī)對(duì)患者隱私泄露問題進(jìn)行了剖析,并提出了相應(yīng)的解決方案[5]。近兩年在醫(yī)學(xué)領(lǐng)域,如Sheller等[6]以及Kaissis等[7]通過應(yīng)用驗(yàn)證證明了聯(lián)邦學(xué)習(xí)的有效性,也為聯(lián)邦學(xué)習(xí)的實(shí)踐應(yīng)用奠定了基礎(chǔ)。
1.聯(lián)邦學(xué)習(xí)的概念
聯(lián)邦學(xué)習(xí)的概念最早由谷歌提出,是一種新興的機(jī)器學(xué)習(xí)范式,是機(jī)器學(xué)習(xí)聯(lián)邦優(yōu)化的一種特殊形式。將分布于多方設(shè)備的數(shù)據(jù)集,在確保隱私的情況下進(jìn)行聯(lián)合建模,是一種跨多個(gè)設(shè)備訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法,以安全收斂和差分隱私相結(jié)合的方式來保證隱私安全。聯(lián)邦學(xué)習(xí)的目的是根據(jù)參與方收集的特征,協(xié)作地建立一個(gè)共享機(jī)器學(xué)習(xí)模型[8]。現(xiàn)有的入侵監(jiān)測(cè)模型是基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行展開的,很難不涉及用戶的隱私,聯(lián)邦學(xué)習(xí)的出現(xiàn)減少了傳統(tǒng)的中心化機(jī)器學(xué)習(xí)方法帶來的風(fēng)險(xiǎn)。傳統(tǒng)的機(jī)器學(xué)習(xí)多采用集中式的方法進(jìn)行模型訓(xùn)練,這就要求訓(xùn)練數(shù)據(jù)集需集中于同一服務(wù)器上。在聯(lián)邦學(xué)習(xí)的框架下,每個(gè)工作節(jié)點(diǎn)都是自身數(shù)據(jù)的唯一所有者和模型的培訓(xùn)參與者,各參與方可以共享梯度信息與模型參數(shù),不同設(shè)備的計(jì)算資源在中央服務(wù)器的協(xié)調(diào)下合作訓(xùn)練模型,訓(xùn)練數(shù)據(jù)保存在本地設(shè)備中,不與中央服務(wù)器共享,能夠提供更好的數(shù)據(jù)隱私保護(hù)。根據(jù)現(xiàn)有研究,構(gòu)建了聯(lián)邦學(xué)習(xí)的標(biāo)準(zhǔn)訓(xùn)練框架(見圖1)。
圖1 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)訓(xùn)練框架
聯(lián)邦學(xué)習(xí)與分布式機(jī)器學(xué)習(xí)有一定的相似之處,它是加密的分布式機(jī)器學(xué)習(xí)。在物理組成上,聯(lián)邦學(xué)習(xí)系統(tǒng)與分布式系統(tǒng)都是由中心服務(wù)器與多個(gè)分布式節(jié)點(diǎn)構(gòu)成的[9]。顧龍浩等在研究中指出,聯(lián)邦學(xué)習(xí)與傳統(tǒng)的分布式機(jī)器學(xué)習(xí)的區(qū)別在于是否需要共享原始數(shù)據(jù),聯(lián)邦學(xué)習(xí)是在不共享數(shù)據(jù)的前提下進(jìn)行的,只共享訓(xùn)練結(jié)果[10];在分布式機(jī)器學(xué)習(xí)的框架下,數(shù)據(jù)需要在多個(gè)計(jì)算元素之間進(jìn)行共享,因此分布式機(jī)器學(xué)習(xí)不適用于數(shù)據(jù)隱私保護(hù)。在聯(lián)邦學(xué)習(xí)中,共享預(yù)測(cè)模型可以通過多個(gè)分布式節(jié)點(diǎn)使用其本地存儲(chǔ)的數(shù)據(jù)協(xié)作學(xué)習(xí),各參與方在最終模型中有所收獲的同時(shí),其隱私數(shù)據(jù)也得到了有效保護(hù)。Chandiramani等通過在Fashion-MNIST數(shù)據(jù)集上建模的形式,對(duì)分布式機(jī)器學(xué)習(xí)和聯(lián)邦學(xué)習(xí)進(jìn)行比較,模型訓(xùn)練結(jié)果表明,聯(lián)邦學(xué)習(xí)訓(xùn)練比分布式機(jī)器學(xué)習(xí)訓(xùn)練多消耗2秒時(shí)長(zhǎng),這是由于聯(lián)邦學(xué)習(xí)需要將平均值應(yīng)用于迭代過程中的兩個(gè)局部模型的額外步驟[11]。
2.聯(lián)邦學(xué)習(xí)的架構(gòu)
在聯(lián)邦學(xué)習(xí)的應(yīng)用與訓(xùn)練過程中,不是所有情況都需要中央服務(wù)器作為協(xié)調(diào)方進(jìn)行的。鑒于這種情況,聯(lián)邦學(xué)習(xí)架構(gòu)被分為客戶—服務(wù)器架構(gòu),也可視為中心化的聯(lián)邦架構(gòu)(見圖2);以及對(duì)等網(wǎng)絡(luò)架構(gòu),也可視為去中心化的聯(lián)邦架構(gòu)(見圖3)[8]6。
客戶—服務(wù)器架構(gòu)是指參數(shù)服務(wù)器將初始模型發(fā)送至用戶U1~U3,用戶U1~U3利用各自的數(shù)據(jù)訓(xùn)練該初始模型,訓(xùn)練后將更新的模型權(quán)重(參數(shù))發(fā)送到參數(shù)服務(wù)器。參數(shù)服務(wù)器將每個(gè)用戶發(fā)送回的模型更新進(jìn)行聚合,聚合后的模型再次被更新,并再發(fā)送給用戶,上述步驟會(huì)持續(xù)迭代到最大次數(shù)或訓(xùn)練時(shí)長(zhǎng)達(dá)到最久,直至模型收斂。
對(duì)等網(wǎng)絡(luò)架構(gòu)是指在沒有參數(shù)服務(wù)器的協(xié)調(diào)下進(jìn)行。在此架構(gòu)下,參與到聯(lián)邦訓(xùn)練中的用戶之間不依靠參數(shù)服務(wù)器的協(xié)調(diào)可以直接通信,訓(xùn)練過程更加安全,但是解密與加密步驟也隨之增多。
圖2 客戶—服務(wù)器架構(gòu)
圖3 對(duì)等網(wǎng)絡(luò)架構(gòu)
3.聯(lián)邦學(xué)習(xí)的場(chǎng)景
聯(lián)邦學(xué)習(xí)在數(shù)據(jù)上共分為3類,分別是根據(jù)樣本劃分的聯(lián)邦學(xué)習(xí)稱為橫向聯(lián)邦學(xué)習(xí),根據(jù)特征劃分的聯(lián)邦學(xué)習(xí)為縱向聯(lián)邦學(xué)習(xí),如果樣本與特征重疊部分較小或均不重疊時(shí)使用聯(lián)邦遷移學(xué)習(xí)。
橫向聯(lián)邦學(xué)習(xí)(horizontal federated learning,HFL)一般是指按照樣本劃分的,也可定義為按照用戶維度(橫向)劃分的聯(lián)邦學(xué)習(xí),還可稱之為“特征對(duì)齊的聯(lián)邦學(xué)習(xí)”[12]。用橫向聯(lián)邦學(xué)習(xí)訓(xùn)練模型能夠增加用戶樣本數(shù)量,同時(shí)還能夠提高模型準(zhǔn)確性。2016年,谷歌發(fā)布了一種為安卓系統(tǒng)手機(jī)提供模型更新的解決方案——谷歌輸入法Gboard,該方案是基于橫向聯(lián)邦學(xué)習(xí)提出的[13]。在橫向聯(lián)邦學(xué)習(xí)的框架下,各參與方能夠共享梯度信息與模型的參數(shù),各參與方計(jì)算局部梯度后上傳至服務(wù)器,共同維護(hù)梯度更新。Wang等在橫向聯(lián)邦機(jī)器學(xué)習(xí)的背景下,通過橫向聯(lián)邦學(xué)習(xí)的刪除法,公平地衡量整體數(shù)據(jù)質(zhì)量,以此來實(shí)現(xiàn)公平的信用分配[14]。舉例來說,A和B是兩家不同地區(qū)的銀行,兩家銀行房貸產(chǎn)品的用戶特征重疊較多,而用戶重疊較少,A銀行與B銀行通過橫向聯(lián)邦學(xué)習(xí)進(jìn)行合作建模,既增加了模型訓(xùn)練的樣本量,又能夠提升模型的質(zhì)量。
縱向聯(lián)邦學(xué)習(xí)(vertical federated learning,VFL)一般是指數(shù)據(jù)集上各參與方利用樣本空間相同、特征空間不同構(gòu)成的聯(lián)邦學(xué)習(xí),也可稱之為樣本對(duì)齊的聯(lián)邦學(xué)習(xí)[12]。在縱向聯(lián)邦學(xué)習(xí)的框架下,各參與方的不同特征被聚合在同一加密狀態(tài)下,以此來增強(qiáng)模型能力?;诳v向聯(lián)邦學(xué)習(xí)系統(tǒng)的模型包括邏輯回歸模型、神經(jīng)網(wǎng)絡(luò)模型、樹形模型等多種機(jī)器學(xué)習(xí)模型。Wang等在縱向聯(lián)邦學(xué)習(xí)的背景下,通過縱向聯(lián)邦學(xué)習(xí)的Shapley值,計(jì)算多方在聯(lián)邦學(xué)習(xí)中的貢獻(xiàn),以此實(shí)現(xiàn)公平的信用分配[14]。舉例來說,A是某地的銀行,C是同一城市的保險(xiǎn)公司,A與C的用戶重疊較多,用戶特征重疊較少,銀行A與保險(xiǎn)公司C可以通過縱向聯(lián)邦學(xué)習(xí)進(jìn)行合作建模,從而提升模型質(zhì)量。
聯(lián)邦遷移學(xué)習(xí)(federated transfer learning,F(xiàn)TL)是指在用戶或特征不對(duì)齊的情況下,在數(shù)據(jù)間通過交換加密參數(shù)達(dá)到知識(shí)遷移的效果[15]。它采用有限的公共樣本集,根據(jù)學(xué)習(xí)到的兩個(gè)特征空間表示獲取只有單側(cè)特征的樣本預(yù)測(cè)[16]。遷移學(xué)習(xí)的本質(zhì)是發(fā)掘出資源豐富的源域同資源稀缺的目標(biāo)域之間的相似性,通過這一相似性在這兩個(gè)領(lǐng)域之間進(jìn)行知識(shí)的傳輸。目前學(xué)術(shù)界對(duì)于聯(lián)邦遷移學(xué)習(xí)的研究?jī)?nèi)容較少,更多關(guān)注于橫向聯(lián)邦學(xué)習(xí)和縱向聯(lián)邦學(xué)習(xí)。舉例來說,A是位于中國(guó)的銀行,D是位于國(guó)外的一家保險(xiǎn)公司,由于地域和行業(yè)的不同,A與D的用戶和用戶特征均重疊較少,為了實(shí)現(xiàn)有效的聯(lián)邦學(xué)習(xí),需引入遷移學(xué)習(xí)解決單側(cè)數(shù)據(jù)規(guī)模小、標(biāo)簽樣本少的問題,以此提升模型質(zhì)量。
4.聯(lián)邦學(xué)習(xí)的隱私保護(hù)技術(shù)
根據(jù)陳琨等[17]、田家會(huì)等[18]、李凌霄等[19]諸多學(xué)者的研究發(fā)現(xiàn),常見的聯(lián)邦學(xué)習(xí)的隱私保護(hù)技術(shù)有3種,分別是同態(tài)加密、安全多方計(jì)算和差分隱私。
同態(tài)加密的概念最早在1978年由Rivest通過“隱私同態(tài)”的概念提出來[20]。Sander等在研究中首次提出了同態(tài)加密算法,并定義了整數(shù)域內(nèi)的加法與乘法的同態(tài)加密機(jī)制[21]。加密算法能夠隔著加密層進(jìn)行運(yùn)算,對(duì)多項(xiàng)式進(jìn)行加密,分解成每項(xiàng)加密的多項(xiàng)式。同態(tài)加密算法能夠允許人們對(duì)于加密的數(shù)據(jù)進(jìn)行特定運(yùn)算,該運(yùn)算結(jié)果與不加密狀態(tài)下進(jìn)行的運(yùn)算結(jié)果一致[22]。仝秦瑋等在研究中設(shè)計(jì)了一種基于DGHV適應(yīng)智能合約的同態(tài)加密方法,該方法能夠直接對(duì)密文進(jìn)行計(jì)算,起到保護(hù)交易雙方隱私安全的作用[23]。Fang等在同態(tài)加密和秘密共享的基礎(chǔ)上,提出了一項(xiàng)新穎的隱私保護(hù)協(xié)議,用來保護(hù)個(gè)人客戶的隱私[24]。在以往的研究中[25-26],有一些基于同態(tài)加密技術(shù)的隱私保護(hù)解決方案被用于訓(xùn)練機(jī)器學(xué)習(xí)模型,如神經(jīng)網(wǎng)絡(luò)、決策樹等。
安全多方計(jì)算起源于“百萬富翁的問題”,學(xué)者姚期智于1982年提出該問題并進(jìn)行了推廣。安全多方計(jì)算是指各參與方不透露或傳輸原數(shù)據(jù),各自在加密狀態(tài)下進(jìn)行分散計(jì)算再融合協(xié)作得到聯(lián)合計(jì)算結(jié)果,以此達(dá)到數(shù)據(jù)可用不可見的目的。安全多方計(jì)算的目的是協(xié)同地在參與方各自的隱私輸入中計(jì)算函數(shù)的結(jié)果,不必將這些輸入展示給其他參與方[8]22。該方法是解決模型在聯(lián)邦學(xué)習(xí)中進(jìn)行訓(xùn)練時(shí)客戶端的私有數(shù)據(jù)被泄露或被反向推斷出的有效方法。
Dwork等在研究中首次提出了利用差分隱私來解決各種隱私攻擊方式以及現(xiàn)代隱私保護(hù)機(jī)制中的一些缺陷問題[27]。相比于傳統(tǒng)的隱私保護(hù)方法,差分隱私法是一種流行的隱私保護(hù)機(jī)器學(xué)習(xí)方法,是解決客戶端私有數(shù)據(jù)被泄露的另一種有效方法,它定義了一個(gè)嚴(yán)格的攻擊模型,對(duì)于隱私泄露的風(fēng)險(xiǎn)也給出一個(gè)固定隱私損失預(yù)算。實(shí)現(xiàn)差分隱私主要有兩類方法,一類是給數(shù)據(jù)加上噪聲來實(shí)現(xiàn)差分隱私,另一類是指數(shù)機(jī)制[8]31。Liu等基于差分隱私法提出了一種自適應(yīng)隱私保護(hù)聯(lián)邦學(xué)習(xí)框架APFL,通過向數(shù)據(jù)注入自適應(yīng)噪聲來平衡模型的準(zhǔn)確性和安全性[28]。有不少學(xué)者針對(duì)基于區(qū)塊鏈的聯(lián)邦學(xué)習(xí)框架進(jìn)行了研究,這類研究多采用噪聲添加機(jī)制的差分隱私方法[29]。
5.聯(lián)邦學(xué)習(xí)在金融領(lǐng)域中的研究
為了響應(yīng)我國(guó)數(shù)字金融的政策,各行各業(yè)積極開展數(shù)字化轉(zhuǎn)型工作。在萬物互聯(lián)的時(shí)代,數(shù)字化轉(zhuǎn)型也是必然趨勢(shì)。機(jī)構(gòu)、組織、企業(yè)等通過人工智能AI、大數(shù)據(jù)、云計(jì)算等一系列新技術(shù)實(shí)現(xiàn)生產(chǎn)效率與資源利用率的提升,從而推動(dòng)了數(shù)字金融的快速發(fā)展?;ヂ?lián)網(wǎng)數(shù)據(jù)的更新迭代速度在不斷加快的同時(shí),互聯(lián)網(wǎng)風(fēng)險(xiǎn)也隨之加大,為防止隱私數(shù)據(jù)的泄露,數(shù)據(jù)間的不互通成為常態(tài),這對(duì)數(shù)字金融的發(fā)展產(chǎn)生了阻礙。2020年11月17日,由中國(guó)互聯(lián)網(wǎng)金融協(xié)會(huì)金融科技發(fā)展與研究專業(yè)委員會(huì)組織撰寫的《金融業(yè)數(shù)據(jù)要素融合應(yīng)用研究》(以下簡(jiǎn)稱《報(bào)告》)正式發(fā)布?!秷?bào)告》中指出了數(shù)據(jù)在數(shù)字化浪潮中的重要地位,金融業(yè)作為數(shù)據(jù)密集型的行業(yè),要平衡好數(shù)據(jù)要素融合應(yīng)用與數(shù)據(jù)安全保護(hù)。《報(bào)告》中將聯(lián)邦學(xué)習(xí)作為金融業(yè)數(shù)據(jù)要素融合應(yīng)用的支撐技術(shù)進(jìn)行了著重介紹,并探索了如何依托聯(lián)邦學(xué)習(xí)等相關(guān)隱私保護(hù)技術(shù)實(shí)現(xiàn)數(shù)據(jù)要素融合應(yīng)用與數(shù)據(jù)安全保護(hù)之間的平衡關(guān)系。2019年,微眾銀行開發(fā)的全球首個(gè)工業(yè)級(jí)聯(lián)邦學(xué)習(xí)框架FATE,旨在提供一個(gè)安全的計(jì)算框架來支持聯(lián)邦A(yù)I生態(tài)系統(tǒng),并開始嘗試將聯(lián)邦學(xué)習(xí)應(yīng)用于金融業(yè)務(wù)中。同時(shí),騰訊云與微眾銀行聯(lián)合宣布成立金融科技創(chuàng)新實(shí)驗(yàn)室,正式立項(xiàng)微眾銀行與騰訊云神盾沙箱的聯(lián)邦學(xué)習(xí)聯(lián)合研究項(xiàng)目。2020年,江蘇銀行作為首家與騰訊安全合作的金融機(jī)構(gòu),聯(lián)合共建智能化信用卡管理聯(lián)合實(shí)驗(yàn)室,實(shí)現(xiàn)聯(lián)合信貸風(fēng)控建模。
目前,聯(lián)邦學(xué)習(xí)在我國(guó)銀行業(yè)和保險(xiǎn)業(yè)中都得到了一定的應(yīng)用,如百度金融安全計(jì)算平臺(tái)中的車險(xiǎn)和健康交叉險(xiǎn)業(yè)務(wù)、騰訊安全的保險(xiǎn)廣告投放RTA、微眾銀行的聯(lián)邦信貸風(fēng)控等,但在銀行業(yè)中開展的工作更多[17]。聯(lián)邦學(xué)習(xí)應(yīng)用于銀行業(yè),主要針對(duì)信貸風(fēng)控領(lǐng)域,如信用卡反欺詐、信貸、反洗錢等業(yè)務(wù)[12,17]。各銀行在銷售理財(cái)產(chǎn)品時(shí),通過縱向聯(lián)邦學(xué)習(xí)與其他金融機(jī)構(gòu)、借貸平臺(tái)進(jìn)行聯(lián)合建模,對(duì)客戶的風(fēng)險(xiǎn)偏好有更精準(zhǔn)的判斷,從而調(diào)整產(chǎn)品結(jié)構(gòu)吸引更多客戶購(gòu)買[30]。將聯(lián)邦學(xué)習(xí)應(yīng)用于信用卡業(yè)務(wù)中,能夠提高對(duì)客戶的風(fēng)險(xiǎn)識(shí)別效率,從而降低人工成本[31]。聯(lián)邦學(xué)習(xí)目前在我國(guó)銀行業(yè)中的應(yīng)用仍處于初步發(fā)展階段,在計(jì)算成本、技術(shù)的成熟性、相關(guān)法律法規(guī)的監(jiān)管等多個(gè)方面還存在一定缺陷,聯(lián)邦學(xué)習(xí)在金融行業(yè)中的應(yīng)用還需不斷進(jìn)行探索。
根據(jù)OECD數(shù)據(jù)得知,2018年在我國(guó)企業(yè)貸款的總數(shù)中,中小企業(yè)的貸款占比為64.96%,在發(fā)展中國(guó)家占據(jù)領(lǐng)先優(yōu)勢(shì),并超過了多數(shù)發(fā)達(dá)經(jīng)濟(jì)體[32]。在信貸風(fēng)控領(lǐng)域,金融機(jī)構(gòu)面對(duì)小微企業(yè)的貸款需求時(shí),由于數(shù)據(jù)源不足,無法有效反應(yīng)企業(yè)經(jīng)營(yíng)狀況,導(dǎo)致我國(guó)小微企業(yè)面臨的現(xiàn)狀是融資難、融資貴的問題。我國(guó)小微企業(yè)獲貸難的原因有以下幾點(diǎn):第一,企業(yè)規(guī)模較小,管理制度不集中;第二,其內(nèi)部管理制度體系不健全,缺乏一定的財(cái)務(wù)數(shù)據(jù)與經(jīng)營(yíng)數(shù)據(jù);第三,多數(shù)小微企業(yè)都不能提供經(jīng)由第三方機(jī)構(gòu)出具的有效的審計(jì)報(bào)告,部分小微企業(yè)還存在數(shù)據(jù)造假的情況;第四,尤其是國(guó)有銀行、全國(guó)股份制銀行的信貸市場(chǎng)更加關(guān)注實(shí)力強(qiáng)的企業(yè),往往忽略了發(fā)展較弱的小微企業(yè);第五,銀行對(duì)企業(yè)進(jìn)行放貸后,不再核實(shí)這些原因都會(huì)對(duì)小微企業(yè)的公信力產(chǎn)生嚴(yán)重的負(fù)面影響。
大數(shù)據(jù)時(shí)代的到來,為信用風(fēng)險(xiǎn)的評(píng)估帶來了新的契機(jī),為化解小微企業(yè)融資難的問題提供了機(jī)遇。在消費(fèi)金融機(jī)構(gòu)中,傳統(tǒng)的信貸模型數(shù)據(jù)量小,數(shù)據(jù)維度低,缺乏有效的數(shù)據(jù)對(duì)用戶還款能力和意愿進(jìn)行評(píng)估,可能會(huì)導(dǎo)致客戶資質(zhì)參差不齊。從海量的大數(shù)據(jù)信息中挖掘出具有風(fēng)險(xiǎn)評(píng)估能力的指標(biāo),建立具有公信力而穩(wěn)定的信用風(fēng)險(xiǎn)評(píng)估模型,為授信審批提供客觀的量化標(biāo)準(zhǔn)。
在過去幾十年的發(fā)展過程中,針對(duì)小微企業(yè)的信用風(fēng)險(xiǎn)評(píng)估研究已經(jīng)取得了一系列重要的理論與實(shí)踐突破。在數(shù)據(jù)方面,現(xiàn)有研究已從單一來源數(shù)據(jù)轉(zhuǎn)向同一主體控制下的多源數(shù)據(jù);在信用評(píng)估方法方面,機(jī)器學(xué)習(xí)方法已占據(jù)主流地位,已有學(xué)者開始基于多種方法融合的形式對(duì)小微企業(yè)進(jìn)行信用風(fēng)險(xiǎn)評(píng)估。學(xué)者們通過聯(lián)邦學(xué)習(xí)的方法,可以合規(guī)合法地利用多源數(shù)據(jù),在保證數(shù)據(jù)隱私安全的同時(shí),多角度刻畫用戶資質(zhì)。李銘雨等在研究中指出,目前銀行在向小微企業(yè)借貸過程中面臨著兩個(gè)問題:第一,信貸風(fēng)險(xiǎn)的量化評(píng)估;第二,信貸決策方案的制定[33]。針對(duì)信貸風(fēng)控問題,Yang等利用聯(lián)邦學(xué)習(xí)構(gòu)建了信用卡欺詐風(fēng)險(xiǎn)檢測(cè)系統(tǒng),發(fā)現(xiàn)消費(fèi)金融機(jī)構(gòu)的樣本存在數(shù)據(jù)傾斜問題,本文通過SMOTE算法解決了數(shù)據(jù)不平衡問題[34]。Zheng等提出了垂直聯(lián)邦學(xué)習(xí)方法FL-LRBC,使多個(gè)機(jī)構(gòu)能夠在單個(gè)培訓(xùn)課程中聯(lián)合培訓(xùn)優(yōu)化的信用評(píng)估記分卡模型[31]。李健萌解決了數(shù)據(jù)隱私問題和信貸大數(shù)據(jù)的異構(gòu)特點(diǎn)問題,嘗試構(gòu)建了適合信貸風(fēng)控場(chǎng)景的聯(lián)邦學(xué)習(xí)系統(tǒng)[35]。聯(lián)邦學(xué)習(xí)的出現(xiàn)為小微企業(yè)充分發(fā)揮其數(shù)據(jù)價(jià)值提供了新的技術(shù),既能夠解決有效數(shù)據(jù)確實(shí)造成的征信白戶問題,又能解決小微企業(yè)融資難的問題,風(fēng)控水平也同時(shí)得以提升[36]。
1.安全問題
聯(lián)邦學(xué)習(xí)在應(yīng)用過程中,安全方面仍然存在一定的缺陷,聯(lián)邦學(xué)習(xí)中的數(shù)據(jù)存在一定的風(fēng)險(xiǎn)。模型每一輪更新后的信息都會(huì)發(fā)送至中央服務(wù)器,在此過程中,攻擊者能夠通過與模型的交互對(duì)更新信息的敏感部分經(jīng)過逆向推理獲取參與方的私有數(shù)據(jù)。如Hitaj等在研究中生成的對(duì)抗網(wǎng)絡(luò)在共享梯度中推斷出參與方的本地?cái)?shù)據(jù)[37]。當(dāng)惡意的參與方加入到聯(lián)邦訓(xùn)練過程中時(shí),利用中央服務(wù)器中的共享參數(shù)推理得出其他參與方的數(shù)據(jù),最終達(dá)到竊取數(shù)據(jù)的目的[38]。這就說明,僅依靠模型更新保護(hù)參與方的數(shù)據(jù)隱私是不夠的。除此之外,聯(lián)邦學(xué)習(xí)還可能會(huì)存在間接泄露隱私的風(fēng)險(xiǎn)[24]。因此Dong等在研究中設(shè)計(jì)了三元聯(lián)邦學(xué)習(xí)防止隱私泄露問題[39]。
在大數(shù)據(jù)的驅(qū)動(dòng)下,聯(lián)邦學(xué)習(xí)在人工智能系統(tǒng)應(yīng)用中將發(fā)揮更大價(jià)值,扮演更重要的角色。首要解決的問題是設(shè)計(jì)安全的加密協(xié)議,以抵御更多的外部攻擊。
2.性能優(yōu)化與通信效率
聯(lián)邦學(xué)習(xí)在性能優(yōu)化方面具有一定的挑戰(zhàn)性。由于各參與方的本地?cái)?shù)據(jù)資源缺乏透明度,使其容易受到對(duì)抗性聯(lián)合攻擊。中央服務(wù)器在整合多方數(shù)據(jù)進(jìn)行協(xié)作訓(xùn)練時(shí),難以建立一項(xiàng)有效機(jī)制篩選出惡意參數(shù)的更新,由于參與訓(xùn)練的數(shù)據(jù)都是不可訪問的,因此難以辨別出經(jīng)過良好操作的模型源于良性模型[40]。由于聯(lián)邦學(xué)習(xí)框架集中于中央服務(wù)器,如果單個(gè)節(jié)點(diǎn)發(fā)生故障時(shí),整個(gè)模型的安全就會(huì)受到挑戰(zhàn)。聯(lián)邦學(xué)習(xí)的模型訓(xùn)練過程較為復(fù)雜,模型的可解釋能力就會(huì)較差,這對(duì)模型的可靠性會(huì)產(chǎn)生威脅。
解決通信問題也是目前聯(lián)邦學(xué)習(xí)在性能優(yōu)化方面的重要環(huán)節(jié)。網(wǎng)絡(luò)帶寬的限制與先進(jìn)的隱私攻擊,使聯(lián)邦學(xué)習(xí)的傳輸效率降低,進(jìn)而會(huì)影響其訓(xùn)練速度,在全局模型更新過程中會(huì)消耗大量的通信資源[41],造成聯(lián)邦學(xué)習(xí)在通信和隱私方面存在缺陷。這些問題直接導(dǎo)致的結(jié)果是不能將所有數(shù)據(jù)都收集到中央服務(wù)器中[42]。針對(duì)上述情況,Li等提出了預(yù)留帶寬的方案以提高訓(xùn)練效率[43]。Kone?ny等[44]、Sattler等[45]針對(duì)聯(lián)邦學(xué)習(xí)中的本地模型更新引起大量通信開銷的問題,他們?cè)谘芯恐性噲D通過數(shù)據(jù)壓縮的方法解決這一挑戰(zhàn)。Wu等[42,46]設(shè)計(jì)了新的框架ACFL、FedMed等解決資源有限和通信成本的問題。也有學(xué)者針對(duì)聯(lián)邦學(xué)習(xí)中同步梯度的高網(wǎng)絡(luò)通信成本問題,提出了量化梯度方法,利用聯(lián)邦學(xué)習(xí)尋求高效率通信方法,最小化通信成本,解決高通信開銷問題。
3.聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的探索
如何建立激勵(lì)機(jī)制使得參與方持續(xù)參與到數(shù)據(jù)聯(lián)邦中是一項(xiàng)重要的挑戰(zhàn)。由于缺少高效的激勵(lì)機(jī)制吸引更多的客戶端參與到訓(xùn)練過程中,訓(xùn)練數(shù)據(jù)的不足最終導(dǎo)致模型質(zhì)量難以保證。為此,有學(xué)者設(shè)計(jì)了激勵(lì)機(jī)制確定了邊緣節(jié)點(diǎn)的最優(yōu)訓(xùn)練策略[47]。引入聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制,參與方能夠根據(jù)各自在聚合中的不同貢獻(xiàn)得到不同的獎(jiǎng)勵(lì),這種獎(jiǎng)勵(lì)可以是資金獎(jiǎng)勵(lì)或是最終模型的獎(jiǎng)勵(lì)[18]。
模型的訓(xùn)練結(jié)果離不開前置輸入的數(shù)據(jù),通過建立聯(lián)邦生態(tài)系統(tǒng),設(shè)計(jì)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制吸引更多用戶參與到聯(lián)邦學(xué)習(xí)生態(tài)系統(tǒng),最大化聯(lián)邦學(xué)習(xí)系統(tǒng)下協(xié)調(diào)方與供給方各自的貢獻(xiàn)、最小化雙方代價(jià),從而保證參與方能夠貢獻(xiàn)更高質(zhì)量的數(shù)據(jù),公平、安全地分享利潤(rùn),達(dá)到聯(lián)邦學(xué)習(xí)訓(xùn)練效果的最優(yōu)化。同時(shí),激勵(lì)機(jī)制不僅鼓勵(lì)參與者加入,也鼓勵(lì)設(shè)備提供方積極加入,鼓勵(lì)設(shè)備提供方提供更多的通信帶寬,有效解決通信效率低的問題。
4.發(fā)揮在小微企業(yè)中的價(jià)值
當(dāng)前,針對(duì)小微企業(yè)信貸融資服務(wù)和信貸監(jiān)測(cè)考核等多個(gè)方面的金融服務(wù)存在明顯不足和提升空間,在數(shù)字化轉(zhuǎn)型的大趨勢(shì)下,如何充分利用金融大數(shù)據(jù)資源,評(píng)估小微企業(yè)信用風(fēng)險(xiǎn),是提升小微企業(yè)信貸服務(wù)決策水平的關(guān)鍵性環(huán)節(jié)。使用聯(lián)邦學(xué)習(xí)的框架構(gòu)建可解釋的小微企業(yè)信用風(fēng)險(xiǎn)評(píng)估模型成為了有效的解決辦法。應(yīng)充分考慮聯(lián)邦學(xué)習(xí)在確保隱私安全的情況下多主體所有權(quán)數(shù)據(jù)同時(shí)建模的約束,發(fā)展使用多主體所有權(quán)數(shù)據(jù)構(gòu)建小微企業(yè)信用風(fēng)險(xiǎn)特征的分布式方法,并對(duì)相應(yīng)的模型進(jìn)行可解釋性研究。在多主體所有權(quán)數(shù)據(jù)隱私保護(hù)與安全共享的背景下,小微企業(yè)的多主體所有權(quán)數(shù)據(jù)的樣本重合度低,樣本特征不同,不能在同一數(shù)據(jù)節(jié)點(diǎn)上進(jìn)行計(jì)算,如何構(gòu)建小微企業(yè)信用風(fēng)險(xiǎn)特征的分布式度量,是未來研究工作的關(guān)鍵問題。
利用擁有高價(jià)值密度的多主體所有權(quán)數(shù)據(jù)構(gòu)建小微企業(yè)信用評(píng)估模型,提升小微企業(yè)的信用風(fēng)險(xiǎn)評(píng)估精度,降低小微企業(yè)信貸違約率,并借助數(shù)字科技,搭建小微企業(yè)信用評(píng)估的應(yīng)用平臺(tái)。基于互聯(lián)網(wǎng)供應(yīng)鏈構(gòu)建小微企業(yè)信用評(píng)估的應(yīng)用平臺(tái),通過該平臺(tái)上各小微企業(yè)留下的信息形成大數(shù)據(jù),為融資服務(wù)需求奠定基礎(chǔ)[32]。
人們對(duì)隱私安全問題的日益關(guān)注是聯(lián)邦學(xué)習(xí)出現(xiàn)的主要原因,聯(lián)邦學(xué)習(xí)的出現(xiàn),有效解決了具有異質(zhì)數(shù)據(jù)分布在大量客戶端的分散數(shù)據(jù)上開發(fā)AI服務(wù)的挑戰(zhàn),它成為了解決當(dāng)前人工智能面臨的數(shù)據(jù)孤島、數(shù)據(jù)隱私安全不穩(wěn)定等困難的解決方案。但就目前情況而言,聯(lián)邦學(xué)習(xí)面臨著隱私保護(hù)技術(shù)的不成熟、聯(lián)邦學(xué)習(xí)的參與方公平與效率得不到滿足、計(jì)算成本高等亟待解決的問題。在未來,聯(lián)邦學(xué)習(xí)還會(huì)被應(yīng)用到萬物互聯(lián)的各種場(chǎng)景中,將聯(lián)邦學(xué)習(xí)與新技術(shù)進(jìn)行融合應(yīng)用,如自然語言處理技術(shù)、邊緣計(jì)算技術(shù),實(shí)現(xiàn)數(shù)據(jù)隱私保護(hù)的同時(shí)訓(xùn)練模型的質(zhì)量也得以提升。設(shè)計(jì)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制吸引更多用戶參與到聯(lián)邦訓(xùn)練中,通過用戶提供更高質(zhì)量的數(shù)據(jù)獲取更高質(zhì)量的模型,營(yíng)造聯(lián)邦生態(tài)系統(tǒng)的良好環(huán)境,為隱私安全保駕護(hù)航。
天津大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2022年5期