代文 許文彬
在銀行業(yè)領(lǐng)域,個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型是重要的貸款審批工具,個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型是銀行利用自身數(shù)據(jù)與外部數(shù)據(jù)集中在同一臺(tái)機(jī)器上訓(xùn)練出來(lái)的模型。而隨著民眾對(duì)個(gè)人隱私和數(shù)據(jù)安全的重視,法律法規(guī)要求的提高,為避免發(fā)生數(shù)據(jù)泄露,銀行理論上不能將生產(chǎn)環(huán)境的數(shù)據(jù)脫離生產(chǎn)環(huán)境,原來(lái)的傳統(tǒng)的線下聯(lián)合建模方式需要將生產(chǎn)數(shù)據(jù)出庫(kù),存在數(shù)據(jù)泄露等不合規(guī)的風(fēng)險(xiǎn)。本文從數(shù)據(jù)安全的角度,提出基于聯(lián)邦學(xué)習(xí)的個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型構(gòu)建的方式。研究表明,基于聯(lián)邦學(xué)習(xí)的個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型構(gòu)建方式在訓(xùn)練得到同樣效果的模型的前提下,能夠更好地保護(hù)數(shù)據(jù),避免數(shù)據(jù)泄露。
風(fēng)險(xiǎn)管理中心是銀行業(yè)重要的核心部門(mén),其主要職能是保障放貸資金的安全回籠,關(guān)系整個(gè)銀行的資金安全,個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型是風(fēng)控管理中心重要的貸款審批工具。隨著大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)發(fā)展,可以用于構(gòu)建個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型的特征越來(lái)越多,訓(xùn)練模型的技術(shù)也越來(lái)越成熟。因此,個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型的穩(wěn)定性也就越來(lái)越強(qiáng),效果越來(lái)越好。在審批貸款申請(qǐng)階段,銀行會(huì)優(yōu)先使用個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型進(jìn)行審批。
數(shù)據(jù)泄露的問(wèn)題時(shí)有發(fā)生,如2018年3月份Facebook上超5000萬(wàn)用戶信息在用戶不知情的情況下,被政治數(shù)據(jù)公司“劍橋分析”獲取并利用,2018年11月匯豐銀行(HSBC Bank)部分客戶的個(gè)人和財(cái)務(wù)信息泄露等事件,相關(guān)法律法規(guī)對(duì)數(shù)據(jù)安全的要求也是越來(lái)越高。傳統(tǒng)的多家公司聯(lián)合訓(xùn)練模型的方式是各家將數(shù)據(jù)導(dǎo)出,并集中到一臺(tái)各家都有讀寫(xiě)權(quán)限的機(jī)器上進(jìn)行模型訓(xùn)練。該方式將數(shù)據(jù)導(dǎo)出生產(chǎn)環(huán)境,存在數(shù)據(jù)泄露的風(fēng)險(xiǎn)。鑒于此,本文從數(shù)據(jù)安全的角度考慮,提出一種基于聯(lián)邦學(xué)習(xí)的個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方式。
聯(lián)邦學(xué)習(xí)是2016年由谷歌提出的理論概念,聯(lián)邦學(xué)習(xí)(Federated Learning)是一種加密的分布式機(jī)器學(xué)習(xí)技術(shù),能有效幫助多個(gè)機(jī)構(gòu)在滿足用戶隱私保護(hù)、數(shù)據(jù)安全和政府法規(guī)的要求下,進(jìn)行數(shù)據(jù)使用和機(jī)器學(xué)習(xí)建模。聯(lián)邦學(xué)習(xí)作為分布式的機(jī)器學(xué)習(xí)范式,可以有效解決數(shù)據(jù)孤島問(wèn)題,讓參與方在不共享數(shù)據(jù)的基礎(chǔ)上聯(lián)合建模,能從技術(shù)上打破數(shù)據(jù)孤島,實(shí)現(xiàn)AI協(xié)作。
聯(lián)邦學(xué)習(xí)根據(jù)用戶交集和特征空間的差異可以分為橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和遷移聯(lián)邦學(xué)習(xí)。
橫向聯(lián)邦學(xué)習(xí)
兩個(gè)或多個(gè)數(shù)據(jù)集的用戶特征重疊較多而用戶重疊較少,并且各方擁有同一含義的標(biāo)簽時(shí),將數(shù)據(jù)集按照橫向(即用戶維度)切分,并取出雙方用戶特征相同而用戶不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,如圖1。橫向聯(lián)邦學(xué)習(xí)訓(xùn)練得到的模型參與方都可以使用,有助提升各方的模型效果。
例如:兩家不同銀行的留學(xué)貸產(chǎn)品,該產(chǎn)品的用戶特征重疊較多,并且用戶重疊較少,這兩家銀行可以使用聯(lián)邦學(xué)習(xí)的方式合作建模,這樣做可以增加訓(xùn)練模型的樣本量,提升模型質(zhì)量。
縱向聯(lián)邦學(xué)習(xí)
兩個(gè)或多個(gè)數(shù)據(jù)集的用戶重疊較多而用戶特征重疊較少,并且至少有一方擁有標(biāo)簽時(shí),將數(shù)據(jù)集按照縱向(即特征維度)切分,并取出各方用戶相同而用戶特征不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,如圖2??v向聯(lián)邦學(xué)習(xí)可將這些不同特征在加密的狀態(tài)下加以聚合,以增強(qiáng)模型能力的聯(lián)邦學(xué)習(xí)。
例如:兩個(gè)不同機(jī)構(gòu),一家是某地的銀行,另一家是同地方電商。兩家公司的交集較大,同時(shí),銀行的特征與電商用戶的瀏覽與購(gòu)買(mǎi)歷史所能提取的特征交集較小。該銀行可以與該電商公司使用縱向聯(lián)邦學(xué)習(xí)的方式聯(lián)合建模,該電商公司為該銀行的模型提供特征從而改善模型。
遷移聯(lián)邦學(xué)習(xí)
兩個(gè)數(shù)據(jù)集用戶與用戶特征重疊都較少時(shí),不對(duì)數(shù)據(jù)進(jìn)行切分,而可以利用遷移學(xué)習(xí)來(lái)克服數(shù)據(jù)或標(biāo)簽不足的情況,如圖3。
比如有兩個(gè)不同機(jī)構(gòu),一家是位于中國(guó)的銀行,另一家是位于美國(guó)的電商。由于受到地域限制,這兩家機(jī)構(gòu)的用戶群體交集很小。同時(shí),由于機(jī)構(gòu)類(lèi)型的不同,二者的數(shù)據(jù)特征也只有小部分重合。在這種情況下,要想進(jìn)行有效的聯(lián)邦學(xué)習(xí),就必須引入遷移學(xué)習(xí),來(lái)解決單邊數(shù)據(jù)規(guī)模小和標(biāo)簽樣本少的問(wèn)題,從而提升模型的效果。