代文 許文彬
在銀行業(yè)領(lǐng)域,個人信用風(fēng)險評估模型是重要的貸款審批工具,個人信用風(fēng)險評估模型是銀行利用自身數(shù)據(jù)與外部數(shù)據(jù)集中在同一臺機器上訓(xùn)練出來的模型。而隨著民眾對個人隱私和數(shù)據(jù)安全的重視,法律法規(guī)要求的提高,為避免發(fā)生數(shù)據(jù)泄露,銀行理論上不能將生產(chǎn)環(huán)境的數(shù)據(jù)脫離生產(chǎn)環(huán)境,原來的傳統(tǒng)的線下聯(lián)合建模方式需要將生產(chǎn)數(shù)據(jù)出庫,存在數(shù)據(jù)泄露等不合規(guī)的風(fēng)險。本文從數(shù)據(jù)安全的角度,提出基于聯(lián)邦學(xué)習(xí)的個人信用風(fēng)險評估模型構(gòu)建的方式。研究表明,基于聯(lián)邦學(xué)習(xí)的個人信用風(fēng)險評估模型構(gòu)建方式在訓(xùn)練得到同樣效果的模型的前提下,能夠更好地保護數(shù)據(jù),避免數(shù)據(jù)泄露。
風(fēng)險管理中心是銀行業(yè)重要的核心部門,其主要職能是保障放貸資金的安全回籠,關(guān)系整個銀行的資金安全,個人信用風(fēng)險評估模型是風(fēng)控管理中心重要的貸款審批工具。隨著大數(shù)據(jù)技術(shù)和機器學(xué)習(xí)發(fā)展,可以用于構(gòu)建個人信用風(fēng)險評估模型的特征越來越多,訓(xùn)練模型的技術(shù)也越來越成熟。因此,個人信用風(fēng)險評估模型的穩(wěn)定性也就越來越強,效果越來越好。在審批貸款申請階段,銀行會優(yōu)先使用個人信用風(fēng)險評估模型進行審批。
數(shù)據(jù)泄露的問題時有發(fā)生,如2018年3月份Facebook上超5000萬用戶信息在用戶不知情的情況下,被政治數(shù)據(jù)公司“劍橋分析”獲取并利用,2018年11月匯豐銀行(HSBC Bank)部分客戶的個人和財務(wù)信息泄露等事件,相關(guān)法律法規(guī)對數(shù)據(jù)安全的要求也是越來越高。傳統(tǒng)的多家公司聯(lián)合訓(xùn)練模型的方式是各家將數(shù)據(jù)導(dǎo)出,并集中到一臺各家都有讀寫權(quán)限的機器上進行模型訓(xùn)練。該方式將數(shù)據(jù)導(dǎo)出生產(chǎn)環(huán)境,存在數(shù)據(jù)泄露的風(fēng)險。鑒于此,本文從數(shù)據(jù)安全的角度考慮,提出一種基于聯(lián)邦學(xué)習(xí)的個人信用風(fēng)險評估模型的構(gòu)建方式。
聯(lián)邦學(xué)習(xí)是2016年由谷歌提出的理論概念,聯(lián)邦學(xué)習(xí)(Federated Learning)是一種加密的分布式機器學(xué)習(xí)技術(shù),能有效幫助多個機構(gòu)在滿足用戶隱私保護、數(shù)據(jù)安全和政府法規(guī)的要求下,進行數(shù)據(jù)使用和機器學(xué)習(xí)建模。聯(lián)邦學(xué)習(xí)作為分布式的機器學(xué)習(xí)范式,可以有效解決數(shù)據(jù)孤島問題,讓參與方在不共享數(shù)據(jù)的基礎(chǔ)上聯(lián)合建模,能從技術(shù)上打破數(shù)據(jù)孤島,實現(xiàn)AI協(xié)作。
聯(lián)邦學(xué)習(xí)根據(jù)用戶交集和特征空間的差異可以分為橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和遷移聯(lián)邦學(xué)習(xí)。
橫向聯(lián)邦學(xué)習(xí)
兩個或多個數(shù)據(jù)集的用戶特征重疊較多而用戶重疊較少,并且各方擁有同一含義的標簽時,將數(shù)據(jù)集按照橫向(即用戶維度)切分,并取出雙方用戶特征相同而用戶不完全相同的那部分數(shù)據(jù)進行訓(xùn)練,如圖1。橫向聯(lián)邦學(xué)習(xí)訓(xùn)練得到的模型參與方都可以使用,有助提升各方的模型效果。
例如:兩家不同銀行的留學(xué)貸產(chǎn)品,該產(chǎn)品的用戶特征重疊較多,并且用戶重疊較少,這兩家銀行可以使用聯(lián)邦學(xué)習(xí)的方式合作建模,這樣做可以增加訓(xùn)練模型的樣本量,提升模型質(zhì)量。
縱向聯(lián)邦學(xué)習(xí)
兩個或多個數(shù)據(jù)集的用戶重疊較多而用戶特征重疊較少,并且至少有一方擁有標簽時,將數(shù)據(jù)集按照縱向(即特征維度)切分,并取出各方用戶相同而用戶特征不完全相同的那部分數(shù)據(jù)進行訓(xùn)練,如圖2??v向聯(lián)邦學(xué)習(xí)可將這些不同特征在加密的狀態(tài)下加以聚合,以增強模型能力的聯(lián)邦學(xué)習(xí)。
例如:兩個不同機構(gòu),一家是某地的銀行,另一家是同地方電商。兩家公司的交集較大,同時,銀行的特征與電商用戶的瀏覽與購買歷史所能提取的特征交集較小。該銀行可以與該電商公司使用縱向聯(lián)邦學(xué)習(xí)的方式聯(lián)合建模,該電商公司為該銀行的模型提供特征從而改善模型。
遷移聯(lián)邦學(xué)習(xí)
兩個數(shù)據(jù)集用戶與用戶特征重疊都較少時,不對數(shù)據(jù)進行切分,而可以利用遷移學(xué)習(xí)來克服數(shù)據(jù)或標簽不足的情況,如圖3。
比如有兩個不同機構(gòu),一家是位于中國的銀行,另一家是位于美國的電商。由于受到地域限制,這兩家機構(gòu)的用戶群體交集很小。同時,由于機構(gòu)類型的不同,二者的數(shù)據(jù)特征也只有小部分重合。在這種情況下,要想進行有效的聯(lián)邦學(xué)習(xí),就必須引入遷移學(xué)習(xí),來解決單邊數(shù)據(jù)規(guī)模小和標簽樣本少的問題,從而提升模型的效果。