編者按:本文分析了聯(lián)邦學習與數(shù)據(jù)湖的不兼容性和融合契機,梳理了適用于實現(xiàn)聯(lián)邦學習和數(shù)據(jù)湖技術(shù)融合的數(shù)據(jù)保護技術(shù),探討構(gòu)建了基于數(shù)據(jù)保護和價值共享的隱私數(shù)據(jù)使用矩陣,提出了面向聯(lián)邦學習的共享數(shù)據(jù)湖建設(shè)策略,為解決不同數(shù)據(jù)所有方在數(shù)據(jù)湖中共同安全、合規(guī)的使用數(shù)據(jù)資源等提供了具體的技術(shù)建議。
隨著各國的數(shù)據(jù)保護法律、政策陸續(xù)出臺,如何在合規(guī)使用數(shù)字資產(chǎn)的前提下,共享數(shù)據(jù)價值、保障經(jīng)濟效益正在影響新基建所帶來的技術(shù)范式演進。從目前的技術(shù)發(fā)展歷程來看,聯(lián)邦學習和數(shù)據(jù)湖在之前各自的技術(shù)演進中是甚少交集的。兩者的不兼容性主要在以下兩方面:
一是用戶需求差異較大。聯(lián)邦學習在已有的商業(yè)實踐中,主要為海量的終端用戶服務(wù)。而數(shù)據(jù)湖的用戶群體源于數(shù)據(jù)倉庫的使用者,屬于企業(yè)級用戶。不同的用戶群體的需求存在較大差異。
二是聯(lián)邦學習的網(wǎng)絡(luò)開銷較高。聯(lián)邦學習關(guān)注數(shù)據(jù)的去中心化,但其模型更新過程中始終需要中央服務(wù)器參與。不同的終端用戶在連接中央服務(wù)器時的網(wǎng)絡(luò)環(huán)境充滿不確定性,因此海量終端用戶在進行聯(lián)邦學習時的網(wǎng)絡(luò)開銷較高。而數(shù)據(jù)湖在保證性能與效率的前提下,正在致力于通過分布式架構(gòu)等途徑防止網(wǎng)絡(luò)開銷過高。
隨著聯(lián)邦學習的商業(yè)化進程加快,企業(yè)級用戶正在成為聯(lián)邦學習的目標用戶。這為聯(lián)邦學習與數(shù)據(jù)湖解決不兼容性問題,實現(xiàn)技術(shù)融合帶來了可行的應(yīng)用場景——同類型用戶群體、較小的用戶規(guī)模和相對穩(wěn)定的網(wǎng)絡(luò)環(huán)境。在這一應(yīng)用場景下,聯(lián)邦學習與數(shù)據(jù)湖具有以下三方面的融合契機:
一是數(shù)據(jù)湖可以成為聯(lián)邦學習所需的可信第三方節(jié)點。理論上,聯(lián)邦學習不需要第三方節(jié)點可信,但需要滿足不同數(shù)據(jù)所有方彼此誠實且好奇,嚴格符合安全多方計算(MPC)等條件。而這些條件目前尚難以同時滿足。此外,在聯(lián)邦學習的訓練過程中,模型更新需要向第三方節(jié)點顯示敏感信息。雖然可以通過安全多方計算、差分隱私等保護隱私,但是采用可信第三方節(jié)點可以有效保障模型性能和系統(tǒng)效率,在經(jīng)濟效益上更為可取。
二是數(shù)據(jù)湖天然適合成為聯(lián)邦學習的商業(yè)化載體。數(shù)據(jù)湖的元數(shù)據(jù)可以為聯(lián)邦學習在商業(yè)化進程中拓展新的數(shù)據(jù)價值共享模式。數(shù)據(jù)湖的元數(shù)據(jù)可映射為聯(lián)邦學習中的所需的標簽Y,實現(xiàn)數(shù)據(jù)與標簽Y的分離。這種分離使得擁有海量數(shù)據(jù)但不清楚如何使用的用戶免去協(xié)議制定的困擾,讓聯(lián)邦學習的數(shù)據(jù)價值共享模式不再拘泥于由標簽Y的提供方制定協(xié)議。
同時,目前聯(lián)邦學習正在探索商業(yè)化推進的平臺和激勵機制,考慮通過區(qū)塊鏈等技術(shù)記錄聯(lián)邦學習參與者的貢獻評價和數(shù)據(jù)價值分配。而數(shù)據(jù)湖已有一定的商業(yè)實踐,并且其海量的存儲能力天然適合作為區(qū)塊鏈等技術(shù)的載體。因此,可以通過激勵機制在聯(lián)邦學習的協(xié)議制定中加入央行數(shù)字貨幣DC/EP,進一步推動數(shù)據(jù)價值共享的模式創(chuàng)新。
圖1 基于數(shù)據(jù)保護和價值共享的隱私數(shù)據(jù)使用矩陣
三是聯(lián)邦學習可以幫助數(shù)據(jù)湖解決安全性質(zhì)疑。通過聯(lián)邦學習,數(shù)據(jù)湖可由直接存儲含有用戶隱私的原始數(shù)據(jù)轉(zhuǎn)為存儲加密的模型相關(guān)參數(shù)等原始數(shù)據(jù)。這樣既可以保留存儲原始數(shù)據(jù)的根本特征,又可以解決人們一直以來對于數(shù)據(jù)湖中原始數(shù)據(jù)安全的質(zhì)疑。解決安全性質(zhì)疑對數(shù)據(jù)湖實現(xiàn)從用戶內(nèi)部的信息基礎(chǔ)設(shè)施走向用戶間共建共享的信息基礎(chǔ)設(shè)施的技術(shù)演進尤為重要。
要實現(xiàn)聯(lián)邦學習和數(shù)據(jù)湖的技術(shù)融合,數(shù)據(jù)安全是融合的前提。因此,需要按照等級保護的相關(guān)要求配備數(shù)據(jù)保護技術(shù),具備數(shù)據(jù)保護能力。根據(jù)數(shù)據(jù)保護能力的來源,適用的數(shù)據(jù)保護技術(shù)可以分為兩大類:
第一類是內(nèi)生的安全保護,即聯(lián)邦學習本身包含的數(shù)據(jù)保護技術(shù)。這類技術(shù)包括基于隱私保護的數(shù)據(jù)建模、不經(jīng)意傳輸、差分隱私以及同態(tài)加密等。
第二類是外部的安全保護,即其他可在數(shù)據(jù)湖中配備的數(shù)據(jù)保護技術(shù)。包括入侵防護、追蹤溯源、訪問控制和區(qū)塊鏈等。這些技術(shù)還可以進一步的細分,一種是直接參與聯(lián)邦學習的技術(shù),例如,記錄聯(lián)邦學習全過程的區(qū)塊鏈;另一種是防止數(shù)據(jù)湖內(nèi)存儲數(shù)據(jù)被惡意獲取、使用等的技術(shù),包括入侵防護、追蹤溯源和訪問控制等。
綜合數(shù)據(jù)保護的對象和聯(lián)邦學習的價值共享過程,可以對直接參與聯(lián)邦學習的數(shù)據(jù)保護技術(shù)從數(shù)據(jù)保護和價值共享兩個維度進一步細分,構(gòu)建基于數(shù)據(jù)保護和價值共享的隱私數(shù)據(jù)使用矩陣,如圖1 所示。
在數(shù)據(jù)保護維度,主要考慮需要保護的數(shù)據(jù)是本體還是附屬(關(guān)于數(shù)據(jù)本體與附屬的概念,可參看筆者拙作《大數(shù)據(jù)監(jiān)管系統(tǒng)建設(shè)研究》)。其中數(shù)據(jù)本體包括標簽Y、模型更新的參數(shù)等,數(shù)據(jù)附屬包含聯(lián)邦學習的協(xié)議制定、參與用戶及其貢獻等。
在價值共享維度,通過聯(lián)邦學習進行價值共享的過程一般可以分為兩個階段:第一階段是準備階段,其中包括確定參與聯(lián)邦學習的用戶,制定協(xié)議,建立模型;第二階段是實現(xiàn)階段,由參與用戶共同訓練模型、完成聯(lián)邦學習并進行價值共享。
從圖中可以看到,對于數(shù)據(jù)附屬,主要通過區(qū)塊鏈所使用的零知識證明、智能合約等在保護隱私數(shù)據(jù)的同時如實記錄聯(lián)邦學習的全過程;對于數(shù)據(jù)本體,在準備階段采用基于隱私保護的數(shù)據(jù)建模,防止由于原始數(shù)據(jù)參與參數(shù)傳遞導致的潛在數(shù)據(jù)泄露的情況,在實現(xiàn)階段采用不經(jīng)意傳輸、差分隱私、同態(tài)加密等,防止在進行聯(lián)邦學習時的中間數(shù)據(jù)等被惡意獲取、使用等。
在面向聯(lián)邦學習的共享數(shù)據(jù)湖建設(shè)中,首先需要按照矩陣中的劃分對數(shù)據(jù)湖進行相應(yīng)的配置,從而為聯(lián)邦學習的全過程中產(chǎn)生的各類數(shù)據(jù)提供針對性的保護。
同時,數(shù)據(jù)湖還需要將入侵防護、追蹤溯源、訪問控制等技術(shù)作為構(gòu)建數(shù)據(jù)保護能力的基礎(chǔ),使其成為數(shù)據(jù)湖作為用戶間共建共享的信息基礎(chǔ)設(shè)施的標準配置。
此外,面向聯(lián)邦學習的共享數(shù)據(jù)湖建設(shè)中還需要考慮兩類可預見的風險:
第一類是安全性衰減風險。從技術(shù)發(fā)展的歷程看,不論是直接參與聯(lián)邦學習的數(shù)據(jù)保護技術(shù)如不經(jīng)意傳輸、差分隱私等,還是構(gòu)建共享數(shù)據(jù)湖基礎(chǔ)數(shù)據(jù)保護能力的入侵防護、追蹤溯源等技術(shù),都面臨著安全性因技術(shù)進步而不斷下降的現(xiàn)實風險。
第二類是超范圍使用風險。目前聯(lián)邦學習的應(yīng)用研究中,正在探索采用聯(lián)邦學習進行融合金融、醫(yī)療、用戶行為等多方數(shù)據(jù)源的商業(yè)實踐。在這類商業(yè)實踐中,用戶隱私有可能隨著關(guān)聯(lián)數(shù)據(jù)超出預計范圍而出現(xiàn)意想不到的數(shù)據(jù)泄露風險。
因此,出于合規(guī)與安全的共同需要,面向聯(lián)邦學習的共享數(shù)據(jù)湖建設(shè)還應(yīng)當考慮與大數(shù)據(jù)監(jiān)管系統(tǒng)建設(shè)的適配,讓監(jiān)管部門可以實時掌握第一手情況,從而最大限度的規(guī)避技術(shù)創(chuàng)新過程中的各類風險。
本文分析了聯(lián)邦學習與數(shù)據(jù)湖的不兼容性和融合契機,梳理了適用于實現(xiàn)聯(lián)邦學習和數(shù)據(jù)湖技術(shù)融合的數(shù)據(jù)保護技術(shù),探討構(gòu)建了基于數(shù)據(jù)保護和價值共享的隱私數(shù)據(jù)使用矩陣,提出了面向聯(lián)邦學習的共享數(shù)據(jù)湖建設(shè)策略,為解決不同數(shù)據(jù)所有方在數(shù)據(jù)湖中共同安全、合規(guī)的使用數(shù)據(jù)資源等提供了具體的技術(shù)建議。