詹玉峰 王家盛 夏元清
1.北京理工大學(xué)自動化學(xué)院 北京 100081 2.北京理工大學(xué)長三角研究院(嘉興) 浙江嘉興 314019
對于人工智能應(yīng)用,為了獲得高質(zhì)量的推理模型,必須依賴大量的訓(xùn)練數(shù)據(jù)輸入模型供其訓(xùn)練.而當(dāng)前人工智能的應(yīng)用除了有限的幾個特殊行業(yè),更多領(lǐng)域面臨小數(shù)據(jù),或者數(shù)據(jù)質(zhì)量很差的困境,而且這些數(shù)據(jù)分散在不同的用戶,形成一個個“數(shù)據(jù)孤島”,數(shù)據(jù)之間缺乏有效的互通和協(xié)作[1-2].以數(shù)字醫(yī)療為例,基于深度學(xué)習(xí)的腫瘤檢測已經(jīng)顯示出良好的前景,但需要大量解剖學(xué)、病理學(xué)等X 光片才能使模型變得廣泛有效[3].現(xiàn)實場景下由于這些數(shù)據(jù)是非常敏感的,并且使用有嚴(yán)格限制,難以獲取.數(shù)據(jù)匿名能一定程度上緩解這種約束,但研究表明,即使刪除患者姓名和出生日期等敏感信息,仍然無法有效保護數(shù)據(jù)隱私[4-5].因而,目前各個用戶之間的醫(yī)療數(shù)據(jù)都是獨立的,在數(shù)據(jù)不能互通的情況下,各自的數(shù)據(jù)來源遠遠不夠,模型性能無法得到顯著提升.此外,以多智能車協(xié)同控制為代表的集群控制同樣面臨這樣的問題[12-13].智能車需要大量訓(xùn)練樣本來提升自主導(dǎo)航能力,單純依靠自身采集到的數(shù)據(jù)樣本很難完成這一目標(biāo).而直接從其他用戶采集駕駛數(shù)據(jù)會面臨數(shù)據(jù)隱私保護的限制.如何破解“數(shù)據(jù)孤島”與“數(shù)據(jù)隱私保護”的兩難困境,成為人工智能技術(shù)行業(yè)應(yīng)用中亟需解決的問題[6-7].
為了擺脫“數(shù)據(jù)孤島”困境,加速人工智能在更多行業(yè)應(yīng)用,谷歌提出基于本地協(xié)作訓(xùn)練的聯(lián)邦學(xué)習(xí)技術(shù)[8].這項技術(shù)提出后,得到來自斯坦福大學(xué)[9-10]、加州大學(xué)伯克利分校[11-12]、帝國理工學(xué)院[13-14]、清華大學(xué)[15]等國內(nèi)外知名學(xué)術(shù)機構(gòu)和谷歌[8,16]、英偉達[17]、臉書[18]、華為[19]、平安科技[20]等國際性大公司的廣泛關(guān)注,并在智慧醫(yī)療[17]、保險[21]以及金融風(fēng)控[22]等多個領(lǐng)域得到應(yīng)用[23].2019年,全球最具權(quán)威的IT 研究與顧問咨詢公司Gartner 預(yù)計到2023年聯(lián)邦學(xué)習(xí)有望成為邊緣設(shè)備中最重要的計算任務(wù)[24].
聯(lián)邦學(xué)習(xí)目的是在滿足隱私保護和數(shù)據(jù)安全的前提下,設(shè)計一種新型機器學(xué)習(xí)框架,使得各用戶在不交換數(shù)據(jù)的情況下進行協(xié)作,提升機器學(xué)習(xí)的性能.其核心是解決由于數(shù)據(jù)隱私保護導(dǎo)致的數(shù)據(jù)孤島問題,通過建立數(shù)據(jù)“聯(lián)邦”,從而使得任一用戶都能獲得所有數(shù)據(jù)蘊含的知識.
圖1展示了聯(lián)邦學(xué)習(xí)典型架構(gòu)以及訓(xùn)練過程.1)用戶從云端下載參數(shù)服務(wù)器維護的最新機器學(xué)習(xí)模型參數(shù).2)每一用戶在本地數(shù)據(jù)集上訓(xùn)練從參數(shù)服務(wù)器下載的模型.3)用戶執(zhí)行完本地訓(xùn)練后,將訓(xùn)練好的本地模型上傳至參數(shù)服務(wù)器.4)待收集到所有用戶訓(xùn)練好的本地模型,參數(shù)服務(wù)器執(zhí)行參數(shù)聚合,生成最新的全局模型參數(shù).重復(fù)執(zhí)行1)~4),直到訓(xùn)練出期望的模型.從圖1可以看出,聯(lián)邦學(xué)習(xí)包含兩個主要成員,即參數(shù)服務(wù)器和數(shù)據(jù)擁有者(用戶).假設(shè)參與聯(lián)邦學(xué)習(xí)的用戶集為,并且每一用戶i 的訓(xùn)練數(shù)據(jù)集為.
圖1 聯(lián)邦學(xué)習(xí)訓(xùn)練流程Fig.1 The training procedure of federated learning
機器學(xué)習(xí)通過訓(xùn)練數(shù)據(jù)來學(xué)得模型.以監(jiān)督學(xué)習(xí)為例,一個訓(xùn)練樣本j 包含兩個部分:機器學(xué)習(xí)模型的輸入數(shù)據(jù)向量xj和機器學(xué)習(xí)模型的期望輸出yj.為了使機器學(xué)習(xí)方法能夠?qū)W到好的模型,需要定義一個關(guān)于模型參數(shù)ω 和訓(xùn)練樣本j 的損失函數(shù).損失函數(shù)用來表征當(dāng)前模型輸出和期望輸出的差距,機器學(xué)習(xí)的目標(biāo)就是在現(xiàn)有數(shù)據(jù)集的基礎(chǔ)上最小化損失函數(shù).本文采用來表示機器學(xué)習(xí)模型在訓(xùn)練樣本j 上的損失函數(shù)(為了表述方便,下文使用來代替).對于擁有訓(xùn)練集為的用戶i 而言,其損失函數(shù)可表示為:
聯(lián)邦學(xué)習(xí)現(xiàn)有研究成果表明,獲得高質(zhì)量機器學(xué)習(xí)模型的前提是必須有攜帶高質(zhì)量數(shù)據(jù)的用戶持續(xù)參與聯(lián)邦學(xué)習(xí)訓(xùn)練.毫無疑問,參與聯(lián)邦學(xué)習(xí)會帶來能耗以及CPU、內(nèi)存和通信等資源的消耗[8,25-28];同時,數(shù)據(jù)蘊含著巨大的價值,已成為重要的生產(chǎn)要素和戰(zhàn)略資產(chǎn)[29].這些原因使得用戶在沒有補償?shù)那闆r下,參與聯(lián)邦學(xué)習(xí)訓(xùn)練的積極性下降.此外,由于數(shù)據(jù)隱私保護限制,聯(lián)邦學(xué)習(xí)無法對用戶數(shù)據(jù)進行有效監(jiān)管,因此,訓(xùn)練數(shù)據(jù)質(zhì)量得不到保證,最終都將破壞聯(lián)邦學(xué)習(xí)訓(xùn)練的可持續(xù)性.而如何保障聯(lián)邦學(xué)習(xí)訓(xùn)練的可持續(xù)性是當(dāng)前聯(lián)邦學(xué)習(xí)推廣應(yīng)用所面臨的一個關(guān)鍵問題.激勵機制驅(qū)動的數(shù)據(jù)交易是解決這一問題的有效途徑[30-33],國際上對這方面的研究尚處于起步階段,對其進行深入研究具有重要意義.面向聯(lián)邦學(xué)習(xí)的激勵設(shè)計不僅包括數(shù)據(jù)交易,還包括對計算資源[28]和通信資源[33]的激勵[34-36].不同于從資源激勵的角度考慮問題,本文從數(shù)據(jù)交易的角度來考慮聯(lián)邦學(xué)習(xí)的激勵機制設(shè)計.在實際聯(lián)邦學(xué)習(xí)環(huán)境,數(shù)據(jù)資源更加容易被用戶控制.而對于計算資源和通信資源,用戶很難進行精確控制.因此,認為研究基于數(shù)據(jù)交易的聯(lián)邦學(xué)習(xí)激勵機制更加有實際意義.盡管已經(jīng)有相關(guān)面向聯(lián)邦學(xué)習(xí)的研究綜述工作[37-40],但是從數(shù)據(jù)交易角度調(diào)研聯(lián)邦學(xué)習(xí)激勵機制的工作尚未出現(xiàn).面向數(shù)據(jù)交易的激勵機制設(shè)計是保障聯(lián)邦學(xué)習(xí)可持續(xù)訓(xùn)練的關(guān)鍵方法,是關(guān)系到聯(lián)邦學(xué)習(xí)能否推廣部署的重要環(huán)節(jié),因此,對其進行深入研究具有重要的理論和實際應(yīng)用價值.
為了保障聯(lián)邦學(xué)習(xí)的可持續(xù)性,IEEE INFOCOM,IEEE ICDCS 等頂級國際會議以及IEEE TMC,IEEE JSAC 等頂級國際期刊已經(jīng)有相關(guān)工作,通過激勵機制方法來驅(qū)動用戶進行數(shù)據(jù)交易,以此實現(xiàn)這一目標(biāo).聯(lián)邦學(xué)習(xí)中的激勵機制研究最早由國際知名學(xué)者楊強在2019年IJCAI 的專題研討會上提出,后續(xù)逐漸有研究者開始涉足這個領(lǐng)域,但是總體而言,這方面的研究還比較少,屬于新興領(lǐng)域.面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易不僅要考慮激勵機制設(shè)計,同時需要精確地度量每一用戶數(shù)據(jù)對聯(lián)邦學(xué)習(xí)模型的貢獻.所以,在介紹面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易之前,本節(jié)將首先介紹激勵機制設(shè)計和機器學(xué)習(xí)中數(shù)據(jù)貢獻度量這兩項基礎(chǔ)性工作.
機制設(shè)計被認為是博弈論和社會選擇理論的交叉,假定參與者的行為是按照博弈所刻畫的方式進行,并且符合社會選擇理論對各種情形設(shè)定的社會目標(biāo),因此,機制設(shè)計就是研究構(gòu)造什么樣的博弈形式,使得這個博弈的解最接近那個社會目標(biāo).面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易同樣是多方互動,任務(wù)發(fā)布者希望獲得最好的機器學(xué)習(xí)模型同時支付更少的報酬.而對于數(shù)據(jù)提供者而言,希望獲得更多的報酬同時消耗更少的花費.這就需要有一套完善的機制設(shè)計方法,通過構(gòu)造相應(yīng)的博弈形式,使得每一方都能達到自己的目標(biāo).所以,激勵機制設(shè)計是面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易的基礎(chǔ),現(xiàn)有面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易都是基于激勵機制來驅(qū)動的.本節(jié)將對激勵機制在其他領(lǐng)域的研究進行簡要介紹,幫助了解激勵機制是如何工作的,為下文激勵機制在機器學(xué)習(xí)和聯(lián)邦學(xué)習(xí)中的研究做鋪墊.
激勵機制設(shè)計在P2P 網(wǎng)絡(luò)、無線頻譜分配以及群智感知等領(lǐng)域已經(jīng)被廣泛研究.尤其在群智感知領(lǐng)域,是過去幾年研究的熱點,在ACM MobiCom,IEEE INFOCOM 等頂級國際會議以及IEEE/ACM ToN,IEEE TMC 等頂級國際期刊出現(xiàn)大量前沿研究成果.文獻[41]最早將經(jīng)濟領(lǐng)域中的逆向拍賣應(yīng)用在群智感知激勵機制研究中,在最小化支付代價的同時,保證用戶的高參與率.Feng 等采用組合拍賣模式來激勵參與者,參與者可以根據(jù)自己所在位置和感知范圍競價多個感知任務(wù),平臺根據(jù)參與者競價情況來選擇參與用戶[42].Luo 等提出用全支付拍賣的方法來激勵用戶參與,平臺只支付給參與者中貢獻最大的競標(biāo)者[43].文獻[44]提出基于雙向拍賣的激勵方式,實現(xiàn)基于K匿名的位置隱私保護.文獻[45]采用VCG 機制解決在線感知任務(wù)的分發(fā).針對以平臺為中心的群智感知激勵機制設(shè)計.文獻[46]采用斯坦伯格博弈來最大化任務(wù)發(fā)布者的效用.Luo 等基于斯坦伯格模型,通過參與者之間的社交關(guān)系來實現(xiàn)激勵機制設(shè)計[47].針對群智感知中多任務(wù)發(fā)布者之間的競爭接入,以及用戶參數(shù)動態(tài)不可知性,傳統(tǒng)的博弈機制無法求出解析解,文獻[48]提出基于多智能體策略梯度的強化學(xué)習(xí)機制設(shè)計方法.
訓(xùn)練數(shù)據(jù)的質(zhì)量將直接影響機器學(xué)習(xí)訓(xùn)練出來模型的優(yōu)劣[49].構(gòu)建機器學(xué)習(xí)模型的數(shù)據(jù)往往來自多個實體.如互聯(lián)網(wǎng)企業(yè)分析各種用戶數(shù)據(jù)來改進產(chǎn)品設(shè)計,從而獲取更高的收入.此外,來自于不同實體的數(shù)據(jù)質(zhì)量有很大差異.如圖2所示,機器學(xué)習(xí)系統(tǒng)的利益相關(guān)者經(jīng)常關(guān)心的一個關(guān)鍵問題是如何公平地將機器學(xué)習(xí)模型產(chǎn)生的收益分配給不同數(shù)據(jù)貢獻者.在機器學(xué)習(xí)中,基于數(shù)據(jù)貢獻的交易機制目前已經(jīng)有相關(guān)研究,但這些工作都是基于數(shù)據(jù)可監(jiān)管的集中式機器學(xué)習(xí)訓(xùn)練模式[50-51].考慮到數(shù)據(jù)已經(jīng)成為高附加值商品,因此,必須通過價值估算支付相應(yīng)報酬,用戶才會共享數(shù)據(jù).在這里面臨最大的挑戰(zhàn)是如何對數(shù)據(jù)的貢獻進行公平的度量,目前主流的做法是通過夏普利值來衡量用戶數(shù)據(jù)對模型的貢獻[52-60].夏普利值是合作博弈論中分配所有參與者聯(lián)盟產(chǎn)生的總收益的經(jīng)典方法,并已成功應(yīng)用于其他領(lǐng)域,從經(jīng)濟學(xué)、反恐、環(huán)境科學(xué)到機器學(xué)習(xí).夏普利值能被廣泛采用的一大原因是它定義了一個獨特的利潤分配方案
圖2 數(shù)據(jù)估值Fig.2 Overview of data valuation
式中,I 代表所有用戶,S 代表I 的一個子集,U(·)是效用函數(shù).該方案滿足公平性、合理性和分散性等現(xiàn)實世界追求的目標(biāo)[61].Jia 等首次使用夏普利值來公平度量數(shù)據(jù)對模型的貢獻[52].考慮到夏普利值計算需要不斷重復(fù)訓(xùn)練次機器學(xué)習(xí)模型,訓(xùn)練的規(guī)模非常大,在現(xiàn)實場景下難以實現(xiàn),因此,作者提出近似算法,使得夏普利近似值和真實值之間滿足:
激勵機制設(shè)計和數(shù)據(jù)貢獻度量是解決面向聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易的兩樣基本工具.在介紹完激勵機制和機器學(xué)習(xí)中數(shù)據(jù)貢獻度量,下節(jié)將介紹兩種面向聯(lián)邦學(xué)習(xí)的主流數(shù)據(jù)交易機制.
2.3.1 方法綜述
機器學(xué)習(xí)模型的精度和訓(xùn)練數(shù)據(jù)量存在一定的內(nèi)在聯(lián)系[62-63],這也是目前機器學(xué)習(xí)模型追求大數(shù)據(jù)集的原因.博弈論是分析聯(lián)邦學(xué)習(xí)中多個參與者動機及其行為的有力工具.文獻[63]提出了一種基于古諾模型的聯(lián)邦學(xué)習(xí)平臺激勵機制.該平臺將分布式深度學(xué)習(xí)和群智感知相結(jié)合,用于移動客戶端的大數(shù)據(jù)分析.聯(lián)邦學(xué)習(xí)平臺會發(fā)布訓(xùn)練任務(wù)和相應(yīng)的獎勵.為了最大化自身效用,移動用戶會根據(jù)收益和自身開銷來制定自身最優(yōu)的參與程度,即參與聯(lián)邦學(xué)習(xí)的訓(xùn)練數(shù)據(jù)量的多少.移動用戶之間的關(guān)系可以被建模成非合作博弈,因而每一用戶的最優(yōu)參與度即為納什均衡點.
考慮到文獻[63]中激勵機制的求解需要每一用戶知道其他任意用戶的私有信息,而這在實際場景下是很難滿足的.因此,Zhan 等將強化學(xué)習(xí)與博弈論相結(jié)合,設(shè)計基于強化學(xué)習(xí)機制的聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易方案[64].為了鼓勵用戶攜帶更多的訓(xùn)練數(shù)據(jù)參與聯(lián)邦學(xué)習(xí)任務(wù)當(dāng)中,文獻[64]采用斯坦伯格博弈來建模參數(shù)服務(wù)器與用戶之間的交互關(guān)系.因為參數(shù)服務(wù)器與用戶之間,用戶與用戶之間兩兩都不知道對方的私有信息,所以無法通過解析的方式來求解出參數(shù)服務(wù)器的最優(yōu)定價策略以及用戶的最優(yōu)訓(xùn)練數(shù)據(jù)貢獻策略.Zhan 等提出基于深度強化學(xué)習(xí)的機制設(shè)計方法,在聯(lián)邦學(xué)習(xí)的每一輪中,參數(shù)服務(wù)器端的智能體會根據(jù)歷史信息(參數(shù)服務(wù)器的定價策略,用戶的數(shù)據(jù)貢獻策略,聯(lián)邦學(xué)習(xí)的訓(xùn)練性能等)來決策當(dāng)前這一輪最優(yōu)定價策略,用戶再根據(jù)參數(shù)服務(wù)器的定價策略來確定這一輪最優(yōu)的數(shù)據(jù)貢獻策略.基于深度強化學(xué)習(xí)的機制設(shè)計方法,參數(shù)服務(wù)器事先無需知道每一用戶的私有信息.強化學(xué)習(xí)智能體通過不斷與用戶交互,采集經(jīng)驗數(shù)據(jù),并從經(jīng)驗數(shù)據(jù)中學(xué)習(xí)內(nèi)在規(guī)律,進而獲得最優(yōu)的策略網(wǎng)絡(luò).實驗結(jié)果表明,通過深度強化學(xué)習(xí)方法設(shè)計的激勵機制與傳統(tǒng)解析方法設(shè)計的激勵機制可獲得相似的性能.
文獻[63-64]中,任務(wù)發(fā)布者制定價格策略,而用戶根據(jù)任務(wù)發(fā)布者的定價來決策使用多少訓(xùn)練數(shù)據(jù)參與聯(lián)邦學(xué)習(xí).與文獻[64]相同,文獻[65]中,Feng 等同樣使用斯坦伯格博弈來建模激勵機制.但不同的是,Feng 等將用戶建模成斯坦伯格博弈的領(lǐng)導(dǎo)者并發(fā)布定價策略.而任務(wù)發(fā)布者被建模成斯坦伯格博弈的跟隨者,從而根據(jù)用戶的定價來決策每一用戶的訓(xùn)練數(shù)據(jù)量.其中,任務(wù)發(fā)布者將模型精度建模成所有用戶參與聯(lián)邦學(xué)習(xí)數(shù)據(jù)量的凹函數(shù).
文獻[63-65]中激勵機制設(shè)計基于傳統(tǒng)的聯(lián)邦學(xué)習(xí)架構(gòu),在云端的參數(shù)服務(wù)器負責(zé)聚合用戶模型參數(shù)并將報酬反饋給用戶.而這種架構(gòu)嚴(yán)重依賴參數(shù)服務(wù)器的魯棒性,當(dāng)參數(shù)服務(wù)器發(fā)生故障將導(dǎo)致整個聯(lián)邦學(xué)習(xí)訓(xùn)練失敗.區(qū)塊鏈由于去中心化的優(yōu)點,使得其非常適合用于聯(lián)邦學(xué)習(xí)的訓(xùn)練保障[66-67].現(xiàn)有研究表明,通過用戶本地模型更新量可以反推出用戶原始數(shù)據(jù)[76-77],差分隱私[78]和同態(tài)加密[79]技術(shù)可以被用來解決這一問題.融合區(qū)塊鏈、差分隱私以及同態(tài)加密技術(shù)能夠有效保障聯(lián)邦學(xué)習(xí)的安全可信,實現(xiàn)用戶數(shù)據(jù)的隱私保護.Kim 等用區(qū)塊鏈代替參數(shù)服務(wù)器,提出基于區(qū)塊鏈的聯(lián)邦學(xué)習(xí)架構(gòu)[68],BlockFL 通過區(qū)塊鏈網(wǎng)絡(luò)實現(xiàn)模型參數(shù)共享,并且提供相應(yīng)報酬給用戶.其中,給每一用戶的報酬與用戶參與聯(lián)邦學(xué)習(xí)的數(shù)據(jù)量成比例.Weng 等設(shè)計了基于區(qū)塊鏈的多人共同參與深度學(xué)習(xí)模型訓(xùn)練的協(xié)作訓(xùn)練框架[69].Deepchain 用戶執(zhí)行本地訓(xùn)練,并將訓(xùn)練好的本地梯度打包成交易發(fā)送到區(qū)塊鏈,以此來實現(xiàn)梯度共享.基于此,Deepchain 根據(jù)用戶處理的數(shù)據(jù)量和誠實度對其進行獎勵,并且確保了激勵相容性.Zhang 等根據(jù)用戶數(shù)據(jù)量和數(shù)據(jù)類之間的質(zhì)心距離來衡量用戶對聯(lián)邦學(xué)習(xí)的模型貢獻,并通過區(qū)塊鏈代幣來激勵用戶參與聯(lián)邦學(xué)習(xí)[70].
2.3.2 總結(jié)
以上為近年來基于數(shù)據(jù)量的聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易機制的介紹,如表1所示,對相關(guān)工作進行了總結(jié)比較.文獻[63]基于古諾模型建模了數(shù)據(jù)交易機制;Zhan等用斯坦伯格博弈建模任務(wù)發(fā)布者和用戶之間的數(shù)據(jù)交易,其中任務(wù)發(fā)布者為斯坦伯格博弈的領(lǐng)導(dǎo)者,用戶為跟隨者,并用深度強化學(xué)習(xí)來設(shè)計激勵機制[64];Feng 等將用戶建模成斯坦伯格博弈的領(lǐng)導(dǎo)者,參數(shù)服務(wù)器為跟隨者,并將訓(xùn)練模型精度建模成用戶訓(xùn)練數(shù)據(jù)總量的凹函數(shù)[65].在分析傳統(tǒng)聯(lián)邦學(xué)習(xí)架構(gòu)的不足后,Kim 等提出BlockFL 架構(gòu),采用區(qū)塊鏈網(wǎng)絡(luò)來共享模型參數(shù),并且每一用戶獲得的獎勵與其參與聯(lián)邦學(xué)習(xí)的訓(xùn)練數(shù)據(jù)量成線性關(guān)系[68];Weng 等同樣采用區(qū)塊鏈網(wǎng)絡(luò)來共享模型參數(shù),設(shè)計基于訓(xùn)練數(shù)據(jù)量和用戶誠實度的報酬分配方案,并且保證了激勵相容性[69].Zhang 等采用數(shù)據(jù)量和數(shù)據(jù)類之間的質(zhì)心距離來衡量用戶貢獻,并基于此分發(fā)區(qū)塊鏈代幣激勵用戶[70].總體而言,基于數(shù)據(jù)量的聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易機制是這個領(lǐng)域的早期研究工作,這些工作都建立在用戶訓(xùn)練數(shù)據(jù)對模型的貢獻度相同假設(shè)條件下.這在實際情況下是很難保證的,如在訓(xùn)練數(shù)據(jù)質(zhì)量參差不齊的情況下,每一訓(xùn)練數(shù)據(jù)對模型的貢獻度都將不同,這就導(dǎo)致基于數(shù)據(jù)量的數(shù)據(jù)交易機制不能準(zhǔn)確評估每一用戶對訓(xùn)練模型的貢獻,從而導(dǎo)致獎勵的分配不公平,影響攜帶高質(zhì)量訓(xùn)練數(shù)據(jù)用戶的參與積極性.
表1 基于數(shù)據(jù)量的聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易機制比較Table 1 Comparation of various data trading mechanism for federated learning based on the data quantity
2.4.1 方法綜述
考慮到實際環(huán)境下,用戶的數(shù)據(jù)質(zhì)量存在差異,單純地利用數(shù)據(jù)量來進行交易存在很大的缺陷.如用戶A 有M 個訓(xùn)練樣本,用戶B 有N 個訓(xùn)練樣本,其中,M≥N.如果單純依靠數(shù)據(jù)量來進行數(shù)據(jù)交易,用戶A 獲得的報酬必然高于用戶B.但是如果A 的數(shù)據(jù)質(zhì)量遠遠低于用戶B,那么用戶A 對聯(lián)邦學(xué)習(xí)模型訓(xùn)練的貢獻并不會高于用戶B.這就導(dǎo)致在訓(xùn)練數(shù)據(jù)質(zhì)量不均衡的情況下,單純利用數(shù)據(jù)量來進行數(shù)據(jù)交易會帶來很大的不公平性,這種不公平性將直接導(dǎo)致攜帶有高質(zhì)量訓(xùn)練數(shù)據(jù)的用戶參與聯(lián)邦學(xué)習(xí)的積極性下降.
不同于上述工作[63-65,68-70],基于數(shù)據(jù)量來進行數(shù)據(jù)交易,為了能夠更加公平地在用戶之間分配模型訓(xùn)練獎勵,Wang 等設(shè)計了面向橫向聯(lián)邦學(xué)習(xí)的缺失法和面向縱向聯(lián)邦學(xué)習(xí)的夏普利值法來公平量測用戶本地訓(xùn)練模型對聯(lián)邦學(xué)習(xí)模型訓(xùn)練貢獻的大小[71].Jiao等發(fā)現(xiàn)聯(lián)邦學(xué)習(xí)訓(xùn)練的模型精度與用戶數(shù)據(jù)量和數(shù)據(jù)分布有內(nèi)在聯(lián)系,從而通過理論分析得出每一用戶參與聯(lián)邦學(xué)習(xí)對模型精度的貢獻.基于理論推導(dǎo)的模型貢獻數(shù)值表達式,Jiao 等采用拍賣機制建立參數(shù)服務(wù)器和用戶之間的訓(xùn)練交互關(guān)系,進而設(shè)計基于深度強化學(xué)習(xí)的激勵機制方法[72].
Song 等采用每一輪用戶參與對模型精度的提升來度量用戶的貢獻,并通過夏普利值來實現(xiàn)收益的公平分配[73].Song 等提出一種基于夏普利值的有效指標(biāo),稱為貢獻指數(shù),以此來評價不同用戶在聯(lián)邦學(xué)習(xí)模型訓(xùn)練中的貢獻.為了計算不同用戶的貢獻指數(shù),需要對不同訓(xùn)練數(shù)據(jù)集組合的機器學(xué)習(xí)模型進行訓(xùn)練和評估.因此,這將消耗大量的時間和開銷,而這在實際情況下是不可能的.為了克服這個難題,本文通過聯(lián)邦學(xué)習(xí)的中間結(jié)果在不同訓(xùn)練數(shù)據(jù)集上的組合近似重構(gòu)模型,以此來避免額外的訓(xùn)練開銷.
Wang 等發(fā)現(xiàn)聯(lián)邦學(xué)習(xí)中用戶對模型的貢獻跟用戶的參與順序同樣有很大關(guān)系,基于此研究了面向用戶參與順序的夏普利值計算方法[74].這種方法不僅保留了標(biāo)準(zhǔn)夏普利值的期望屬性,同時可以在不產(chǎn)生額外通信開銷的情況下計算夏普利值,并且還能夠捕獲用戶參與順序?qū)ο钠绽档挠绊?
2.4.2 總結(jié)
以上為近年關(guān)于模型貢獻度的聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易機制的介紹,表2對相關(guān)工作進行了總結(jié)比較.如何衡量用戶本地訓(xùn)練對聯(lián)邦學(xué)習(xí)模型訓(xùn)練的貢獻是當(dāng)下關(guān)注的一個重要問題,對聯(lián)邦學(xué)習(xí)的可持續(xù)訓(xùn)練以及安全性都有重要價值[75].Jiao 等首先通過理論分析建模出用戶數(shù)據(jù)對聯(lián)邦學(xué)習(xí)模型貢獻度的數(shù)值表達式,進而采用拍賣理論建模激勵機制,并通過深度強化學(xué)習(xí)的方法來設(shè)計激勵機制[72].Song 等采用夏普利值來建模用戶本地訓(xùn)練對聯(lián)邦學(xué)習(xí)模型的貢獻,并基于夏普利值設(shè)計激勵機制[73].Wang 等發(fā)現(xiàn)基于夏普利值的激勵機制設(shè)計與用戶參與聯(lián)邦學(xué)習(xí)的先后順序有很大關(guān)系,從而設(shè)計出基于用戶參與順序的夏普利值求解方法[74].基于模型貢獻度的數(shù)據(jù)交易機制能夠公平地在用戶間分配收益,從而能夠切實激發(fā)用戶的參與積極性,這將是未來面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易重點研究方向之一.
表2 基于模型貢獻度的聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易機制比較Table 2 Comparation of various data trading mechanism for federated learning based on the model contribution
盡管激勵機制設(shè)計方法已經(jīng)在其他領(lǐng)域取得重要成果,并在聯(lián)邦學(xué)習(xí)領(lǐng)域開始研究,但是在保障聯(lián)邦學(xué)習(xí)可持續(xù)訓(xùn)練領(lǐng)域的研究并不成熟,仍有一些問題需要進一步探討,例如:
1)效用模型難構(gòu)建,激勵機制設(shè)計問題難分析.聯(lián)邦學(xué)習(xí)任務(wù)當(dāng)中,用戶之間具有強耦合性,很難區(qū)分每個用戶的具體貢獻;同時聯(lián)邦學(xué)習(xí)的性能與用戶數(shù)據(jù)之間的關(guān)系更加復(fù)雜.因此,相比其他領(lǐng)域,聯(lián)邦學(xué)習(xí)中的效用模型更難構(gòu)建,機制設(shè)計問題更難分析.
2)用戶數(shù)據(jù)對聯(lián)邦學(xué)習(xí)模型貢獻度的建模過于理想,且無法篩選出優(yōu)質(zhì)訓(xùn)練數(shù)據(jù).現(xiàn)有工作大多假設(shè)用戶數(shù)據(jù)對聯(lián)邦學(xué)習(xí)模型的貢獻只與數(shù)據(jù)量有關(guān),這與實際的系統(tǒng)不盡相符.盡管已經(jīng)有基于夏普利值的模型貢獻度量方法,但是,如何根據(jù)機制設(shè)計方法來促使用戶在不泄露數(shù)據(jù)隱私情況下篩選出更加優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù),具有更加重要的實用價值.
3)現(xiàn)有的激勵機制設(shè)計方法往往基于某種特定聯(lián)邦學(xué)習(xí)算法,這就導(dǎo)致在數(shù)據(jù)統(tǒng)計異構(gòu)環(huán)境下訓(xùn)練出來的模型精度非常差.如何建立激勵機制與聯(lián)邦學(xué)習(xí)算法之間的內(nèi)在聯(lián)系,通過激勵機制驅(qū)動用戶訓(xùn)練模式,動態(tài)調(diào)整聯(lián)邦學(xué)習(xí)算法是目前相關(guān)研究無法解決的問題.基于此,本節(jié)探討了未來面向聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易的3 個可行研究方向.
為了保障聯(lián)邦學(xué)習(xí)訓(xùn)練的可持續(xù)性,必須做到模型收益在用戶之間的公平分配,否則高質(zhì)量的用戶極有可能離開聯(lián)邦學(xué)習(xí)訓(xùn)練.因此,首先要建立用戶數(shù)據(jù)對聯(lián)邦學(xué)習(xí)模型訓(xùn)練貢獻的評價指標(biāo).基于用戶對模型貢獻的評價指標(biāo),再次設(shè)計公平的收益分配機制.在聯(lián)邦學(xué)習(xí)系統(tǒng)當(dāng)中,由于隱私保護的限制導(dǎo)致用戶數(shù)據(jù)難以監(jiān)管使得訓(xùn)練數(shù)據(jù)質(zhì)量無法保障.當(dāng)前已有相關(guān)工作通過機器學(xué)習(xí)理論和區(qū)塊鏈技術(shù)可以追蹤劣質(zhì)數(shù)據(jù)用戶,進而將其從有效訓(xùn)練用戶群中排除[70].但是,對于普通用戶由于設(shè)備或者專業(yè)性問題導(dǎo)致訓(xùn)練數(shù)據(jù)中存在非人為劣質(zhì)數(shù)據(jù)是常見現(xiàn)象,如何分離出普通用戶的劣質(zhì)數(shù)據(jù)將是一項具有挑戰(zhàn)的工作,目前還未有相關(guān)工作.以模型貢獻收益為反饋,設(shè)計有效的劣質(zhì)數(shù)據(jù)分離機制,能夠有效地篩選出優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),進而顯著提升聯(lián)邦學(xué)習(xí)訓(xùn)練模型的質(zhì)量.
面向聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易都是基于參數(shù)服務(wù)器架構(gòu),參數(shù)服務(wù)器作為任務(wù)發(fā)布者來激勵用戶參與模型訓(xùn)練.而在實際情況下,除了參數(shù)服務(wù)器架構(gòu),還存在大量P2P 模式.如多家公司組成一個聯(lián)合體來完成模型訓(xùn)練,此時,所有參與者既是數(shù)據(jù)貢獻者又是模型獲取者.存在的一大問題就是如何解決各參與者的貢獻不一致的問題.如大公司擁有大量高質(zhì)量的訓(xùn)練數(shù)據(jù),而小公司不僅數(shù)據(jù)量少而且質(zhì)量不高.聯(lián)邦學(xué)習(xí)每一輪中,用戶動態(tài)決策是否加入聯(lián)邦學(xué)習(xí),并將參與用戶訓(xùn)練好的模型進行加權(quán)聚合形成全局模型.根據(jù)文獻[74,80]研究表明,可以通過夏普利值來衡量每一參與用戶本地模型對加權(quán)聚合后的全局模型貢獻,結(jié)果表明,用戶模型貢獻不僅與用戶的數(shù)據(jù)相關(guān),而且與用戶動態(tài)加入的順序有關(guān).這時候組成的聯(lián)合體進行模型訓(xùn)練將帶來的一大后果是小公司由于獲得更優(yōu)的模型從而占有更大的市場份額,進而對大公司的利益造成損失.這將勢必導(dǎo)致大公司不愿意參與其中.如圖3所示,為了這種聯(lián)合體訓(xùn)練能夠順利進行下去,需要設(shè)計一種合理的機制.通過對每一參與者的貢獻度進行度量,從而使得低貢獻用戶通過支付相應(yīng)報酬來獲得模型精度上的提升.而攜帶有高質(zhì)量訓(xùn)練數(shù)據(jù)的參與者可以貢獻自身模型來獲取相應(yīng)報酬.
圖3 P2P 模式下的數(shù)據(jù)交易Fig.3 An illustration of data trading in P2P
數(shù)據(jù)統(tǒng)計異構(gòu)是聯(lián)邦學(xué)習(xí)面臨的一大挑戰(zhàn),目前研究表明,在統(tǒng)計異構(gòu)的情況下,現(xiàn)有聯(lián)邦學(xué)習(xí)算法性能將明顯下降,所以激勵機制設(shè)計必須要考慮用戶數(shù)據(jù)統(tǒng)計異構(gòu).而現(xiàn)有面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易機制都是基于固定聯(lián)邦學(xué)習(xí)算法.為了充分發(fā)揮數(shù)據(jù)的潛在價值,需要對聯(lián)邦學(xué)習(xí)算法性能進行建模,研究不同聯(lián)邦學(xué)習(xí)訓(xùn)練算法下機器學(xué)習(xí)模型的性能,進而建立聯(lián)邦學(xué)習(xí)算法與激勵機制之間的內(nèi)在聯(lián)系.最后,通過分析聯(lián)邦學(xué)習(xí)算法與激勵機制之間的內(nèi)在聯(lián)系,設(shè)計激勵機制驅(qū)動用戶執(zhí)行指定的聯(lián)邦學(xué)習(xí)算法.如圖4所示,通過控制聯(lián)邦學(xué)習(xí)每一輪訓(xùn)練用戶本地的訓(xùn)練次數(shù)可以有效解決數(shù)據(jù)統(tǒng)計異構(gòu)問題.此時,可以通過激勵機制來驅(qū)動聯(lián)邦學(xué)習(xí)每一輪訓(xùn)練用戶本地訓(xùn)練的次數(shù),從而解決數(shù)據(jù)統(tǒng)計異構(gòu)難題,最大化發(fā)揮數(shù)據(jù)的潛在價值.
圖4 數(shù)據(jù)統(tǒng)計異構(gòu)下的數(shù)據(jù)交易機制Fig.4 An illustration of data trading in statistical heterogeneity
由于計算和通信異構(gòu),聯(lián)邦學(xué)習(xí)面臨訓(xùn)練難同步的挑戰(zhàn),整個訓(xùn)練過程很容易被落后節(jié)點拖累,導(dǎo)致聯(lián)邦學(xué)習(xí)訓(xùn)練效率低下,異步聯(lián)邦學(xué)習(xí)可以有效緩解這一難題[81-82].不同于同步聯(lián)邦學(xué)習(xí),異步聯(lián)邦學(xué)習(xí)中快速節(jié)點會多次參與模型聚合,故其訓(xùn)練數(shù)據(jù)貢獻度量測方式與同步聯(lián)邦學(xué)習(xí)有很大不同.此外,異步聯(lián)邦學(xué)習(xí)考慮到模型收斂性的問題,需要綜合考慮快速節(jié)點和慢速節(jié)點聚合次數(shù)之間的差異,這種差異量的控制將直接影響聯(lián)邦學(xué)習(xí)訓(xùn)練模型的收斂性.而對用戶訓(xùn)練方式的驅(qū)動,同樣需要設(shè)計相應(yīng)的激勵機制,通過激勵機制來促使用戶按照預(yù)計的方式執(zhí)行訓(xùn)練任務(wù),從而完全異步聯(lián)邦學(xué)習(xí)的訓(xùn)練任務(wù).所以在設(shè)計面向異步聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易機制時,不僅要考慮不同用戶的數(shù)據(jù)價值,同樣要綜合考慮系統(tǒng)的異構(gòu)性,設(shè)計激勵機制驅(qū)動的異步聯(lián)邦學(xué)習(xí)算法,提升聯(lián)邦學(xué)習(xí)訓(xùn)練效率.這同樣是一個非常有價值的研究方向.
聯(lián)邦學(xué)習(xí)技術(shù)正不斷改變?nèi)藗內(nèi)粘I?推動社會發(fā)展.首先介紹了面向聯(lián)邦學(xué)習(xí)數(shù)交易的研究背景和意義.進而介紹了激勵機制設(shè)計方法以及機器學(xué)習(xí)中如何度量數(shù)據(jù)對模型的貢獻.在此基礎(chǔ)之上,分別從數(shù)據(jù)量和模型貢獻度兩個角度調(diào)研了近3年面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易機制.在分析面向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)交易存在的問題基礎(chǔ)之上,最后探討了未來這個領(lǐng)域3 個可行的研究方向,以期為讀者提供進一步的思考與研究.