亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于博弈論優(yōu)化的高效聯(lián)邦學(xué)習(xí)方案

        2022-08-12 02:29:50周全興李秋賢丁紅發(fā)樊玫玫
        計算機工程 2022年8期
        關(guān)鍵詞:擁有者發(fā)布者效用

        周全興,李秋賢,丁紅發(fā),樊玫玫

        (1.凱里學(xué)院 大數(shù)據(jù)工程學(xué)院,貴州 凱里 556011;2.貴州財經(jīng)大學(xué) 信息學(xué)院,貴陽 550025;3.貴州大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,貴陽 550025)

        0 概述

        隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,各類移動設(shè)備的計算及通信能力得到顯著提高。因此,基于機器學(xué)習(xí)的新型學(xué)習(xí)框架應(yīng)運而生[1]。機器學(xué)習(xí)技術(shù)能夠有效提高各類移動設(shè)備的應(yīng)用性能,但是需要將敏感的私有信息和數(shù)據(jù)上傳至中央服務(wù)器并對模型進行訓(xùn)練,存在嚴重的隱私泄露風(fēng)險、額外的計算與通信開銷問題[2-3]。為加強用戶數(shù)據(jù)信息的隱私與安全,聯(lián)邦學(xué)習(xí)[4-5]作為一種新型的分布式機器學(xué)習(xí)技術(shù)應(yīng)運而生。聯(lián)邦學(xué)習(xí)使大規(guī)模的移動設(shè)備在不泄露本地數(shù)據(jù)的前提下,通過協(xié)作使用各自的數(shù)據(jù)集來訓(xùn)練機器學(xué)習(xí)共享模型。聯(lián)邦學(xué)習(xí)作為一種去中心化分布式的訓(xùn)練模型方法,利用各移動設(shè)備的數(shù)據(jù)采集與計算能力解決數(shù)據(jù)的隱私安全問題[6]。

        由于聯(lián)邦學(xué)習(xí)不需要各類移動設(shè)備直接進行數(shù)據(jù)交換,因此在一定程度上保護了用戶的數(shù)據(jù)安全與隱私[7]。文獻[8]提出一種基于貪婪算法的聯(lián)邦學(xué)習(xí)方案,利用分布式移動設(shè)備數(shù)據(jù)和計算資源來訓(xùn)練高性能機器學(xué)習(xí)模型,同時保護客戶端的隱私和安全。文獻[9]通過增強本地移動設(shè)備的計算能力減少聯(lián)邦學(xué)習(xí)通信頻率,設(shè)計典型的聯(lián)邦平均算法,通過云處理中心對局部的移動設(shè)備進行整合,大幅減少了傳輸局部模型的數(shù)量,節(jié)省通信開銷。文獻[10]通過無線網(wǎng)絡(luò)構(gòu)造聯(lián)邦學(xué)習(xí)框架,并對其學(xué)習(xí)時間和數(shù)據(jù)的準確度進行優(yōu)化,以控制用戶的數(shù)據(jù)訓(xùn)練能量成本。文獻[11]提出一種三元聯(lián)邦平均協(xié)議,減少聯(lián)邦學(xué)習(xí)系統(tǒng)中的上下游通信,該方案從保護物聯(lián)網(wǎng)設(shè)備的隱私和安全出發(fā),在降低通信成本和提高學(xué)習(xí)性能方面取得一定成效。文獻[12]為滿足聯(lián)邦學(xué)習(xí)的環(huán)境需求,提出稀疏三元壓縮新的壓縮聯(lián)邦學(xué)習(xí)框架,解決了在聯(lián)邦學(xué)習(xí)訓(xùn)練期間存在通信開銷量大的問題。

        現(xiàn)有的聯(lián)邦學(xué)習(xí)框架假設(shè)各移動設(shè)備都無條件參與聯(lián)邦學(xué)習(xí)[13-14]。在訓(xùn)練數(shù)據(jù)模型中,各移動設(shè)備都會產(chǎn)生相應(yīng)的訓(xùn)練成本,如果沒有激勵策略,自私的數(shù)據(jù)擁有者將不愿意參加聯(lián)邦學(xué)習(xí)[15-16]。此外,由于聯(lián)邦學(xué)習(xí)中任務(wù)發(fā)布者不知道參加模型訓(xùn)練的數(shù)據(jù)擁有者的數(shù)據(jù)質(zhì)量,以及可計算資源量,因此任務(wù)發(fā)布者和數(shù)據(jù)擁有者之間存在信息不對稱的情況。

        為進一步考慮理性參與者的存在,文獻[17]提出一種參與者是理性參與方的理性證明系統(tǒng),將博弈論中的理性用戶[18-21]引入到各安全協(xié)議中。文獻[22]研究了計算能力受限的理性參與者問題。

        為解決聯(lián)邦學(xué)習(xí)的安全隱私與通信開銷問題,本文結(jié)合Micali-Rabin 隨機向量表示技術(shù)和博弈論框架,提出一種高效的聯(lián)邦學(xué)習(xí)方案。根據(jù)博弈論激勵機制,構(gòu)建聯(lián)邦學(xué)習(xí)的博弈模型,其包括聯(lián)邦學(xué)習(xí)的各參與者、效用函數(shù)等擴展式博弈各要素。利用Micali-Rabin 隨機向量表示技術(shù)和Pedersen 承諾機制保障聯(lián)邦學(xué)習(xí)中各參與者訓(xùn)練數(shù)據(jù)的安全與隱私,以達到全局帕累托最優(yōu)狀態(tài)。

        1 相關(guān)理論

        1.1 博弈論

        本文對博弈論中擴展式博弈和帕累托最優(yōu)的基本概念進行簡單說明。

        定義1(擴展式博弈)博弈論是一門用于數(shù)學(xué)模型研究理性決策者之間如何互動的學(xué)科,參與者之間的互動可能涉及到?jīng)_突,也可能涉及到合作。擴展式博弈是個六元 組(P,S,φ,ρ,U,E),包括以 下6 個要素:1)參與者集合P,表示參與聯(lián)邦學(xué)習(xí)的所有參與者集合,包括任務(wù)發(fā)布者和數(shù)據(jù)擁有者;2)參與者的行動策略集合S,指某個參與者在某個時間采取的某種行動策略的集合;3)外生隨機變量φ,不受任何參與方控制的隨機影響方案的變量參數(shù);4)參與者的風(fēng)險規(guī)避ρ,當(dāng)每次方案執(zhí)行時,各個理性參與者在聯(lián)邦學(xué)習(xí)方案中能夠承擔(dān)的各類風(fēng)險規(guī)避程度;5)參與者的效用函數(shù)U,在采取某種行動策略結(jié)束后,每個參與者會獲得相應(yīng)收益;6)參與者的期望效用E,表示達到帕累托最優(yōu)狀態(tài)后,所有參與者達到最大化的期望效用。

        定義2(帕累托最優(yōu))帕累托最優(yōu)是將所有資源進行合理分配的一種理想狀態(tài),當(dāng)全局參與者模型達到帕累托最優(yōu)狀態(tài)后,不會存在一方的效用利益變好,而另一方的效用收益就會因此而受到損失的情況。在這個狀態(tài)下,所有的理性參與方都會選擇合理的行動策略,使得自己的效用利益最大化,并且全局的效用也是最大化。

        如果全局參與者模型達到帕累托最優(yōu)狀態(tài),那么就會滿足交換最優(yōu)、生產(chǎn)最優(yōu)和產(chǎn)品最優(yōu)等條件。各個理性參與者在生產(chǎn)交易過程中,即使交換或更改生產(chǎn)條件或者環(huán)境,都不會從中再獲得利益,從而影響他人利益。各資源已達到理想狀態(tài),不存在帕累托改進的狀態(tài),即帕累托最優(yōu)。

        1.2 Pedersen 承諾機制

        Pedersen 承諾機制是滿足無條件秘密性的同態(tài)承諾機制,構(gòu)造承諾機制需要3 個階段:1)初始化階段,選擇任意乘法群Gq,其中q為大素數(shù),群Gq的生成元為g、h,并公布(g,h,q);2)承諾階段,發(fā)送承諾方隨機選擇值r?Zq,并計算承諾值COM=gmhrmodq,其中m是需要加密的信息,然后將承諾值COM 發(fā)送給接收方;3)打開階段,發(fā)送方將(m,r)一同發(fā)送給接收方,接收方驗證承諾值COM 是否等于gmhrmodq,若是gmhrmodq,則接收,否則拒絕接收任何信息。

        1.3 Micali-Rabin 隨機向量表示技術(shù)

        Micali-Rabin 隨機向量表示技術(shù)是基于Pedersen承諾,通過零知識證明技術(shù)證明方案中等式的正確性。假設(shè)Micali-Rabin 隨機向量表示技術(shù)存在有限域Fp,p為256 bit 的素數(shù),g、h是群Gq的生成元,q為大素數(shù),且q>p,具有以下3 個性質(zhì):1)設(shè)X的隨機向量表示是X=(u,v),其中u、v?Fp,X的值是val(X)=(u+v)modp;2)對隨機向量X=(u,v)的分量進行承諾,COM(X)=(COM(u),COM(v)),其中COM(u)=e(P,Q)u,COM(v)=e(P,Q)v,P、Q?G是 群G的兩個生成元;3)假設(shè)存在一行承諾值C OM(X1),COM(X2),…,COM(Xj),對于任 意i(1 ≤i

        2 聯(lián)邦學(xué)習(xí)博弈模型

        高效聯(lián)邦學(xué)習(xí)博弈模型是結(jié)合博弈論與聯(lián)邦學(xué)習(xí),從聯(lián)邦學(xué)習(xí)參與方自利的角度出發(fā),通過效用函數(shù)來保證聯(lián)邦學(xué)習(xí)數(shù)據(jù)的安全與隱私。為激勵具有高質(zhì)量的數(shù)據(jù)擁有者積極參加聯(lián)邦學(xué)習(xí),本文基于博弈論框架設(shè)計合理有效的激勵合約,將各理性參與者貢獻的資源映射到適當(dāng)?shù)呢泿弄剟钪小⑴c者在追求自身利益最大化的同時滿足聯(lián)邦學(xué)習(xí)全局的利益最大化,從而達到帕累托最優(yōu)狀態(tài)。本節(jié)設(shè)計的高效聯(lián)邦學(xué)習(xí)博弈模型包括七元組(P,φ,S,P(·),ρ,U,E)。

        聯(lián)邦學(xué)習(xí)各個參與者集合P是聯(lián)邦學(xué)習(xí)中任務(wù)發(fā)布者和擁有若干能夠訓(xùn)練模型的各個數(shù)據(jù)擁有者。外生隨機變量φ是指各個參與方無法預(yù)料與控制的外生隨機變量。策略集合S是聯(lián)邦學(xué)習(xí)中各個參與方有可能會采取的行動策略集合。支付函數(shù)P(·)是任務(wù)發(fā)布者激勵數(shù)據(jù)擁有者提供更高質(zhì)量數(shù)據(jù),以獲得支付報酬與獎勵。風(fēng)險規(guī)避函數(shù)ρ是聯(lián)邦學(xué)習(xí)中所有參與者在模型訓(xùn)練時所能承受的風(fēng)險規(guī)避程度。期望效用函數(shù)U,Un:S→R(其中R為實數(shù)空間),表示第n位局中人在不同的行動策略組合下所獲得的期望收益效用函數(shù)??偲谕в煤瘮?shù)E是在聯(lián)邦學(xué)習(xí)總的模型中,所有參與者達到的最大期望收益效用函數(shù)。

        2.1 參與者集合

        高效聯(lián)邦學(xué)習(xí)首先需要建模其方案中各個參與者,在博弈模型中主要存在兩類參與方,即聯(lián)邦學(xué)習(xí)任務(wù)的發(fā)布者Pi和數(shù)據(jù)擁有者Pj,并且兩類參與方都是理性自利的。任務(wù)的發(fā)布者在保證聯(lián)邦學(xué)習(xí)模型中全局利益最優(yōu)的前提下,需要實現(xiàn)個體利益最優(yōu)。數(shù)據(jù)擁有者在完成任務(wù)的前提下,實現(xiàn)個體利益的最大化。因此,在本文博弈模型中參與者集合為P=(Pi,Pj)。

        2.2 外生隨機變量

        在聯(lián)邦學(xué)習(xí)博弈模型中存在一些不受任何參與方控制的影響因素,本文將其稱為外生隨機變量φ,且φ是服從均值為0、方差為σ2的正態(tài)分布。聯(lián)邦學(xué)習(xí)中存在不確定外生因素的任務(wù)發(fā)布者與數(shù)據(jù)擁有者之間的博弈樹,如圖1 所示,其中變量s和d分別表示任務(wù)發(fā)布者和數(shù)據(jù)擁有者的收益。

        圖1 任務(wù)發(fā)布者與數(shù)據(jù)擁有者之間博弈樹Fig.1 Game tree between task publisher and data owner

        2.3 策略集合

        在高效的聯(lián)邦學(xué)習(xí)博弈模型中,由于所有參與者都是自利的,因此任務(wù)發(fā)布者在發(fā)布任務(wù)后可以選擇“激勵”或者“懲罰”數(shù)據(jù)擁有者。令si1表示選擇“激勵”策略,此時si1=1。而si2表示選擇“懲罰”對方的策略,此時si2=0。因此,任務(wù)發(fā)布者的行動策略集合為(激勵,懲罰),即si=(si1,si2)。

        自私的數(shù)據(jù)擁有者在接收到任務(wù)后可以選擇“誠實”或者“惡意”策略進行訓(xùn)練數(shù)據(jù)與反饋。令sj1表示選擇“誠實”執(zhí)行任務(wù)策略,此時sj1=1,而sj2表示選擇“惡意”的策略,此時sj2=0。因此,數(shù)據(jù)擁有者的行動策略集合為(誠實,惡意),即sj=(sj1,sj2)。

        當(dāng)雙方都選擇利于自己的行為策略時,且雙方都能達到最大效用時,令π=ks+φ表示雙方達到最大效用時的貨幣表示形式,k(k≥0)表示參與方選擇不同行動策略時對雙方整體效用的影響系數(shù)。在執(zhí)行任務(wù)過程中存在不受控制的環(huán)境變量φ,且φ服從正態(tài)分布,因此聯(lián)邦學(xué)習(xí)的雙方總期望效用函數(shù)為E(π)=E(ks+φ)=ks,var(π)=σ2。參與方采取的行為策略會影響全局中整體的效用均值。

        2.4 支付函數(shù)

        在聯(lián)邦學(xué)習(xí)博弈模型中,任務(wù)發(fā)布者通過激勵數(shù)據(jù)擁有者訓(xùn)練數(shù)據(jù)模型,從而獲得高質(zhì)量數(shù)據(jù)。因此,本文將任務(wù)發(fā)布者給予數(shù)據(jù)擁有者的獎勵金額設(shè)置為線性函數(shù),如式(1)所示:

        其中:α為模型中數(shù)據(jù)擁有者進行訓(xùn)練數(shù)據(jù)的固定收入金額;β為任務(wù)發(fā)布者給予數(shù)據(jù)擁有者的激勵獎金系數(shù)。針對式(1)中的固定收入金額和激勵獎金系數(shù)是根據(jù)博弈論中委托代理理論計算得到的,其中數(shù)據(jù)擁有者的獎勵金額是隨著激勵金額的增加而增加。在本文方案中,任務(wù)發(fā)布者和數(shù)據(jù)擁有者的風(fēng)險規(guī)避函數(shù)ρ1和ρ2不會影響各自的收入水平,因此任務(wù)發(fā)布者給予數(shù)據(jù)擁有者的獎勵金額可以設(shè)置為線性函數(shù)。

        在參與者學(xué)習(xí)的過程中,參與者將付出一定的努力使得自身的利益最大化,此時會產(chǎn)生相應(yīng)的努力成本。本文用貨幣成本來衡量參與者的努力成本,當(dāng)任務(wù)發(fā)布者采用不同的策略時,其努力成本如式(2)所示:

        同理,數(shù)據(jù)擁有者采取不同策略時的努力成本如式(3)所示:

        其中:x1和x2分別表示任務(wù)發(fā)布者和數(shù)據(jù)擁有者選擇不同行動策略時的努力成本系數(shù),且x1>0,x2>0;η表示數(shù)據(jù)擁有者選擇不同的行動策略后取得相應(yīng)的成效系數(shù),并且0<η<1。數(shù)據(jù)擁有者越努力獲取高質(zhì)量的數(shù)據(jù),任務(wù)的發(fā)布者所獲得實際收益與預(yù)期收益之間的差距越小。

        2.5 風(fēng)險規(guī)避

        由于所有的參與者都是理性的,個體間會存在一定的差異性和特殊性,因此各個參與者之間對聯(lián)邦學(xué)習(xí)過程中的風(fēng)險規(guī)避程度也會存在一定的差異。在博弈模型中,本文設(shè)計的風(fēng)險規(guī)避效用函數(shù)為u=-eρω,其中ρ為參與者的絕對風(fēng)險規(guī)避度量,ω為實際獲取的收益。由于參與者都具有風(fēng)險規(guī)避的特性,因此會存在相應(yīng)的風(fēng)險成本。任務(wù)發(fā)布者承擔(dān)風(fēng)險的成本如式(4)所示:

        數(shù)據(jù)擁有者承擔(dān)風(fēng)險的成本如式(5)所示:

        其中:ρ1和ρ2分別表示任務(wù)發(fā)布者和數(shù)據(jù)擁有者的風(fēng)險規(guī)避程度,且ρ1>0,ρ2>0。

        2.6 期望效用函數(shù)

        在博弈模型下分析聯(lián)邦學(xué)習(xí)方案最關(guān)鍵的是定義參與者的效用函數(shù)。在本文方案中,由于參與者都是理性自利且具有風(fēng)險規(guī)避特性,因此其效用函數(shù)需要通過參與者的實際收益進行建模。任務(wù)發(fā)布者的實際收益如式(6)所示:

        數(shù)據(jù)擁有者的實際收益如式(7)所示:

        根據(jù)參與者的實際收益與他們分別存在的風(fēng)險成本,可以得到任務(wù)發(fā)布者的期望效用函數(shù),如式(8)所示:

        同理,數(shù)據(jù)擁有者的期望效用函數(shù),如式(9)所示:

        2.7 總期望效用

        由于聯(lián)邦學(xué)習(xí)框架中的參與者都是理性自利的,因此數(shù)據(jù)擁有者選擇與任務(wù)發(fā)布者簽訂激勵合約后,得到的最大效益必須大于不簽署該合約。數(shù)據(jù)擁有者通過與任務(wù)發(fā)布者簽署激勵合約后的期望效用不得小于不接受該任務(wù)得到的最小保留效用此時數(shù)據(jù)擁有者需要考慮與自己相關(guān)的參與約束IR,如式(10)所示:

        任務(wù)發(fā)布者不知道數(shù)據(jù)擁有者提供的數(shù)據(jù)質(zhì)量,在雙方存在信息不對稱的情況下,并且理性的數(shù)據(jù)擁有者總會選擇使自己期望效用最大化的行為策略。因此,任務(wù)發(fā)布者希望得到的最大效用通過數(shù)據(jù)擁有者的最大效用來實現(xiàn),且全局達到帕累托最優(yōu)狀態(tài)。

        根據(jù)任務(wù)發(fā)布者和數(shù)據(jù)擁有者簽署的激勵合約及帕累托最優(yōu)狀態(tài)情況,只有當(dāng)數(shù)據(jù)擁有者選擇行動策略sj時,其效用比其他行動策略sj′更大。因此,數(shù)據(jù)擁有者根據(jù)其理性行為將會選擇行動策略sj,使得自己的利益最大化,以及全局的利益最大化,此時有maxsj(w)。令可以得到在聯(lián)邦學(xué)習(xí)博弈模型中存在一個激勵相容約束IC,如式(11)所示:

        將參與約束IR 和激勵相容約束IC 帶入任務(wù)發(fā)布者期望最大效用的目標函數(shù)中,構(gòu)建拉格朗日函數(shù),可得:

        根據(jù)以上函數(shù)的變化趨勢可以看出,任務(wù)發(fā)布者的風(fēng)險規(guī)避程度ρ1與其給予數(shù)據(jù)擁有者的激勵系數(shù)ρ呈正相關(guān)。因此,當(dāng)雙方利益最大化時,數(shù)據(jù)擁有者所選擇的行動策略如式(15)所示:

        在聯(lián)邦學(xué)習(xí)博弈模型中任務(wù)發(fā)布者和數(shù)據(jù)擁有者總的期望效用達到最大,如式(16)所示:

        由此可以看出,在聯(lián)邦學(xué)習(xí)模型中,即使任務(wù)發(fā)布者不知道數(shù)據(jù)擁有者所選擇的行動策略和其努力程度,但是根據(jù)雙方簽署的激勵合約,數(shù)據(jù)擁有者會選擇最優(yōu)的行動策略sj,使得雙方都達到最大的期望效用。此時聯(lián)邦學(xué)習(xí)模型的總期望效用E(π)也達到最大,即模型的全局達到帕累托最優(yōu)狀態(tài)。

        3 高效聯(lián)邦學(xué)習(xí)方案

        本文基于上述設(shè)計的聯(lián)邦學(xué)習(xí)博弈模型,結(jié)合Micali-Rabin 隨機向量表示技術(shù)構(gòu)造高效安全的聯(lián)邦學(xué)習(xí)方案。在本文方案中,各參與者為了使自身利益最大化必須遵循雙方簽署的激勵合約,通過各自的效用函數(shù)約束個人理性行為,任何偏離合約的一方都會受到遠大于自身成本價值及影響自身聲譽的懲罰。

        3.1 初始化階段

        任務(wù)發(fā)布者Pi公布需要訓(xùn)練學(xué)習(xí)的初始模型任務(wù)T,并將其送至中央服務(wù)器,同時與滿足條件的各數(shù)據(jù)擁有者Pj簽署激勵合約,建立安全的連接。任務(wù)發(fā)布者和數(shù)據(jù)擁有者為保證數(shù)據(jù)的安全與隱私,根據(jù)橢圓曲線的密碼體制隨機選取密鑰對,用于雙方在方案中交易的驗證。本文方案選擇一條安全的橢圓曲線E,其中G為該橢圓曲線的一個基點,基點G的階數(shù)為n。本文選擇隨機數(shù)λ計算d=λG,其中d為公鑰,隨機數(shù)λ為私鑰,并公開(G,d)。

        3.2 本地訓(xùn)練階段

        各數(shù)據(jù)擁有者Pj從中央服務(wù)器下載公布的初始模型參數(shù)θi。每個數(shù)據(jù)擁有者利用自己的本地數(shù)據(jù)選擇行動策略sj,并訓(xùn)練初始化模型,之后將更新后的參數(shù)返回至中央服務(wù)器,使得自身利益最大化。在此過程中,數(shù)據(jù)擁有者對已更新的參數(shù)進行3k行承諾以便于追溯與認定惡意數(shù)據(jù)擁有者返回的無用數(shù)據(jù)。形成的3k行承諾采用Micali-Rabin 隨機向量表示技術(shù)可以表示為:

        在這個階段中要求任意概率多項式時間的接收方都不能獲取有關(guān)承諾的任何信息,以保護所有數(shù)據(jù)的隱私和安全,。

        3.3 聚合驗證階段

        任務(wù)發(fā)布者Pi與各數(shù)據(jù)擁有者Pj進行交互式證明后,若通過承諾值的驗證,任務(wù)發(fā)布者將接收更新的參數(shù)此時Pi通過各參與者得到期望效用函數(shù),并對各自在聯(lián)邦學(xué)習(xí)中的收益成效進行判斷,雙方是否選擇最優(yōu)的行動策略來執(zhí)行方案。若任意一方參與者的效用值未達到最大偏離方案,根據(jù)激勵合約的規(guī)定,需要支付對方遠大于自己期望效用Ui或者Uj的賠償金作為未遵守方案的補償。

        3.4 模型更新階段

        當(dāng)任務(wù)發(fā)布者Pi確定接收更新的參數(shù)后,中央服務(wù)器根據(jù)各參與方更新參數(shù)的聚合結(jié)果,并對全局模型的參數(shù)進行更新。更新后的參數(shù)被重新發(fā)送至各數(shù)據(jù)擁有者Pj,各數(shù)據(jù)擁有者Pj重新利用自己的本地數(shù)據(jù)進行訓(xùn)練模型,重復(fù)本地訓(xùn)練階段,直到全局模型的各項性能指標滿足任務(wù)發(fā)布者的要求后,聯(lián)邦學(xué)習(xí)階段結(jié)束。

        由于構(gòu)造的方案中各方參與者都是理性自利的,他們會為了使自身利益得到最大化選擇最優(yōu)的行動策略。在該方案中,根據(jù)雙方簽署的激勵合約,一旦有參與者選擇偏離方案的惡意行為,將會受到嚴重的資金懲罰。各參與方通過激勵合約約束并激勵自己遵守方案,降低各參與方通信的風(fēng)險,并提高聯(lián)邦學(xué)習(xí)的通信效率。高效聯(lián)邦學(xué)習(xí)系統(tǒng)架構(gòu)如圖2 所示。

        圖2 高效聯(lián)邦學(xué)習(xí)系統(tǒng)架構(gòu)Fig.2 Architecture of efficient federated learning system

        4 方案分析

        4.1 安全性分析

        本文從安全性分析基于博弈論優(yōu)化的高效聯(lián)邦學(xué)習(xí)方案。

        定理1本文聯(lián)邦學(xué)習(xí)方案具有安全性。

        證明在聯(lián)邦學(xué)習(xí)的本地訓(xùn)練階段中,各數(shù)據(jù)擁有者采用Micali-Rabin 隨機向量表示技術(shù)對承諾值1 ≤l≤3k進行3k行承諾。在聚合驗證階段中,任務(wù)發(fā)布者Pi與各數(shù)據(jù)擁有者Pj進行交互式證明,以驗證承諾值的正確性。各數(shù)據(jù)擁有者在安全通道中向任務(wù)發(fā)布者打開承諾分量以保證更新參數(shù)的安全性與隱私性。

        4.2 正確性分析

        本文從正確性分析基于博弈論優(yōu)化的高效聯(lián)邦學(xué)習(xí)方案。

        定理2本文聯(lián)邦學(xué)習(xí)方案具有正確性。

        證明本文聯(lián)邦學(xué)習(xí)方案中,如果任務(wù)發(fā)布者Pi與各數(shù)據(jù)擁有者Pj嚴格按照合約進行執(zhí)行,那么雙方都會選擇最優(yōu)的行動策略執(zhí)行方案。在方案的初始化階段,任務(wù)發(fā)布者和滿足條件的數(shù)據(jù)擁有者簽署激勵合約,以建立安全的連接。在本地訓(xùn)練和聚合驗證階段,數(shù)據(jù)擁有者將更新的參數(shù)和承諾值返回至中央服務(wù)器。若數(shù)據(jù)擁有者選擇行動策略sj2,即“惡意”的行動策略,那么得到的效用收益為因為策略sj2的取值為0,所以由式(9)可以將其效用收益化簡寫為對應(yīng)任務(wù)發(fā)布者的效用收益為當(dāng)參與方達到最大收益時π′=ksj2+φ=φ,且φ服從正態(tài)分布,因此,本文方案的雙方總期望效用為E(π)=E(ksj2+φ)=ksj2=0,無法達到帕累托最優(yōu)狀態(tài)。根據(jù)激勵合約的規(guī)定,選擇行動策略sj2的參與方將受到嚴重的懲罰。

        由于雙方都是理性的,在方案中為了自身利益最大化不會選擇不利于自己的行動策略,只有雙方都選擇最優(yōu)策略,全局才能達到最優(yōu)狀態(tài)πmax=ks+φ,且參與者都能獲得最優(yōu)收益,全局達到帕累托最優(yōu)狀態(tài)。因此,該高效聯(lián)邦學(xué)習(xí)方案是正確的。

        4.3 公平性分析

        本文從公平性分析基于博弈論優(yōu)化的高效聯(lián)邦學(xué)習(xí)方案。

        定理3本文聯(lián)邦學(xué)習(xí)方案具有公平性。

        證明在高效聯(lián)邦學(xué)習(xí)方案中,所有參與者都是理性自私的,為了自身利益的最大化可以隨意選擇自己的行動策略。為保證本文方案的公平性,在方案的初始化階段中,任務(wù)發(fā)布者需要與數(shù)據(jù)擁有者簽署激勵合約,嚴格按照合約的要求執(zhí)行。

        雙方選擇的策略在激勵合約中的取值為“0”或“1”。一種情況是雙方根據(jù)自己的效用函數(shù)Ui和Uj判斷雙方是否存在偏離方案的惡意行為,如果有惡意行為,它們總的期望效用E(π)=E(ks+φ)的結(jié)果為“0”。根據(jù)策略s可以找出惡意參與者,并對其進行懲罰。另一種情況是根據(jù)上傳至中央服務(wù)器的承諾值判斷是否存在惡意參與者,根據(jù)方案的安全性分析可知,任何參與者都無法更改或者虛假地更新參數(shù),因此,本文方案對于所有參與者都是公平的。

        4.4 方案性能分析

        不同方案的安全性、正確性和公平性對比如表1所示,其中,“√”表示方案滿足上述性質(zhì),“×”表示方案不滿足上述性質(zhì)。

        表1 不同方案的性能對比Table 1 Performances comparison among different schemes

        從表1 可以看出,現(xiàn)有的大多數(shù)聯(lián)邦學(xué)習(xí)方案考慮方案的安全性,但是通常認為參與者都是誠實的,未考慮到參與者的自利行為,即對方案的公平性方面考慮的較少,這也是影響聯(lián)邦學(xué)習(xí)效率與應(yīng)用的原因之一。

        5 實驗仿真

        本文借鑒文獻[24]的數(shù)字分類數(shù)據(jù)集MINIST對本文方案進行模擬評估。本文選擇60 000 條訓(xùn)練數(shù)據(jù)示例,其中包含1 個任務(wù)發(fā)布者和50 個數(shù)據(jù)擁有者,用于執(zhí)行數(shù)據(jù)訓(xùn)練分類任務(wù)。數(shù)據(jù)擁有者首先與可以接受模型訓(xùn)練的數(shù)據(jù)擁有者簽訂激勵合約。簽訂合約的數(shù)據(jù)擁有者根據(jù)任務(wù)發(fā)布者上傳的任務(wù),隨機分配需要訓(xùn)練的數(shù)據(jù)集,并作為本地的訓(xùn)練數(shù)據(jù)。

        為驗證激勵合約的有效性,本文分別對簽署和未簽署激勵合約的參與者進行聯(lián)邦學(xué)習(xí),并對擁有不同數(shù)據(jù)字節(jié)長度的擁有者利益和任務(wù)發(fā)布者的利益關(guān)系進行分析討論。簽署與未簽署激勵合約的總期望效用對比如圖3 所示。從圖3 可以看出,當(dāng)擁有者的數(shù)據(jù)字節(jié)長度分別為2、4 和6 Byte 時,無論數(shù)據(jù)類型為何種的數(shù)據(jù)擁有者,他們與任務(wù)發(fā)布者之間的效用只有當(dāng)都選擇簽署激勵合約時,雙方的效用才最大,此時方案全局的利益也最大,即達到帕累托最優(yōu)狀態(tài)。

        圖3 簽署與未簽署激勵合約的總期望效用對比Fig.3 Total expected utility comparison of signed and unsigned incentive contracts

        本文對任務(wù)發(fā)布者和數(shù)據(jù)擁有者的激勵策略進行分析,確定任務(wù)發(fā)布者給予的激勵金額大小與數(shù)據(jù)訓(xùn)練精確度之間的關(guān)系。數(shù)據(jù)的精確度隨獎勵金額的變化趨勢如圖4 所示。隨著任務(wù)發(fā)布者提供的激勵獎勵的增加,擁有不同數(shù)據(jù)類型數(shù)據(jù)擁有者的數(shù)據(jù)訓(xùn)練精確度從65%逐步提高至98%。在本文激勵合約下,當(dāng)任務(wù)發(fā)布者的激勵獎勵越高時,越能激勵數(shù)據(jù)擁有者進行模型訓(xùn)練,最終獲得的數(shù)據(jù)質(zhì)量也越高,從而實現(xiàn)高效的聯(lián)邦學(xué)習(xí)。

        圖4 不同獎勵金額下數(shù)據(jù)的精確度Fig.4 Accuracy of data under different reward amounts

        簽署與未簽署激勵合約擁有者的通信消耗能量對比如圖5 所示。當(dāng)未簽署與簽署激勵合約的數(shù)據(jù)擁有者從0~50 逐漸增加時,其通信開銷發(fā)生了很大的變化。從圖5 可以看出:當(dāng)參與者未簽署激勵合約時,其數(shù)據(jù)擁有者越多,通信開銷越大;有激勵合約的參與者通信開銷幾乎無變化,驗證了本文聯(lián)邦學(xué)習(xí)方案的高效性。

        圖5 簽署與未簽署激勵合約擁有者的通信消耗能量對比Fig.5 Energy consumption of communication comparison of owner with and without incentive contracts

        本文方案性能的影響因素是參與者的自利性行為。若參與者是自私惡意的,在方案執(zhí)行過程中,由雙方的激勵合約可知,雙方將根據(jù)效用函數(shù)對自私惡意的參與者進行懲罰,并且阻止方案繼續(xù)執(zhí)行。不同參與者行為聯(lián)邦學(xué)習(xí)效率變化如圖6所示。當(dāng)擁有不同數(shù)據(jù)類型的參與者若存在自私惡意的數(shù)據(jù)擁有者,方案的效率將降低。

        圖6 不同參與者的聯(lián)邦學(xué)習(xí)效率對比Fig.6 Efficiency of federated learning comparison among different participants

        本文設(shè)計的方案中用戶的獎勵越大,其選擇積極策略的可能性越大,獲得的數(shù)據(jù)準確度也越高,用戶的通信消耗量遠遠小于用戶未簽署激勵合約的通信量。當(dāng)擁有不同數(shù)據(jù)類型的參與者存在理性惡意的數(shù)據(jù)擁有者時,極大影響聯(lián)邦學(xué)習(xí)的效率,從而影響雙方效用收益。因此,本文設(shè)計的方案是有效的。

        6 結(jié)束語

        本文提出基于博弈論優(yōu)化的高效聯(lián)邦學(xué)習(xí)方案,利用博弈論激勵高質(zhì)量的數(shù)據(jù)擁有者和任務(wù)發(fā)布者,同時結(jié)合Micali-Rabin 隨機向量表示技術(shù)和Pedersen 承諾方案,實現(xiàn)高效聯(lián)邦學(xué)習(xí)的隱私保護。仿真結(jié)果表明,該方案不僅使得全局參與者達到帕累托最優(yōu)狀態(tài),而且為聯(lián)邦學(xué)習(xí)的各參與者的利益和數(shù)據(jù)隱私提供了保證。后續(xù)將在多任務(wù)者同時發(fā)布模型訓(xùn)練任務(wù)的前提下,從不同的角度和應(yīng)用場景中研究聯(lián)邦學(xué)習(xí),進一步提高學(xué)習(xí)效率。

        猜你喜歡
        擁有者發(fā)布者效用
        基于Stackelberg博弈的異步聯(lián)邦學(xué)習(xí)激勵機制設(shè)計
        美德倫理品質(zhì)有利于其擁有者
        小學(xué)美術(shù)課堂板書的四種效用
        基于NDN的高效發(fā)布/訂閱系統(tǒng)設(shè)計與實現(xiàn)
        廣告發(fā)布者的著作權(quán)審查義務(wù)問題研究
        納米硫酸鋇及其對聚合物的改性效用
        中國塑料(2016年9期)2016-06-13 03:18:48
        加權(quán)映射匹配方法的站內(nèi)搜索引擎設(shè)計
        幾種常見葉面肥在大蒜田效用試驗
        玉米田不同控釋肥料效用研討
        一種基于間接互惠的計算網(wǎng)格合作激勵機制研究*
        精品国产色哟av一区二区三区| 丁香五月缴情综合网| 岛国大片在线免费观看| 亚洲中文字幕不卡一区二区三区| 蜜桃a人妻精品一区二区三区| 欧美成人猛交69| 无码专区人妻系列日韩精品| 特级a欧美做爰片第一次| 思思久久99er热只有频精品66| 亚洲中文字幕乱码一二三区| 国产三级精品三级在线专区 | 超碰青青草手机在线免费观看| 中文有码无码人妻在线| 天堂影院一区二区三区四区| 粗大的内捧猛烈进出在线视频| 精品国产迪丽热巴在线| 无人视频在线播放免费| 亚洲av无码久久精品色欲| 国产涩涩视频在线观看| 国产短视频精品区第一页| 日本一区中文字幕在线播放| 精品国产粉嫩内射白浆内射双马尾| 亚洲av无码精品色午夜| 国产成人精品三上悠亚久久| 蜜桃在线高清视频免费观看网址| 中国无码人妻丰满熟妇啪啪软件| 亚洲av乱码中文一区二区三区 | 精品一区二区三区不老少妇| 熟妇人妻无乱码中文字幕av| 亚洲乱码中文字幕综合| 亚洲欧美日韩中文字幕网址| 青草草视频在线观看华人免费| 深夜爽爽动态图无遮无挡| 国产精品久久久久久人妻精品| 精品视频在线观看一区二区有 | 成年人视频在线播放麻豆| 亚洲av无码国产精品色软件| 精品一区二区久久久久久久网站 | 国产V亚洲V天堂A无码| 亚洲高清一区二区三区在线播放| 久久久国产精品黄毛片|