亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        函數(shù)回歸的差分隱私保護(hù)算法

        2023-03-04 06:42:08鐘可欣
        關(guān)鍵詞:定義模型

        鐘可欣,楊 庚,2

        (1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210046;2.江蘇省大數(shù)據(jù)安全與智能處理重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)

        0 引 言

        函數(shù)型數(shù)據(jù)分析(Functional Data Analysis)是統(tǒng)計(jì)學(xué)中涉及對(duì)曲線、曲面或任何其他連續(xù)變化的信息分析的一個(gè)分支。對(duì)于函數(shù)型數(shù)據(jù)[1],理想的觀測(cè)單位是在某個(gè)連續(xù)域上定義的函數(shù),觀測(cè)數(shù)據(jù)由從某個(gè)總體中抽取的函數(shù)樣本組成,每個(gè)函數(shù)在離散網(wǎng)格上采樣。隨著信息科學(xué)技術(shù)的發(fā)展,函數(shù)數(shù)據(jù)在諸多領(lǐng)域中發(fā)揮了重要作用,例如醫(yī)療行業(yè)中的掃描成像數(shù)據(jù)、社交媒體的個(gè)人行為軌跡等。

        然而,函數(shù)型數(shù)據(jù)的廣泛應(yīng)用也存在一些急需解決的問(wèn)題。隱私泄漏的危機(jī)伴隨數(shù)據(jù)分析與發(fā)布等應(yīng)用的出現(xiàn)而加深,對(duì)隱私數(shù)據(jù)的保護(hù)問(wèn)題與防止敏感信息泄露的需求因此而產(chǎn)生。

        根據(jù)響應(yīng)或協(xié)變量是函數(shù)還是標(biāo)量,函數(shù)回歸模型可以分為四種類(lèi)型[2]:(1)帶有函數(shù)協(xié)變量的標(biāo)量響應(yīng);(2)帶有標(biāo)量協(xié)變量的函數(shù)響應(yīng);(3)具有函數(shù)協(xié)變量的函數(shù)響應(yīng);(4)具有函數(shù)和標(biāo)量協(xié)變量的標(biāo)量或函數(shù)響應(yīng)。目前,函數(shù)回歸算法的研究主要集中在模型的優(yōu)化和計(jì)算效率上,而基于函數(shù)回歸的隱私保護(hù)研究還少有人涉足。Janet S. Kim等人[3]于2018年提出一種加性的函數(shù)對(duì)函數(shù)回歸算法,Mark等人[4]針對(duì)該模型提出離散小波包變換的算法。針對(duì)高維的加性函數(shù)模型中mFPCA分?jǐn)?shù)的估計(jì)誤差問(wèn)題,Wong等人[5]提出了一類(lèi)部分線性泛函可加模型(PLFAM)。該文提出一種函數(shù)對(duì)函數(shù)回歸的差分隱私保護(hù)算法,即計(jì)算函數(shù)回歸,在回歸的過(guò)程中加入滿足差分隱私的拉普拉斯噪聲,以達(dá)到隱私保護(hù)的作用。

        主要貢獻(xiàn)如下:

        (1)結(jié)合函數(shù)回歸和差分隱私保護(hù)的拉普拉斯機(jī)制,設(shè)計(jì)了一種滿足ε-差分隱私保護(hù)的函數(shù)回歸算法,并通過(guò)理論分析和實(shí)驗(yàn)驗(yàn)證其可用性。

        (2)使用B樣條基對(duì)函數(shù)型數(shù)據(jù)進(jìn)行降維和回歸處理,允許觀測(cè)數(shù)據(jù)含噪,在實(shí)現(xiàn)函數(shù)回歸的基礎(chǔ)之上,保證了一定的隱私保護(hù)功能。

        (3)針對(duì)不同隱私預(yù)算進(jìn)行實(shí)驗(yàn),證明隱私預(yù)算ε與算法效率的關(guān)系,且添加噪聲越小,算法效率越高。

        1 相關(guān)工作

        本節(jié)主要介紹差分隱私和函數(shù)回歸相關(guān)的研究工作。

        Dwork[6]于2006年提出了差分隱私的概念,區(qū)別于傳統(tǒng)的k-匿名等隱私模型,差分隱私保護(hù)模型具有強(qiáng)大的數(shù)學(xué)模型和堅(jiān)實(shí)的算法設(shè)計(jì)基礎(chǔ),它可以嚴(yán)格地定義和計(jì)算隱私的保護(hù)水平,有利于比較和研究在不同參數(shù)下的保護(hù)水平。目前,差分隱私的機(jī)制仍在逐步完善中[7-9]。

        Ramsay和Dalzell[10]于1991年提出了一種函數(shù)對(duì)函數(shù)的回歸線性模型,將函數(shù)預(yù)測(cè)器和函數(shù)響應(yīng)回歸設(shè)置中存在的問(wèn)題結(jié)合在一起,Yao等人[11]設(shè)計(jì)了該模型基于函數(shù)主成分(Functional Principal Component,fPC)的方法,假設(shè)協(xié)變量和響應(yīng)具有獨(dú)立同分布的測(cè)量誤差,并用fPC分解進(jìn)行建模。Wu & Müller[12]在估計(jì)回歸系數(shù)時(shí)使用WLS來(lái)解釋函數(shù)內(nèi)的相關(guān)性。文獻(xiàn)[13]將函數(shù)線性模型擴(kuò)展到函數(shù)可加模型(Functional Addictive Model),該模型通過(guò)協(xié)變量的函數(shù)主成分得分的平滑函數(shù)之和對(duì)協(xié)變量的影響進(jìn)行建模。Janet S. Kim等人[3]在加性函數(shù)對(duì)函數(shù)的回歸中提出了一種當(dāng)前響應(yīng)與協(xié)變量的完整軌跡相關(guān)聯(lián)的非線性回歸模型,可以更直接地捕獲響應(yīng)與完整協(xié)變量軌跡之間的復(fù)雜關(guān)系。

        Mark等人[4]提出了一種使用離散小波包變換的函數(shù)對(duì)函數(shù)回歸模型,適合無(wú)約束曲面,但是不適合建模滯后暴露的功能預(yù)測(cè)因子。Wong等人[5]改進(jìn)了高維加性函數(shù)模型中mFPCA分?jǐn)?shù)的估計(jì)誤差,提出了一類(lèi)部分線性泛函可加模型(PLFAM)。

        迄今為止的大多數(shù)函數(shù)回歸研究都假設(shè)存在獨(dú)立同分布的測(cè)量誤差,但是沒(méi)有考慮到為觀測(cè)對(duì)象進(jìn)行隱私保護(hù),也沒(méi)有考慮實(shí)現(xiàn)滿足差分隱私的加噪擾動(dòng)。

        2 理論基礎(chǔ)

        2.1 差分隱私保護(hù)技術(shù)

        差分隱私保證受保護(hù)的數(shù)據(jù)集不會(huì)因?yàn)樵黾踊騽h除一條記錄而影響查詢(xún)結(jié)果[14]。其形式化的數(shù)學(xué)定義如下:

        定義1(差分隱私)[15]:給定鄰近數(shù)據(jù)集(只相差一條記錄)D和D',設(shè)有隱私算法A,Range(A)為A所有可能的輸出結(jié)果,若算法A在數(shù)據(jù)集D和D'上任意輸出結(jié)果O(O∈Range(A))滿足下列不等式:

        Pr[A(D)=O]≤eε×Pr[A(D')=O]

        (1)

        則稱(chēng)算法A滿足ε-差分隱私,ε的值稱(chēng)為隱私預(yù)算,ε越小,A(D)=O和A(D')=O的概率值越接近,算法A的隱私保護(hù)水平越高。

        差分隱私算法滿足以下組成屬性。假設(shè)A1(·)和A2(·)是ε1-和ε2-差分隱私算法。

        ·順序合成:釋放A1(D)和A2(D)的輸出滿足ε1+ε2-差分隱私。

        ·后處理:對(duì)于任何算法A3(·),釋放A3(A1(D))仍然滿足ε1-差分隱私。即對(duì)差分隱私算法的輸出進(jìn)行后處理不會(huì)導(dǎo)致任何其他隱私損失。

        定義2(全局敏感度)[6]:函數(shù)f:D→Rn的全局靈敏度(表示為Δ(f))定義為來(lái)自任意兩個(gè)相鄰數(shù)據(jù)集D1和D2的輸出的最大L1距離:

        (2)

        其中,R表示所映射的實(shí)數(shù)空間,d表示函數(shù)f的查詢(xún)維度。全局敏感度只與函數(shù)f有關(guān),與數(shù)據(jù)集D無(wú)關(guān)。

        差分隱私保護(hù)有兩種常用的實(shí)現(xiàn)機(jī)制:Laplace機(jī)制和指數(shù)機(jī)制。該文采用的是Laplace機(jī)制。Laplace機(jī)制的實(shí)現(xiàn)方式是通過(guò)添加滿足Laplace分布的隨機(jī)噪聲來(lái)達(dá)到ε-差分隱私保護(hù)的效果。

        定義3(Laplace機(jī)制)[15]:對(duì)于任意一個(gè)函數(shù)f:D→Rd,若算法K的輸出結(jié)果滿足等式(3),則K滿足ε-差分隱私:

        K(D)=f(D)+〈Lap1(Δf/ε),…,Lapd(Δf/ε)〉

        (3)

        其中,Lap1(Δf/ε)(1≤i≤d)是相互獨(dú)立的拉普拉斯變量,由上式可得:噪聲大小與Δf成正比,與ε成反比。

        2.2 函數(shù)型數(shù)據(jù)分析

        函數(shù)型數(shù)據(jù)分析(Functional Data Analysis)是對(duì)曲線、曲面或任何其他連續(xù)變化的信息的一種統(tǒng)計(jì)分析方法,其協(xié)變量或響應(yīng)為函數(shù)型數(shù)據(jù)[16]。函數(shù)型數(shù)據(jù)研究的對(duì)象是光滑曲線,例如{xn(t):t∈[T1,T2]},1≤n≤N;其中xn(t)∈R在每一點(diǎn)t∈[T1,T2]都存在,取觀測(cè)點(diǎn){tj,n:1≤j≤Jn}。如下為一個(gè)典型的函數(shù)型數(shù)據(jù)集:

        {xn(tj,n)∈R:tj,n∈[T1,T2],1≤n≤N,1≤j≤Jn}

        如果每條曲線的觀測(cè)數(shù)Jn都很小,則稱(chēng)此函數(shù)型數(shù)據(jù)稀疏(sparse);例如血檢得到的某蛋白濃度。如果每條曲線的觀測(cè)數(shù)Jn都很大,則稱(chēng)此函數(shù)型數(shù)據(jù)密集(dense);例如地磁儀記錄的某地磁場(chǎng)強(qiáng)度,高頻交易的股票價(jià)格[17]。

        3 函數(shù)回歸的差分隱私保護(hù)算法

        本節(jié)包括函數(shù)回歸的差分隱私保護(hù)算法的各部分概述及具體實(shí)現(xiàn)細(xì)節(jié),并給出算法實(shí)現(xiàn)差分隱私保護(hù)的證明。

        3.1 場(chǎng)景描述

        對(duì)于i=1,2,…,n,假設(shè){(Xik,sik):k=1,2,…,mi},{(Yij,tij):j=1,2,…,mY,i},其中Xik和Yij分別是在時(shí)間點(diǎn)sik和tij觀察到的協(xié)變量和響應(yīng)。對(duì)于所有i和k,sik∈ΓX,以及所有i和j,tij∈ΓY,其中ΓX和ΓY是緊湊的時(shí)間間隔。假設(shè)Xik=Xi(sik),其中Xi(·)是定義在ΓX上的平方可積、真平滑信號(hào)。同時(shí)假設(shè)Yij=Yi(tij),其中Yi(·)定義在ΓY上。

        考慮一個(gè)加性的函數(shù)對(duì)函數(shù)回歸模型:

        (4)

        其中,F(xiàn){.,.,t}是定義在R×ΓX×ΓY上的未知平滑三變量函數(shù),εi(·)是一個(gè)誤差過(guò)程,具有均值為零和未知的自協(xié)方差函數(shù)R(t,t'),并且與協(xié)變量Xi(s)無(wú)關(guān)。函數(shù)F{·,·,t}的定義量化了當(dāng)前響應(yīng)Yi(t)和完整的協(xié)變量軌跡Xi(·)之間的未知相關(guān)性,而加性模型則允許對(duì)高維數(shù)據(jù)空間的響應(yīng)和協(xié)變量之間的關(guān)系進(jìn)行非參數(shù)建模。

        如果F(x,s,t)=β(s,t)x,則模型(4)簡(jiǎn)化為標(biāo)準(zhǔn)函數(shù)線性模型。

        3.2 數(shù)據(jù)預(yù)處理

        由于實(shí)際觀測(cè)的數(shù)據(jù)存在噪聲或測(cè)量誤差,在數(shù)據(jù)預(yù)處理階段,需要對(duì)離散的響應(yīng)和協(xié)變量進(jìn)行平滑處理,使之從離散的多元觀測(cè)變量變成內(nèi)部存在關(guān)聯(lián)的函數(shù)型數(shù)據(jù)。

        對(duì)模型(4)中的F進(jìn)行建模,為了降低計(jì)算成本,減少基函數(shù)的數(shù)量,令φ(·)∈L2(ΓY)為一平滑函數(shù),則Yi到φ(·)的投影為:

        結(jié)合模型(4)可推出:

        其中,θl,l',k是未知參數(shù)。因此,模型(4)的三變量函數(shù)F可由x和s方向上的單變量B樣條基函數(shù)和L2(ΓY)正交基函數(shù)φk(·)的張量積獲得,由于只考慮兩個(gè)樣條基,減少了所需的基函數(shù)和平滑參數(shù),降低了計(jì)算成本,可以有效提高計(jì)算效率。

        3.3 DP-in-FRA算法思路

        函數(shù)回歸的差分隱私保護(hù)算法(Differential Privacy Preservation Algorithm in Functional Regression)簡(jiǎn)稱(chēng)DP-in-FR。

        (6)

        未知參數(shù)Θk的取值使用懲罰最小二乘法估計(jì),對(duì)方向x和s使用二次懲罰,并通過(guò)正交基函數(shù)的數(shù)量K控制t方向的粗糙度。由計(jì)算可得,x的方向曲率為:

        ?{?2F(x,s,t)/?x2}dxdsdt=

        ?{?2F(x,s,t)/?s2}dxdsdt=

        則最小化的懲罰標(biāo)準(zhǔn)是:

        IKx+λxIKx?Ps)Θk=

        (7)

        DP-in-FR對(duì)回歸模型的系數(shù)進(jìn)行噪聲擾動(dòng)。 具

        (8)

        全局敏感度的推導(dǎo)與計(jì)算過(guò)程如下:

        對(duì)于鄰近數(shù)據(jù)集D和D',以及它們的代價(jià)函數(shù)fD和fD':

        根據(jù)全局敏感度的定義(見(jiàn)定義2)有:

        由此,可以得到全局敏感度Δ為:

        (9)

        將該算法記為算法1,其算法流程如下:

        算法1:DP-in-FR。

        輸入:原始數(shù)據(jù)集D,隱私預(yù)算,主成分預(yù)設(shè)值p;

        2:使用函數(shù)數(shù)據(jù)主成分分析(FPCA)估計(jì)Yi(·)的(邊際)協(xié)方差的特征基φk(·);

        6:for 1≤k≤Kdo

        8:end for

        3.4 隱私性分析

        定理1:算法1滿足ε-差分隱私保護(hù)機(jī)制。

        綜上所述,算法1滿足ε-差分隱私保護(hù)機(jī)制,實(shí)現(xiàn)了對(duì)數(shù)據(jù)的隱私保護(hù)功能。

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)環(huán)境為AMD Ryzen 7 5800H with Radeon Graphics3.20 GHz,16G內(nèi)存,Win10操作系統(tǒng)。算法均采用R語(yǔ)言實(shí)現(xiàn),R語(yǔ)言版本為R-4.1.0,RTools版本4.0,使用到的程序包有MASS、Matrix、refund、mgcv、VGAM等。其中VGAM版本為1.1-5,用于產(chǎn)生符合拉普拉斯分布的隨機(jī)噪聲。

        數(shù)據(jù)集的具體信息如表1所示,分別為加拿大天氣數(shù)據(jù)集、LipEMG數(shù)據(jù)和擴(kuò)散張量成像(DTI2)數(shù)據(jù)。以上數(shù)據(jù)集分別來(lái)自文獻(xiàn)[18-19]。表1顯示了數(shù)據(jù)集的統(tǒng)計(jì)信息,其中|S|和|T|是相應(yīng)域中的數(shù)據(jù)/時(shí)間點(diǎn)個(gè)數(shù)。

        表1 數(shù)據(jù)集信息

        為了驗(yàn)證所設(shè)計(jì)算法的可行性,在這三個(gè)數(shù)據(jù)集上,依次使用文中算法進(jìn)行訓(xùn)練,通過(guò)訓(xùn)練結(jié)果的精確度來(lái)判斷其可用性。此外,為了檢測(cè)隱私預(yù)算ε對(duì)模型準(zhǔn)確性的影響,對(duì)每個(gè)數(shù)據(jù)集也以不同的隱私預(yù)算ε進(jìn)行多次訓(xùn)練。由于噪聲的影響,會(huì)進(jìn)行多次實(shí)驗(yàn)取結(jié)果的均值。

        4.2 實(shí)驗(yàn)結(jié)果及分析

        回歸分析有多種性能指標(biāo)衡量其精確性,該文使用的性能指標(biāo)是均方根預(yù)測(cè)誤差(RMSPE)以及逐點(diǎn)預(yù)測(cè)區(qū)間的平均覆蓋概率(ACP)。通過(guò)以下方式定義RMSPE:

        RMSPE=

        實(shí)驗(yàn)結(jié)果如圖1所示。

        圖1 均方根預(yù)測(cè)誤差

        圖1(a)、(b)、(c)分別是文中算法對(duì)三個(gè)數(shù)據(jù)集在不同隱私預(yù)算ε下訓(xùn)練結(jié)果的準(zhǔn)確性的比較,ε的取值范圍為{0.05,0.1,0.15,0.2}。橫坐標(biāo)是隱私預(yù)算ε的取值,縱坐標(biāo)是均方根預(yù)測(cè)誤差RMSPE。標(biāo)簽中,No Privacy即不添加任何隱私保護(hù)機(jī)制的函數(shù)回歸,它將作為算法精確性的比較基準(zhǔn)。三個(gè)數(shù)據(jù)集的訓(xùn)練結(jié)果均遵循隱私預(yù)算越大,訓(xùn)練出的模型精確度越高的規(guī)律,并且當(dāng)隱私預(yù)算足夠大時(shí),與無(wú)隱私保護(hù)的算法的精確度接近。

        其次,對(duì)(1-α)水平點(diǎn)態(tài)預(yù)測(cè)區(qū)間進(jìn)行近似,以觀察名義水平上的覆蓋概率。在(1-α)級(jí)別定義預(yù)測(cè)區(qū)間的ACP如下:

        圖2 平均覆蓋率

        圖2(a)、(b)、(c)分別為在1-α=0.85和0.95的名義顯著性水平下,預(yù)測(cè)響應(yīng)Y(t)|X(·)在三個(gè)數(shù)據(jù)集上的平均覆蓋概率ACP得分??梢钥匆?jiàn)隨著隱私預(yù)算ε增大,DP-in-FR算法預(yù)測(cè)平均覆蓋率從整體上看有升高的趨勢(shì),這是因?yàn)殡S著ε增大,隱私保護(hù)程度變低,添加的噪聲變小,所以可用性變高,因此預(yù)測(cè)準(zhǔn)確率變高。

        5 結(jié)束語(yǔ)

        主要研究了差分隱私在函數(shù)回歸中的應(yīng)用,設(shè)計(jì)了一種基于差分隱私的函數(shù)回歸方法。該方法允許觀測(cè)數(shù)據(jù)含噪,對(duì)函數(shù)型數(shù)據(jù)進(jìn)行降維和回歸處理,在實(shí)現(xiàn)函數(shù)回歸的基礎(chǔ)之上,保證了一定的隱私保護(hù)功能。該文提出的函數(shù)回歸算法對(duì)于輸入數(shù)據(jù)降維并提取主成分,而隱私預(yù)算大小和保留主成分的個(gè)數(shù)是影響算法誤差的因素,合理的加噪方式使得數(shù)據(jù)可用性更高。由于函數(shù)型數(shù)據(jù)回歸的計(jì)算量大,計(jì)算成本高,所以更合理的隱私預(yù)算分配和加噪方式以提高計(jì)算效率是下一步的研究方向。

        猜你喜歡
        定義模型
        一半模型
        永遠(yuǎn)不要用“起點(diǎn)”定義自己
        海峽姐妹(2020年9期)2021-01-04 01:35:44
        重要模型『一線三等角』
        定義“風(fēng)格”
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        修辭學(xué)的重大定義
        山的定義
        男女av免费视频网站| 日韩在线视精品在亚洲| 亚洲精品一区二区在线播放| 日日高潮夜夜爽高清视频| 韩国三级在线观看久| 18禁高潮出水呻吟娇喘蜜芽| 一区五码在线| 日本免费一区二区在线| 成人无码av免费网站| 丰满熟妇乱又伦| 亚洲av乱码专区国产乱码| 青青草在线免费观看在线| 又大又长粗又爽又黄少妇视频| 人人玩人人添人人澡| 国产一精品一aⅴ一免费| 色婷婷av一区二区三区丝袜美腿| 在线观看免费无码专区| 亚洲中久无码永久在线观看同| 国产精品国产自线拍免费| 麻豆精品在线视频观看| 乱人伦精品视频在线观看| 在线观看av永久免费| 人妻无码AⅤ中文系列久久免费| 最新中文字幕日韩精品| 性xxxx18免费观看视频| 国产啪精品视频网站丝袜| 激情一区二区三区视频| 亚洲综合网国产精品一区| 国产一卡2卡3卡四卡国色天香| 亚洲成a人片在线播放观看国产| 亚洲天堂男人的av天堂| 成年性生交大片免费看| 黄 色 人 成 网 站 免 费| 亚洲一区二区女优av| 美女脱了内裤露出奶头的视频| 国产精品人妻一码二码尿失禁 | 奇米影视久久777中文字幕| 人妻少妇喷水意淫诱惑| 最新中文字幕人妻少妇| 国产成人无码区免费内射一片色欲| 被欺辱的高贵人妻被中出 |