亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        可穿戴設(shè)備的數(shù)值型流數(shù)據(jù)差分隱私均值發(fā)布

        2020-06-20 12:01:10涂子璇劉樹波熊星星蔡朝暉
        計(jì)算機(jī)應(yīng)用 2020年6期
        關(guān)鍵詞:數(shù)據(jù)流卡爾曼濾波差分

        涂子璇,劉樹波,熊星星,趙 晶,蔡朝暉

        (武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072)

        (?通信作者電子郵箱liu.shubo@whu.edu.cn)

        0 引言

        隨著越來越多的可穿戴設(shè)備投入市場(chǎng),可穿戴設(shè)備以其便攜、可穿戴、易移動(dòng)和長(zhǎng)續(xù)航等特點(diǎn)正逐步為社會(huì)大眾所接受和使用,滿足了各類人群的健康管理要求。日常使用的可穿戴設(shè)備主要分為兩類:一類是針對(duì)大眾健康監(jiān)測(cè)類設(shè)備,如智能手環(huán)、智能手表等,作為運(yùn)動(dòng)和健康管理的輔助產(chǎn)品;另一類是針對(duì)某種慢性疾病的設(shè)備,如血糖儀、血壓計(jì)等設(shè)備,作為慢性疾病的臨床參考。可穿戴設(shè)備實(shí)時(shí)采集和定期向服務(wù)器發(fā)送用戶的健康數(shù)據(jù),這些數(shù)據(jù)被服務(wù)提供商或醫(yī)學(xué)機(jī)構(gòu)等第三方通過數(shù)據(jù)挖掘等技術(shù)為人們提供更健康的生活方式,但同時(shí)也可能泄漏用戶隱私[1],例如用戶的健康狀況、地理位置等。

        可穿戴設(shè)備中除了用戶基本信息如姓名、年齡等記錄型數(shù)據(jù),還含有大量的需要實(shí)時(shí)采集和定期發(fā)布的數(shù)據(jù),如心跳、血壓、血糖等。這些用戶敏感數(shù)據(jù)大多是數(shù)值型數(shù)據(jù),而且數(shù)據(jù)有一定的波動(dòng)范圍。人群特征值屬性和醫(yī)療臨床數(shù)值范圍的統(tǒng)計(jì),這些都會(huì)用到均值發(fā)布。例如健康機(jī)構(gòu)統(tǒng)計(jì)用戶群的每日平均步數(shù)反映用戶整體運(yùn)動(dòng)情況,醫(yī)療機(jī)構(gòu)定期收集糖尿病患者的平均血糖情況研究治療方案的效果。這些數(shù)值型均值數(shù)據(jù)流本身的實(shí)時(shí)性、連續(xù)性和波動(dòng)性等特點(diǎn)給實(shí)時(shí)分析和安全發(fā)布帶來了很多挑戰(zhàn)。

        差分隱私[2]是當(dāng)前比較先進(jìn)的隱私保護(hù)方法。它通過使用隨機(jī)噪聲來確保整體的數(shù)據(jù)保持其統(tǒng)計(jì)特性,不會(huì)因?yàn)閭€(gè)體數(shù)據(jù)的變化而變化,從而抵御差分攻擊保護(hù)用戶個(gè)人隱私。關(guān)于差分隱私流數(shù)據(jù)發(fā)布的研究有文獻(xiàn)[3-6]等,這些研究都是基于對(duì)數(shù)據(jù)流進(jìn)行計(jì)數(shù)統(tǒng)計(jì)的差分隱私發(fā)布,對(duì)均值數(shù)據(jù)流的連續(xù)性不能進(jìn)行很好地度量。目前很少有差分隱私均值發(fā)布的研究,文獻(xiàn)[7]研究本地化差分隱私數(shù)值型靜態(tài)數(shù)據(jù)的均值估計(jì),不適用于流式均值數(shù)據(jù)發(fā)布。

        本文主要研究可穿戴設(shè)備中數(shù)值型流數(shù)據(jù)的均值統(tǒng)計(jì)。均值統(tǒng)計(jì)和計(jì)數(shù)統(tǒng)計(jì)有兩點(diǎn)不同:一是全局敏感度不同(見第2 章),即對(duì)數(shù)據(jù)集中增加或減少一條記錄在進(jìn)行統(tǒng)計(jì)操作后造成的影響不同,從而加入的隨機(jī)噪聲也不相同,因此適用于計(jì)數(shù)統(tǒng)計(jì)的隱私保護(hù)方法不一定適用于均值發(fā)布;二是數(shù)據(jù)波動(dòng)范圍不同,可穿戴設(shè)備中常見的數(shù)值型數(shù)據(jù)本身范圍有限制,即數(shù)值有上界和下界。相較于計(jì)數(shù)統(tǒng)計(jì),在經(jīng)過均值統(tǒng)計(jì)之后,均值流數(shù)據(jù)的波動(dòng)范圍更小。根據(jù)均值流數(shù)據(jù)的數(shù)據(jù)波動(dòng)小這一特點(diǎn),對(duì)數(shù)據(jù)進(jìn)行采樣,達(dá)到節(jié)省隱私預(yù)算的目的。

        基于上述情況,本文提出了一種基于卡爾曼濾波(Kalman Filter,KF)誤差可調(diào)的自適應(yīng)采樣流數(shù)據(jù)差分隱私均值發(fā)布方法。本文的主要工作有以下兩點(diǎn):

        1)針對(duì)可穿戴設(shè)備流數(shù)據(jù)隨時(shí)間在一定范圍內(nèi)波動(dòng)不大的特點(diǎn),研究流數(shù)據(jù)的差分隱私均值發(fā)布。引入差分隱私流數(shù)據(jù)均值發(fā)布的全局敏感度,通過結(jié)合卡爾曼濾波的采樣間隔自適應(yīng)的方法以降低隱私預(yù)算開銷和減少預(yù)測(cè)誤差,提高發(fā)布數(shù)據(jù)的可用性。

        2)改進(jìn)均值流算法自適應(yīng)采樣中的反饋誤差,解決已有針對(duì)計(jì)數(shù)統(tǒng)計(jì)的自適應(yīng)采樣算法對(duì)數(shù)據(jù)波動(dòng)過于敏感的問題,進(jìn)一步降低發(fā)布數(shù)據(jù)的誤差,提高可用性。

        1 相關(guān)工作

        關(guān)于可穿戴設(shè)備安全方面的研究目前主要集中在訪問控制[8]、無線通信安全[9]、信息加密[10]等。在隱私數(shù)據(jù)發(fā)布方向,傳統(tǒng)的醫(yī)療數(shù)據(jù)的隱私保護(hù)方有k-匿名、l-多樣性[11]等,然而這些方法缺乏對(duì)自身隱私保護(hù)能力的量化標(biāo)準(zhǔn)和對(duì)攻擊者能力的界定,且需要一定的背景知識(shí)?;跀?shù)學(xué)模型的差分隱私解決了這些問題[2],文獻(xiàn)[12]研究適合健康體域網(wǎng)的差分隱私保護(hù),主要針對(duì)心電圖數(shù)據(jù),不具有普適性;文獻(xiàn)[13]提出一種可穿戴設(shè)備多維數(shù)值型數(shù)據(jù)的均值統(tǒng)計(jì)方案,但該方法無法滿足流數(shù)據(jù)的發(fā)布。

        基于差分隱私的流數(shù)據(jù)發(fā)布,已有一些學(xué)者展開了研究。文獻(xiàn)[3]研究二進(jìn)制流的持續(xù)計(jì)數(shù)發(fā)布,該方法對(duì)發(fā)布每個(gè)時(shí)間點(diǎn)出現(xiàn)“1”的個(gè)數(shù)進(jìn)行擾動(dòng)然后發(fā)布。該方法僅對(duì)用戶的單點(diǎn)進(jìn)行隱私保護(hù)。文獻(xiàn)[4]建立一個(gè)時(shí)間序列的狀態(tài)空間模型降低擾動(dòng)誤差的影響,結(jié)合比例積分微分(Proportion Integral Differential,PID)過程控制進(jìn)行自適應(yīng)采樣;但是保護(hù)的是用戶整個(gè)時(shí)間序列的計(jì)數(shù)統(tǒng)計(jì)值,并不能直接運(yùn)用到均值統(tǒng)計(jì)發(fā)布中。文獻(xiàn)[5]提出的方法保護(hù)滑動(dòng)窗口內(nèi)所有事件隱私,比較當(dāng)前點(diǎn)的計(jì)數(shù)總和與上一個(gè)發(fā)布值的相似性來決定是否發(fā)布;但該方法在窗口內(nèi)的隱私預(yù)算分配采用指數(shù)遞減的方法存在一定的問題。文獻(xiàn)[6]研究時(shí)空數(shù)據(jù)流的計(jì)數(shù)發(fā)布,在文獻(xiàn)[5]的基礎(chǔ)上加入動(dòng)態(tài)分組和自適應(yīng)隱私預(yù)算分配,得到了進(jìn)一步優(yōu)化;但該方法不適用于均值統(tǒng)計(jì)發(fā)布,不能解決本文研究的問題。

        目前的差分隱私算法主要圍繞計(jì)數(shù)統(tǒng)計(jì)展開[3-6]。計(jì)數(shù)統(tǒng)計(jì)的全局敏感度是1,而均值統(tǒng)計(jì)的全局敏感度[14](詳細(xì)見第2 章)受被統(tǒng)計(jì)的數(shù)據(jù)集上下界影響。對(duì)于均值統(tǒng)計(jì)的流數(shù)據(jù)差分隱私發(fā)布,一些計(jì)數(shù)統(tǒng)計(jì)的方法可以借鑒。最直觀的方法是在每個(gè)時(shí)間戳的每個(gè)均值估計(jì)上添加拉普拉斯噪聲[15],這個(gè)方法使每個(gè)點(diǎn)分到的隱私預(yù)算很小,從而導(dǎo)致非常高的擾動(dòng)誤差,而且忽略了數(shù)據(jù)流的連續(xù)性。文獻(xiàn)[16-17]在拉普拉斯噪聲基礎(chǔ)上加入卡爾曼濾波保證了數(shù)據(jù)的時(shí)序關(guān)聯(lián)以及降低誤差,但仍存在隱私預(yù)算分配問題。文獻(xiàn)[18]為了節(jié)省隱私預(yù)算,在卡爾曼濾波的基礎(chǔ)上進(jìn)行固定間隔采樣,缺點(diǎn)是無法動(dòng)態(tài)適應(yīng)數(shù)據(jù)集自身的波動(dòng)情況,可能造成較大的預(yù)測(cè)誤差。

        據(jù)以上分析可知:已有針對(duì)可穿戴設(shè)備數(shù)據(jù)差分隱私發(fā)布研究中缺少關(guān)于流數(shù)據(jù)發(fā)布方面的研究;且普適性差分隱私流數(shù)據(jù)發(fā)布研究主要針對(duì)計(jì)數(shù)統(tǒng)計(jì),不適用于均值統(tǒng)計(jì)。而可穿戴設(shè)備中存在大量數(shù)值型流數(shù)據(jù),因此,本文提出了一種基于卡爾曼濾波誤差可調(diào)的自適應(yīng)采樣流數(shù)據(jù)均值發(fā)布方法。

        2 定義和理論基礎(chǔ)

        差分隱私模型最初用于保護(hù)統(tǒng)計(jì)數(shù)據(jù)庫中個(gè)體的隱私信息,對(duì)數(shù)據(jù)進(jìn)行一定的函數(shù)操作后,數(shù)據(jù)集中單個(gè)記錄的插入或者刪除操作對(duì)函數(shù)操作結(jié)果影響極小。首先引入鄰近數(shù)據(jù)集的概念。對(duì)于傳統(tǒng)的靜態(tài)數(shù)據(jù),如果有兩個(gè)數(shù)據(jù)集D和D',只存在一條記錄不同,即|DΔ |D'=1,則稱D和D'為鄰近數(shù)據(jù)集。對(duì)于動(dòng)態(tài)數(shù)據(jù)流,鄰近數(shù)據(jù)集的定義與之類似。給定兩個(gè)數(shù)據(jù)流D和D',只存在一個(gè)用戶不同,則D和D'為鄰近數(shù)據(jù)流。

        定義1ε-差分隱私[19]。給定兩個(gè)鄰近數(shù)據(jù)流D、D'和一個(gè)隨機(jī)算法A,若算法A對(duì)這兩個(gè)鄰近數(shù)據(jù)流的所有可能輸出O均滿足不等式(1),則稱算法A滿足基于用戶的ε-差分隱私。

        參數(shù)ε被稱為隱私預(yù)算,表示隱私保護(hù)程度。參數(shù)ε越小,則算法A在鄰近數(shù)據(jù)流輸出相同結(jié)果的概率越接近,隱私保護(hù)程度越高。

        定義2全局敏感度[2]。對(duì)任意一個(gè)函數(shù)f:D→Rd,函數(shù)的全局敏感度定義為數(shù)據(jù)集增加或刪除一條記錄對(duì)函數(shù)結(jié)果的最大影響,即:

        全局敏感度的大小和函數(shù)本身有關(guān)。特別地,對(duì)于計(jì)數(shù)統(tǒng)計(jì)函數(shù)Δf=1。而對(duì)于數(shù)值型數(shù)據(jù),假設(shè)數(shù)據(jù)含有n條記錄,變化范圍是[MIN,MAX],則該數(shù)據(jù)集的均值函數(shù)的全局敏感度。

        定義3Laplace 機(jī)制[3]。給定數(shù)據(jù)集D,對(duì)任意一個(gè)函數(shù)f:D→Rd,其全局敏感度為Δf,若隨機(jī)算法A滿足式(3),則算法提供ε-差分隱私。

        性質(zhì)1序列組合性[3]。對(duì)于一個(gè)數(shù)據(jù)集D,給定m個(gè)隨機(jī)算法Ai(1 ≤i≤m),若每個(gè)Ai滿足εi-差分隱私,且,那么序列Ai(D)滿足ε-差分隱私。

        3 可穿戴設(shè)備數(shù)值型流數(shù)據(jù)均值發(fā)布方法

        3.1 問題描述

        下面針對(duì)可穿戴設(shè)備的數(shù)據(jù)流特點(diǎn)和均值發(fā)布的特點(diǎn),為其設(shè)計(jì)合適的差分隱私數(shù)據(jù)發(fā)布方法??纱┐髟O(shè)備如智能手環(huán)或血糖儀等實(shí)時(shí)采集用戶的健康醫(yī)療數(shù)據(jù),這些實(shí)時(shí)數(shù)據(jù)如表1 所示,大多是一些數(shù)值型數(shù)據(jù),如某次運(yùn)動(dòng)測(cè)得的心率、飯后血糖含量,且具有一定的范圍。受信任的服務(wù)器收集了大量用戶的健康醫(yī)療數(shù)據(jù)進(jìn)行匯聚,并發(fā)布給第三方如健康服務(wù)廠商或者臨床醫(yī)療機(jī)構(gòu)以進(jìn)行市場(chǎng)分析或醫(yī)療方案優(yōu)化。若這些數(shù)據(jù)被不可信的第三方獲取,則用戶的健康信息等隱私安全無法得到保證。因此受信任的服務(wù)器在發(fā)布用戶的可穿戴設(shè)備流數(shù)據(jù)時(shí)要對(duì)數(shù)據(jù)進(jìn)行差分隱私保護(hù)。

        表1 可穿戴設(shè)備數(shù)值型實(shí)時(shí)數(shù)據(jù)Tab.1 Numerical real-time data of wearable devices

        本文研究數(shù)值型流數(shù)據(jù)的均值發(fā)布方法。基于可穿戴設(shè)備的實(shí)時(shí)數(shù)據(jù)均值發(fā)布場(chǎng)景,服務(wù)器在每一個(gè)時(shí)間戳為所有用戶建立數(shù)據(jù)庫Dk。假設(shè)單變量的離散數(shù)值型流數(shù)據(jù)集合為X={xk},xk表示在時(shí)刻k下對(duì)原始數(shù)據(jù)庫Dk進(jìn)行統(tǒng)計(jì)得到的原始統(tǒng)計(jì)數(shù)據(jù)x,其中0 ≤k<T,T是時(shí)間流的長(zhǎng)度。特別地,本文的應(yīng)用場(chǎng)景下X是一個(gè)均值序列,例如可穿戴設(shè)備收集的某個(gè)地區(qū)用戶每天的睡眠時(shí)長(zhǎng),或某醫(yī)療機(jī)構(gòu)心臟病患者的心率、糖尿病患者的血糖平均值。設(shè)定原始均值流數(shù)據(jù)X經(jīng)過差分隱私發(fā)布算法之后數(shù)據(jù)為Release={rk}。

        目前針對(duì)數(shù)值型數(shù)據(jù)的差分隱私統(tǒng)計(jì)發(fā)布方法主要是將數(shù)值型數(shù)據(jù)根據(jù)范圍進(jìn)行分類,從而將數(shù)值型數(shù)據(jù)轉(zhuǎn)化為分類型數(shù)據(jù)進(jìn)行計(jì)數(shù)統(tǒng)計(jì),沒有普適的針對(duì)數(shù)值型流數(shù)據(jù)均值發(fā)布算法。針對(duì)可穿戴設(shè)備數(shù)值型數(shù)據(jù)的均值發(fā)布流數(shù)據(jù)隨時(shí)間在一定范圍內(nèi)波動(dòng)不大的特點(diǎn),采用采樣的方法可以有效降低隱私預(yù)算開銷。參考文獻(xiàn)[4],本文針對(duì)原始均值流數(shù)據(jù),提出了一種基于卡爾曼濾波誤差可調(diào)的自適應(yīng)采樣的流數(shù)據(jù)均值發(fā)布方法。

        3.2 方法描述

        本節(jié)介紹可穿戴設(shè)備流數(shù)據(jù)均值發(fā)布方法,如圖1 所示?,F(xiàn)有一個(gè)含有長(zhǎng)度為T的單變量數(shù)值型數(shù)據(jù)流D={Dk},Dk表示當(dāng)前時(shí)刻k所有n個(gè)用戶從可穿戴設(shè)備中采集到的原始數(shù)值型數(shù)據(jù)集。對(duì)每個(gè)時(shí)間戳的原始數(shù)據(jù)進(jìn)行均值統(tǒng)計(jì)得到對(duì)應(yīng)的xk。假設(shè)該數(shù)據(jù)型單變量的變化范圍是[MIN,MAX],則均值函數(shù)的全局敏感度。

        下面描述流數(shù)據(jù)均值發(fā)布方法的步驟:第一步,對(duì)于每一個(gè)時(shí)間點(diǎn)k,根據(jù)自適應(yīng)采樣部分確定該點(diǎn)是不是采樣點(diǎn)。如果該點(diǎn)是采樣點(diǎn),則對(duì)采樣點(diǎn)用Laplace 機(jī)制進(jìn)行擾動(dòng)。第一步得到的數(shù)據(jù)可能與原始數(shù)據(jù)誤差較大,且相鄰時(shí)間節(jié)點(diǎn)的連續(xù)性無法度量。因此第二步采用卡爾曼濾波模型增加時(shí)間的相關(guān)性,對(duì)含噪數(shù)據(jù)進(jìn)行預(yù)測(cè)和修正得到先驗(yàn)估計(jì)和后驗(yàn)估計(jì)。第三步是把第二步中先驗(yàn)估計(jì)和后驗(yàn)估計(jì)的絕對(duì)誤差作為自適應(yīng)采樣部分的反饋參數(shù)計(jì)算下一個(gè)采樣間隔,即通過數(shù)據(jù)隨時(shí)間的波動(dòng)情況自適應(yīng)調(diào)整采樣間隔。第四步,采樣點(diǎn)的發(fā)布值為第二步濾波中的后驗(yàn)估計(jì),非采樣點(diǎn)的發(fā)布值為濾波得到的先驗(yàn)估計(jì),即上一個(gè)采樣點(diǎn)的發(fā)布值。在該方案中,采樣點(diǎn)的隱私預(yù)算是均勻分配的,當(dāng)采樣點(diǎn)用完,即隱私預(yù)算消耗完時(shí)方案會(huì)停止采樣。

        圖1 流數(shù)據(jù)均值發(fā)布框架Fig.1 Framework of stream data average publishing

        算法1 描述了流數(shù)據(jù)均值發(fā)布方法的算法實(shí)現(xiàn)過程。已知現(xiàn)有的均值流序列為X={xk},長(zhǎng)度為T,采樣點(diǎn)個(gè)數(shù)為M(M<T),則每個(gè)采樣點(diǎn)分配到的隱私預(yù)算是。均值統(tǒng)計(jì)的全局敏感度是,對(duì)采樣點(diǎn)加入服從分布的噪聲。由于數(shù)值型均值流數(shù)據(jù)的波動(dòng)范圍小,文獻(xiàn)[4]基于計(jì)數(shù)統(tǒng)計(jì)的反饋誤差衡量方法調(diào)節(jié)的采樣間隔對(duì)數(shù)據(jù)流的微小波動(dòng)敏感,容易使隱私預(yù)算提前消耗完。本文方案對(duì)自適應(yīng)采樣中的反饋誤差衡量方法進(jìn)行了改進(jìn),減小了預(yù)測(cè)誤差。后續(xù)結(jié)果表明本文的均值流數(shù)據(jù)發(fā)布(Average Stream Data Publishing,ASDP)算法的性能優(yōu)于基于卡爾曼的差分隱私算法和原有針對(duì)計(jì)數(shù)統(tǒng)計(jì)的差分隱私時(shí)序監(jiān)測(cè)的濾波和自適應(yīng)采樣(Filtering and Adaptive Sampling for differential private Time-series monitoring,F(xiàn)AST)算法。

        算法1 ASDP算法。

        3.2.1 卡爾曼濾波

        在流數(shù)據(jù)均值發(fā)布方法中,卡爾曼濾波能夠提高數(shù)據(jù)之間的時(shí)序關(guān)聯(lián)性和過濾部分噪聲,同時(shí)為后續(xù)的自適應(yīng)采樣部分提供反饋誤差。

        卡爾曼濾波(KF)[20]是一種利用線性狀態(tài)方程,通過系統(tǒng)輸入輸出觀測(cè)數(shù)據(jù),對(duì)系統(tǒng)狀態(tài)進(jìn)行最優(yōu)估計(jì)的算法。該算法中有兩個(gè)重要的常量參數(shù)Q和R。從文獻(xiàn)[4]中可知,Q與原始均值序列的方差相關(guān),R與加入的噪聲數(shù)據(jù)方差相關(guān)。因此,在本文的發(fā)布方法中:Q取原始均值流數(shù)據(jù)的方差;R為L(zhǎng)aplace 噪聲的方差,即?;谏鲜鋈≈?,對(duì)均值流數(shù)據(jù)的后驗(yàn)估計(jì)效果可以達(dá)到最優(yōu)。

        針對(duì)均值序列的卡爾曼濾波差分隱私算法如算法2 所示。首先,對(duì)原始均值流進(jìn)行加噪。第3)~4)行是對(duì)數(shù)據(jù)的預(yù)測(cè),即上一個(gè)時(shí)間點(diǎn)的發(fā)布數(shù)據(jù)作為當(dāng)前時(shí)間點(diǎn)的先驗(yàn)估計(jì)。第5)~7)行對(duì)數(shù)據(jù)進(jìn)行修正,得到當(dāng)前時(shí)間點(diǎn)的后驗(yàn)估計(jì),第8)行將后驗(yàn)估計(jì)作為發(fā)布值進(jìn)行發(fā)布。在算法1中,若當(dāng)前時(shí)間k為采樣點(diǎn),則對(duì)其進(jìn)行預(yù)測(cè)和修正,后驗(yàn)估計(jì)作為發(fā)布值rk;若該點(diǎn)為非采樣點(diǎn),則該點(diǎn)發(fā)布值rk為該點(diǎn)的先驗(yàn)估計(jì),即上一個(gè)采樣點(diǎn)的發(fā)布值。用上一個(gè)采樣點(diǎn)發(fā)布值替代非采樣點(diǎn)的發(fā)布值造成的誤差稱為預(yù)測(cè)誤差。合理地調(diào)整采樣間隔可以減小預(yù)測(cè)誤差。

        算法2 卡爾曼濾波。

        3.2.2 自適應(yīng)采樣

        本節(jié)介紹可穿戴設(shè)備數(shù)值型流數(shù)據(jù)均值發(fā)布方法中采樣自適應(yīng)的目的以及具體針對(duì)均值發(fā)布的自適應(yīng)采樣改進(jìn)方法。

        對(duì)于流數(shù)據(jù)均值發(fā)布的隱私預(yù)算分配,若對(duì)每個(gè)時(shí)間點(diǎn)進(jìn)行擾動(dòng),則每個(gè)點(diǎn)分到的隱私預(yù)算較小,噪聲較大。隨著時(shí)間的增長(zhǎng),添加的噪聲也在不斷累積,數(shù)據(jù)的可用性低,采樣可以減少隱私預(yù)算分配。只在選定的采樣點(diǎn)上加入擾動(dòng)噪聲進(jìn)行發(fā)布,非采樣點(diǎn)不進(jìn)行擾動(dòng),即只在采樣點(diǎn)分配隱私預(yù)算。均值流數(shù)據(jù)的數(shù)據(jù)波動(dòng)不大,適合進(jìn)行采樣。常見的采樣方法有固定間隔采樣和自適應(yīng)采樣。固定間隔采樣不能動(dòng)態(tài)地根據(jù)數(shù)據(jù)流變化情況調(diào)整采樣間隔,可能造成較大的預(yù)測(cè)誤差。因此本方案對(duì)原始均值流進(jìn)行自適應(yīng)采樣,使用PID控制器[21]捕捉數(shù)據(jù)流的動(dòng)態(tài)變化,然后根據(jù)PID和當(dāng)前采樣間隔計(jì)算下一采樣間隔,從而來確定下一個(gè)采樣點(diǎn)。

        PID 控制器是最常見的反饋控制形式,用來度量采樣效果隨時(shí)間的變化。PID 的輸入為反饋誤差。在過濾機(jī)制中,反饋誤差用來衡量先驗(yàn)估計(jì)和后驗(yàn)估計(jì)的差距以表示數(shù)據(jù)的變化情況。當(dāng)后驗(yàn)估計(jì)和先驗(yàn)估計(jì)相差較大時(shí),表明數(shù)據(jù)變化較快,則應(yīng)提高采樣頻率。在文獻(xiàn)[4]中,PID 的反饋誤差為相對(duì)誤差。但在均值流數(shù)據(jù)中,數(shù)據(jù)本身波動(dòng)范圍較小,且隨時(shí)間波動(dòng)變化相較于計(jì)數(shù)統(tǒng)計(jì)后得到的流數(shù)據(jù)也較小,若采用相對(duì)誤差作為反饋誤差,則算法對(duì)數(shù)據(jù)的波動(dòng)過于敏感,采樣頻率過高從而過度采樣,提前消耗完隱私預(yù)算。因此本方案采用式(4)所示的絕對(duì)誤差作為反饋誤差。

        定義4用kn(0 ≤kn≤T)表示第n個(gè)采樣點(diǎn)(0 ≤n≤M)對(duì)應(yīng)的時(shí)間戳,和分別為濾波機(jī)制得到的后驗(yàn)估計(jì)和先驗(yàn)估計(jì),則本方案定義的反饋誤差為:

        自適應(yīng)采樣算法的過程如算法3 所示。若當(dāng)前時(shí)間戳為采樣點(diǎn),則從卡爾曼濾波算法中計(jì)算反饋誤差,再根據(jù)反饋誤差計(jì)算PID 誤差。再結(jié)合上一步采樣間隔I自適應(yīng)調(diào)整下一步采樣間隔I'。

        算法3 自適應(yīng)采樣。

        式(5)是更新采樣間隔的方法:

        其中:θ表示采樣間隔變化程度,ξ表示PID容忍度值,這兩個(gè)值是經(jīng)驗(yàn)參數(shù)。ξ值控制采樣過程中的采樣間隔,衡量PID 誤差的容忍程度。由式(5)知,當(dāng)PID 誤差Δ>ξ,表明相鄰數(shù)據(jù)的波動(dòng)超出預(yù)期,則下一次的采樣間隔I'將小于當(dāng)前采樣間隔I;當(dāng)Δ<ξ時(shí),表明數(shù)據(jù)波動(dòng)較小,則下一次采樣間隔將增大。本文將在實(shí)驗(yàn)部分研究這兩個(gè)參數(shù)的變化對(duì)實(shí)驗(yàn)結(jié)果的影響。

        3.3 可用性和隱私性分析

        本文用平均相對(duì)誤差(Mean Relative Error,MRE)衡量差分隱私發(fā)布的均值數(shù)據(jù)流的可用性,將多個(gè)用戶數(shù)值型數(shù)據(jù)流在經(jīng)過均值統(tǒng)計(jì)之后的原始均值數(shù)據(jù)流和經(jīng)過差分隱私發(fā)布方法得到的均值數(shù)據(jù)流計(jì)算平均相對(duì)誤差。所得誤差越小,則隱私發(fā)布數(shù)據(jù)與原始數(shù)據(jù)的統(tǒng)計(jì)特性越接近,可用性越高。本文所提的方法與文獻(xiàn)[4]方法相似,可用性理論分析和證明見文獻(xiàn)[22](文獻(xiàn)[4]的詳細(xì)版本)。

        接下來從理論上分析算法的隱私性。

        性質(zhì)2ASDP算法滿足ε-差分隱私。

        證明 ASDP算法選取M個(gè)采樣點(diǎn),為每一個(gè)采樣點(diǎn)分配的隱私預(yù)算。在采樣間隔參數(shù)θ設(shè)置得偏小或者適中的情況下,采樣點(diǎn)個(gè)數(shù)恰好為M,則根據(jù)性質(zhì)1 序列組合性可知算法整體消耗的隱私預(yù)算為ε,滿足ε-差分隱私;若采樣間隔θ設(shè)置不合理導(dǎo)致采樣點(diǎn)個(gè)數(shù)G小于M(即下一個(gè)采樣點(diǎn)時(shí)間戳超過了數(shù)據(jù)流長(zhǎng)度T而采樣點(diǎn)未用完),則消耗的隱私預(yù)算為,滿足ε-差分隱私。 證畢。

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)采用模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集對(duì)數(shù)值型流數(shù)據(jù)均值發(fā)布方法的可行性進(jìn)行評(píng)估。模擬數(shù)據(jù)集模擬可穿戴設(shè)備手環(huán)常見的心率數(shù)據(jù),選取5 760 000條記錄,心率的數(shù)值范圍是[60,160],模擬的心率數(shù)據(jù)服從正態(tài)分布。真實(shí)數(shù)據(jù)集為加州大學(xué)歐文分校的糖尿病數(shù)據(jù)集(http://archive.ics.uci.edu/ml/data-set//Diabetes),該數(shù)據(jù)集記錄了自1989 年到1991 年糖尿病患者在早中晚餐及睡前的血糖含量數(shù)據(jù),總共488個(gè)時(shí)間點(diǎn),選取210 000 條記錄,血糖值的波動(dòng)范圍是[30,400]。將這兩種數(shù)據(jù)集進(jìn)行均值統(tǒng)計(jì)后的數(shù)據(jù)作為原始數(shù)據(jù)。

        心率數(shù)據(jù)集和血糖數(shù)據(jù)集數(shù)據(jù)分布情況如表2 所示。其中心率和血糖的單位同表1 中描述單位。從標(biāo)準(zhǔn)差和最大值、最小值可以看出,血糖數(shù)據(jù)集的數(shù)據(jù)波動(dòng)比心率數(shù)據(jù)大,這個(gè)性質(zhì)也與健康數(shù)據(jù)數(shù)值范圍本身存在一定的背景知識(shí)限制有關(guān)。

        表2 兩種數(shù)據(jù)集的數(shù)據(jù)分布特性Tab.2 Data distribution features of two datasets

        實(shí)驗(yàn)采用平均相對(duì)誤差(MRE)來衡量該數(shù)據(jù)發(fā)布方案的可用性。給定原始數(shù)據(jù)流X={xk}和經(jīng)過發(fā)布方法得到的數(shù)據(jù)流Release={rk},在該場(chǎng)景下,其MRE為:

        4.2 結(jié)果分析

        在上述兩個(gè)數(shù)據(jù)集上,改變采樣誤差容忍度ξ值,采樣間隔控制θ值和采樣點(diǎn)比例M/T以尋找合適的采樣參數(shù),然后選取基礎(chǔ)拉普拉斯(LaPlAce,LPA)算法、KF 算法和針對(duì)計(jì)數(shù)統(tǒng)計(jì)的FAST 算法[4]作對(duì)比來衡量本文設(shè)計(jì)的ASDP 算法可用性。

        4.2.1 不同PID容忍度ξ值下的誤差分析

        本組實(shí)驗(yàn)研究不同數(shù)據(jù)集對(duì)ξ值的最優(yōu)值選擇問題,將心率數(shù)據(jù)集和血糖數(shù)據(jù)集截取成相同的時(shí)間流長(zhǎng)度T=300,并設(shè)置ε=1、M=90,其他采樣參數(shù)均相同。ξ的取值范圍是從0.2%到10%以0.002為間隔,共50個(gè)取值。對(duì)于不同數(shù)據(jù)波動(dòng)分布的數(shù)據(jù)集,ξ取值的選取影響方案的可用性。

        圖2 展示了ξ取值對(duì)兩個(gè)不同數(shù)據(jù)集的影響。縱坐標(biāo)是當(dāng)前的MRE/MIN,其含義是當(dāng)前的MRE數(shù)值比上實(shí)驗(yàn)中最小的MRE值。原因是在ξ取值相同時(shí),血糖數(shù)據(jù)集和心跳數(shù)據(jù)集的MRE相差較大,若直接比較MRE則呈現(xiàn)效果不佳。如圖2所示,心率數(shù)據(jù)集的數(shù)據(jù)波動(dòng)小,在ξ=0.4%時(shí)誤差最小,在0.4%到2%誤差呈指數(shù)上升,自2%到10%平穩(wěn)上升;而血糖數(shù)據(jù)集的數(shù)據(jù)波動(dòng)相對(duì)大一些,在ξ=3%時(shí)誤差最小,在3%到10%接近直線上升。即對(duì)于數(shù)據(jù)波動(dòng)小的數(shù)據(jù)集,ξ的取值相較數(shù)據(jù)集波動(dòng)大的數(shù)據(jù)集要小,因?yàn)樵摲桨钢幸隤ID是用于衡量相鄰數(shù)據(jù)之間的相似性以確定采樣間隔,對(duì)應(yīng)ξ的選取應(yīng)該與數(shù)據(jù)集的波動(dòng)大小相適應(yīng)。

        圖2 兩種數(shù)據(jù)集不同ξ值下的平均相對(duì)誤差比值比較Fig.2 Comparison of MRE ratio between two datasets under different ξ

        4.2.2 采樣參數(shù)θ值和采樣點(diǎn)比例M/T的誤差分析

        本組實(shí)驗(yàn)研究采樣參數(shù)θ值和采樣點(diǎn)比例M/T對(duì)可用性的影響,在血糖數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),設(shè)置ξ=3%,ε=1,T=300。θ表示自適應(yīng)采樣間隔變化的幅度,M表示采樣點(diǎn)個(gè)數(shù)。

        從圖3(a)中可知,θ在10~20時(shí),該方案的效果比較好;當(dāng)θ=1 時(shí),采樣間隔過小導(dǎo)致采樣頻繁,過早用完采樣點(diǎn),在實(shí)際應(yīng)用中不可??;當(dāng)θ>20 時(shí),即隨著采樣間隔逐漸增大,相鄰點(diǎn)的預(yù)測(cè)誤差增大從而導(dǎo)致誤差增大。

        圖3 自適應(yīng)采樣的參數(shù)選擇Fig.3 Parameter selection of adaptive sampling

        采樣點(diǎn)的變化規(guī)律與采樣間隔變化規(guī)律類似。每個(gè)采樣點(diǎn)分配的隱私預(yù)算為ε/M。當(dāng)采樣點(diǎn)比較少時(shí),每個(gè)采樣點(diǎn)加入的噪聲偏小但相鄰點(diǎn)間的預(yù)測(cè)誤差較大;當(dāng)采樣點(diǎn)較多時(shí),每個(gè)采樣點(diǎn)加入的噪聲偏大而相鄰點(diǎn)間的預(yù)測(cè)誤差小。如圖3(b)所示,當(dāng)M/T的比例在0.2~0.6 時(shí),該方案能夠達(dá)到很好的效果;比例超過0.6后誤差逐漸增大。

        4.2.3 隱私預(yù)算對(duì)可用性的影響

        實(shí)驗(yàn)設(shè)置隱私預(yù)算ε的范圍是0.1~1.0,間隔為0.1。將ASDP算法與LPA 算法、KF算法和FAST算法分別在兩種數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn)。對(duì)于LPA算法和KF算法,每個(gè)采樣點(diǎn)分配到的隱私預(yù)算為ε/T;而FAST 算法和ASDP 算法,每個(gè)點(diǎn)的隱私預(yù)算為ε/M。對(duì)于心跳數(shù)據(jù)集取PID 容忍度ξ=0.4%,血糖數(shù)據(jù)集ξ=3%。

        如圖4 所示,在PID 容忍度ξ取到適合于該數(shù)據(jù)集波動(dòng)特性的情況下,ASDP算法在心率和血糖兩種數(shù)據(jù)集下取得了類似的效果。隨著ε增大,四種發(fā)布算法的誤差在所有的數(shù)據(jù)集中都在下降,這是因?yàn)楫?dāng)隱私預(yù)算越小所造成的噪聲越大。

        圖4 不同隱私預(yù)算下兩種數(shù)據(jù)集的誤差分析Fig.4 Error analysis of two datasets under different privacy budgets

        將四種算法進(jìn)行比較,由圖4(a)和(c)可以看出,隨著ε增大,ASDP 算法明顯優(yōu)于LPA 算法和KF 算法。在ε=0.1 時(shí)該算法的效果明顯優(yōu)于LPA 和KF;在ε>0.5 之后,該算法的效果與KF 算法的效果近似,但均優(yōu)于KF 算法。這是因?yàn)樵撍惴ㄟ\(yùn)用了采樣機(jī)制,因此每一個(gè)采樣點(diǎn)能分配到更多的隱私預(yù)算;用PID 機(jī)制衡量采樣點(diǎn)之間的相似性保證了采樣的可靠性。將FAST 算法和ASDP 算法單獨(dú)進(jìn)行對(duì)比,結(jié)果如圖4(b)和圖4(d)所示。由圖4(b)和圖4(d)可以看出,隨著隱私預(yù)算的增大,ASDP 算法的誤差均明顯小于FAST 算法。這是由于ASDP 算法更適合可穿戴設(shè)備流數(shù)據(jù)的波動(dòng)特點(diǎn),反饋誤差的修改使采樣點(diǎn)和采樣間隔的選擇較FAST更為合理,從而減小了發(fā)布數(shù)據(jù)的誤差,提高了流數(shù)據(jù)均值發(fā)布數(shù)據(jù)的可用性。

        5 結(jié)語

        本文針對(duì)可穿戴設(shè)備數(shù)值型流數(shù)據(jù)的均值統(tǒng)計(jì)發(fā)布,提出了基于自適應(yīng)采樣的流數(shù)據(jù)差分隱私均值發(fā)布方法。該方法引入均值統(tǒng)計(jì)的全局敏感度;根據(jù)數(shù)值型數(shù)據(jù)進(jìn)行均值統(tǒng)計(jì)之后數(shù)據(jù)波動(dòng)不大的特點(diǎn),采用基于卡爾曼濾波調(diào)整誤差的自適應(yīng)采樣,既兼顧了流數(shù)據(jù)的實(shí)時(shí)性和連續(xù)性,又根據(jù)流數(shù)據(jù)的波動(dòng)特點(diǎn)動(dòng)態(tài)采樣,節(jié)省隱私預(yù)算;進(jìn)一步改進(jìn)自適應(yīng)采樣的反饋誤差,解決了對(duì)數(shù)據(jù)波動(dòng)過于敏感而過度采樣的問題。實(shí)驗(yàn)結(jié)果表明,本文的均值發(fā)布方法有效地減少了采樣帶來的預(yù)測(cè)誤差,提高流數(shù)據(jù)均值發(fā)布數(shù)據(jù)的可用性。

        本文提出的數(shù)值型流數(shù)據(jù)差分隱私均值發(fā)布方法僅考慮單維度流數(shù)據(jù)發(fā)布,未考慮多維數(shù)值型流數(shù)據(jù)發(fā)布。多維數(shù)值型流數(shù)據(jù)的差分隱私發(fā)布是接下來值得研究的方向。在每個(gè)采樣點(diǎn)的隱私預(yù)算分配方面,僅采用簡(jiǎn)單的均勻分配,動(dòng)態(tài)調(diào)整每個(gè)采樣點(diǎn)的隱私分配策略是下一步需要考慮的方向。

        猜你喜歡
        數(shù)據(jù)流卡爾曼濾波差分
        數(shù)列與差分
        汽車維修數(shù)據(jù)流基礎(chǔ)(下)
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
        基于遞推更新卡爾曼濾波的磁偶極子目標(biāo)跟蹤
        基于模糊卡爾曼濾波算法的動(dòng)力電池SOC估計(jì)
        基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
        基于擴(kuò)展卡爾曼濾波的PMSM無位置傳感器控制
        基于差分隱私的大數(shù)據(jù)隱私保護(hù)
        北醫(yī)三院 數(shù)據(jù)流疏通就診量
        相對(duì)差分單項(xiàng)測(cè)距△DOR
        太空探索(2014年1期)2014-07-10 13:41:50
        国产一区二区三区在线男友| 精品人体无码一区二区三区| 亚洲小说区图片区色综合网| 野花社区视频在线观看| 五十路丰满中年熟女中出| 精品久久久久久久久午夜福利| 乱子伦在线观看| 精品av天堂毛片久久久| 99久久综合狠狠综合久久| 日本韩国三级aⅴ在线观看| 开心五月激情五月天天五月五月天 | 自拍偷自拍亚洲精品播放| 精品亚洲少妇一区二区三区| 免费国产一级片内射老| 丰满人妻一区二区三区52| 国产精品一区二区三区在线免费 | 亚洲专区一区二区三区四区五区 | 国产激情在线观看视频网址| 国产美腿丝袜一区二区| 久久精品aⅴ无码中文字字幕| 少妇久久久久久人妻无码| 亚洲av成人无码久久精品| 亚洲国产理论片在线播放| 国产精品视频一区二区三区,| 中文字幕乱码在线婷婷| www夜插内射视频网站| 亚洲一区二区三区av无码| 国产精品久久久久久久成人午夜| 亚洲三区二区一区视频| 中文字幕一区二区三区综合网| 亚洲精品在线97中文字幕| 亚洲精品中文字幕一二三区| 国产国语亲子伦亲子| 亚洲一本大道无码av天堂| 亚洲午夜无码AV不卡| av在线网站一区二区| 日本一级二级三级不卡| 东北老女人高潮大喊舒服死了| 久久精品人妻一区二区三区| 午夜无码片在线观看影院y| 野花视频在线观看免费|