亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        差分隱私DNA模體識別安全共享平臺的設(shè)計與實現(xiàn)

        2019-01-07 11:57:26,,,
        計算機測量與控制 2018年12期
        關(guān)鍵詞:模體精確度差分

        , , ,

        (徐州醫(yī)科大學(xué) 醫(yī)學(xué)信息學(xué)院,江蘇 徐州 221006)

        0 引言

        DNA模體識別(motif finding)作為生物序列分析的基礎(chǔ)研究方法之一,對研究基因的表達調(diào)控機制、發(fā)現(xiàn)DNA功能位點有著重要意義[1-2]。但是,DNA數(shù)據(jù)蘊含豐富的隱私信息,這些隱私信息的泄露問題成為了DNA序列分析發(fā)展的瓶頸之一[3-5]。與此同時,Homer等人也通過實驗證實:基因序列分析研究中確實存在極高的隱私泄露風(fēng)險[6]。該結(jié)論導(dǎo)致多個知名生物數(shù)據(jù)平臺暫停DNA數(shù)據(jù)共享服務(wù),嚴(yán)重阻礙DNA序列分析研究的發(fā)展,隱私泄露已經(jīng)成為了 DNA序列分析技術(shù)發(fā)展中亟待解決的關(guān)鍵性問題。

        目前,國外學(xué)者對DNA序列分析的隱私保護研究主要集中在差分隱私保護技術(shù)上,并取得了一些成果[7-11]。差分隱私技術(shù)設(shè)定了一個嚴(yán)格的攻擊模型,能夠?qū)﹄[私泄露風(fēng)險進行嚴(yán)謹、定量化的推導(dǎo)與證明。而差分隱私模型的特性是能夠在攻擊者已掌握除某一條 DNA 序列之外的所有數(shù)據(jù)信息時,仍然保證該 DNA 序列隱私信息的安全性。但是,由于DNA數(shù)據(jù)的高度敏感性,往往容易造成差分隱私對DNA序列分析結(jié)果的過度加噪,從而導(dǎo)致分析結(jié)果失去應(yīng)有價值。因此,在進行差分隱私DNA序列分析研究時,分析方法既要保證結(jié)果安全性又要保證結(jié)果的高可用性。

        對此,Uhler等人[7]將差分隱私加噪融入到DNA序列分析過程中,并提出差分隱私MAFs(Minor allele frequencies)、差分隱私卡方檢驗、差分隱私p-values等數(shù)據(jù)發(fā)布方法,且從理論和實驗兩個方面證明了這些方法的可行性。其后,Simmons等人[11]對已有研究成果進行改進,并針對人口分層因素影響差分隱私DNA序列分析方法精確度的問題,提出了PrivSTRAT算法和PrivLMM算法,該研究成果引起國內(nèi)外學(xué)術(shù)界廣泛關(guān)注。

        而在模體識別領(lǐng)域,Chen等人[12]指出利用差分隱私可以有效地解決DNA模體識別的隱私泄露問題,并成功提出了一種基于n-gram的差分隱私保護方法(以下簡稱N-gram算法),該方法一種單純追求效率的識別方法,在處理較大數(shù)據(jù)集時需要消耗較多隱私預(yù)算,無法保證識別結(jié)果的精確度。對此,作者在文獻[13]提出一種高精度的方法DP-CFMF (differential privacy-closed frequent motif finding),該方法在利用閉頻繁模式的概念對識別模體中的冗余度進行約減,并減少了隱私預(yù)算分配過程,從而在保證DNA隱私安全的同時提高了模體識別的精確度。但是,國內(nèi)外尚未有數(shù)據(jù)共享平臺支撐DNA模體的安全識別和研究工作。因而,建立一個DNA模體識別安全共享平臺成為了模體識別研究領(lǐng)域中亟待解決的問題。

        基于以上研究,本文設(shè)計并實現(xiàn)了一種差分隱私DNA模體識別安全共享平臺。該平臺通過客戶端實現(xiàn)數(shù)據(jù)源選擇、算法選擇、隱私預(yù)算設(shè)置、結(jié)果評估及圖形化結(jié)果等功能,并利用多種差分隱私模體識別方法實現(xiàn)不同需求的DNA模體安全識別任務(wù)。此外,該平臺允許用戶自主上傳、共享DNA數(shù)據(jù)集,并對上傳的數(shù)據(jù)集進行差分隱私模體識別,在實現(xiàn)DNA數(shù)據(jù)安全共享的同時,為DNA模體識別領(lǐng)域研究人員的科研工作提供了有力支撐。

        1 平臺總體設(shè)計

        差分隱私模體識別平臺主要由平臺運行端、DNA數(shù)據(jù)庫服務(wù)器端及客戶端三部分組成(圖1所示為平臺總體結(jié)構(gòu)圖)。用戶通過客戶端對模體識別過程中的DNA數(shù)據(jù)庫連接、隱私預(yù)算配置、算法參數(shù)配置及結(jié)果顯示方式等相關(guān)信息進行配置,信息配置包含任務(wù)開啟、結(jié)果顯示、DNA數(shù)據(jù)導(dǎo)入導(dǎo)出和DNA數(shù)據(jù)上傳及共享等指令,并通過多元網(wǎng)絡(luò)將指令傳輸給平臺運行端;平臺運行端在收到任務(wù)執(zhí)行指令后,讀取隱私預(yù)算配置信息、數(shù)據(jù)源選擇信息、數(shù)據(jù)規(guī)約信息,并執(zhí)行DNA模體識別操作;最后,平臺運行端將處理完成后的結(jié)果通過多元網(wǎng)絡(luò)呈現(xiàn)給客戶端,并提供結(jié)果集展示、本地存儲、結(jié)果質(zhì)量評估及圖形化展示等功能。

        圖1 平臺總體結(jié)構(gòu)圖

        2 平臺軟件設(shè)計

        差分隱私模體識別平臺主要由平臺運行端、DNA數(shù)據(jù)庫服務(wù)器端及客戶端三部分組成(圖1所示為平臺總體結(jié)構(gòu)圖)。用戶通過客戶端對模體識別過程中的DNA數(shù)據(jù)庫連接、隱私預(yù)算配置、算法參數(shù)配置及結(jié)果顯示方式等相關(guān)信息進行配置,信息配置包含任務(wù)開啟、結(jié)果顯示、DNA數(shù)據(jù)導(dǎo)入導(dǎo)出和DNA數(shù)據(jù)上傳及共享等指令,并通過多元網(wǎng)絡(luò)將指令傳輸給平臺運行端;平臺運行端在收到任務(wù)執(zhí)行指令后,讀取隱私預(yù)算配置信息、數(shù)據(jù)源選擇信息、數(shù)據(jù)規(guī)約信息,并執(zhí)行DNA模體識別操作;最后,平臺運行端將處理完成后的結(jié)果通過多元網(wǎng)絡(luò)呈現(xiàn)給客戶端,并提供結(jié)果集展示、本地存儲、結(jié)果質(zhì)量評估及圖形化展示等功能。平臺各子程序具備的功能見表1。

        表1 各程序具備功能

        主程序進行平臺初始化和各子程序的調(diào)用,多元網(wǎng)絡(luò)通信子程序負責(zé)客戶端的配置信息及數(shù)據(jù)庫的上傳。而平臺端在收到客戶端的任務(wù)開始指令后,將調(diào)用服務(wù)器內(nèi)置DNA數(shù)據(jù)庫或者用戶上傳的數(shù)據(jù)庫,并對其進行差分隱私模體識別,最后將識別結(jié)果和數(shù)據(jù)可用性評估通過客戶端圖形化界面顯示給用戶。平臺軟件流程圖如圖2所示。

        圖2 平臺軟件流程圖

        3 平臺DNA模體識別算法設(shè)計

        3.1 差分隱私基本概念

        差分隱私是一種基于數(shù)據(jù)失真的隱私保護模型,該模型通過向查詢結(jié)果中添加適當(dāng)噪音實現(xiàn)數(shù)據(jù)分析與共享的隱私保護。差分隱私模型建立在嚴(yán)格的數(shù)學(xué)推導(dǎo)之上,能夠在攻擊者擁有最大背景知識情況下保護數(shù)據(jù)中的個人隱私信息。該模型的原理為:在任一數(shù)據(jù)集中添加或刪除一條數(shù)據(jù),這一操作不會影響數(shù)據(jù)分析的結(jié)果。差分隱私模型的具體定義如下:

        定義1:給定兩個數(shù)據(jù)集D和D',這兩個數(shù)據(jù)集之間最多相差一條數(shù)據(jù),即兄弟數(shù)據(jù)集。同時,給定一個具有隱私保護的算法A,range(A)是算法A分析結(jié)果的取值范圍,若算法A在給定的兩個數(shù)據(jù)集D和D'上的任一分析結(jié)果O(其中O∈range(A))滿足下列不等式,則算法A滿足ε-差分隱私。

        |Pr[A(D)=O]|≤eε×|Pr[A(D')=O]|

        上述不等式中,查詢結(jié)果的概率Pr[·]取決于算法A的隨機性,也代表著數(shù)據(jù)集中個人隱私泄露的風(fēng)險。而隱私預(yù)算參數(shù)ε表示對數(shù)據(jù)集的隱私保護程度。一般來說,ε越小,數(shù)據(jù)集的隱私保護程度越高。

        為實現(xiàn)差分隱私模型,一般方法是向算法分析的結(jié)果中添加噪聲,噪聲添加技術(shù)主要分為拉普拉斯機制和指數(shù)機制,而基于不同噪聲機制且滿足差分隱私的數(shù)據(jù)分析算法所需噪音大小與算法的全局敏感性密切相關(guān)。

        定義2:對于任意函數(shù)f:D→Rd,該函數(shù)f的全局敏感性Δf可以表示為:

        由定義1可知,兩個數(shù)據(jù)集D和D'為兄弟數(shù)據(jù)集,即兩個數(shù)據(jù)集最多相差一條數(shù)據(jù)。R表示通過函數(shù)f,數(shù)據(jù)集D能夠映射的實數(shù)空間,d表示映射結(jié)果的維度,p表示全局敏感度Δf是利用Lp進行度量距離,而本文涉及到的算法均使用L1度量距離。

        為使DNA模體識別方法滿足差分隱私模型,本文使用的噪音機制均為拉普拉斯機制,該機制主要通過拉普拉斯分布產(chǎn)生的隨機算子擾動真實DNA模體識別頻率來實現(xiàn)差分隱私保護。

        定義3:對于任一函數(shù)f:D→d,如果算法A的分析結(jié)果滿足以下等式,則可以認為算法A滿足ε-差分隱私。

        A(D)=f(D)+

        在定義3中,任一拉普拉斯變量Lapi(Δf/ε)(1≤i≤d)相互獨立。由等式可知,拉普拉斯機制添加的噪音量與Δf成正比,與ε成反比。換而言之,算法A全局敏感性越大,需要添加的噪音量越大。

        3.2 差分隱私DNA模體識別算法

        在平臺運行端內(nèi)置多種差分隱私模體識別方法,除了經(jīng)典的N-gram算法、Simple算法外,還包括自主設(shè)計的基于差分隱私保護模型的DNA閉頻繁模體識別算法——DP-CFMF,其原理通過構(gòu)建閉頻繁擾動探索樹,利用閉頻繁模體模型對擾動探索樹進行剪枝,該步驟能夠減少模體結(jié)果集冗余的同時,減少隱私預(yù)算的消耗;而且,利用探索樹結(jié)構(gòu)能夠提高內(nèi)存使用和模體搜索的效率,并能夠快速有效地分配隱私預(yù)算;此外,該方法采用最優(yōu)線性無偏估計對加噪支持度計數(shù)進行一致性約束處理,提高數(shù)據(jù)的可用性。該方法主要包括模式分解單元、構(gòu)建閉頻繁擾動樹單元、識別模體單元和一致性約束后置處理單元,其具體流程如下:

        1)模式分解單元:利用nmax參數(shù)對DNA原始數(shù)據(jù)集進行模式分解,獲得數(shù)據(jù)集中長度為nmax-1和nmax模體及其支持度計數(shù);

        2)構(gòu)建閉頻繁擾動樹單元:利用長度為nmax-1和nmax模體構(gòu)建探索樹,利用閉頻繁模體等價關(guān)系進行剪枝,然后對每一個模體的支持度計數(shù)添加相應(yīng)的拉普拉斯噪聲,獲得由剪枝后nmax-1模體和nmax模體組成的閉頻繁擾動探索樹;

        3)一致性約束后置處理單元:利用最優(yōu)線性無偏估計方法對擾動探索樹的每一個節(jié)點的支持度計數(shù)進行一致性約束后置處理,獲得滿足樹的一致性約束的支持度計數(shù);

        4)識別模體單元:在N-gram模型的基礎(chǔ)上利用馬爾可夫假設(shè)方法進行預(yù)測所有nmax+1模體的支持度計數(shù),不斷迭代獲取長度在[nmax,Lu]之間的模體,求解每個模體的聯(lián)合支持度計數(shù),獲得長度在[nmax,Lu]之間的頻繁模體。

        相比于N-gram方法來說,DP-CFMF具有較高的精確度,且其需要使用到的隱私預(yù)算較少,可以滿足多數(shù)情況下的隱私保護;而N-gram算法具有較高的效率,但其處理較大數(shù)據(jù)集時需要消耗大量的隱私預(yù)算,甚至可能超出隱私預(yù)算上限,從而導(dǎo)致識別過程異常,因此N-gram適用于較小DNA數(shù)據(jù)集的安全識別。在使用該平臺時,用戶可以根據(jù)自己不同的情況做出相應(yīng)的選擇。

        4 平臺測試與分析

        4.1 差分隱私模體識別算法測試

        本文將真實數(shù)據(jù)集Upstream數(shù)據(jù)作為內(nèi)置數(shù)據(jù)源對平臺算法性能進行測試,該數(shù)據(jù)集包含487760條DNA序列。測試時,在客戶端配置差分隱私保護預(yù)算、模體識別參數(shù)、圖像化顯示等信息。實驗所使用的軟硬件環(huán)境為:4G內(nèi)存,平臺端運行環(huán)境為Linux,算法開發(fā)語言為Python,客戶端運行環(huán)境為Window10,客戶端開發(fā)語言為C#,數(shù)據(jù)庫為SQL sever 2008。圖3是在不同隱私預(yù)算下對Upstream數(shù)據(jù)集執(zhí)行平臺算法測試,其他參數(shù)默認值見文獻[13]。由圖可知,兩種方法均可以完成在Upstream數(shù)據(jù)集上的差分隱私模體識別,且具有良好的精確度。此外DP-CFMF精確度要高于N-gram方法,更適合于高精度要求的任務(wù),而N-gram方法相對來說精確度略低,比較適合處理效率要求較高的任務(wù)。

        圖3 Upstream數(shù)據(jù)集在不同epsilon下的精確度對比

        為測試研究人員在共享DNA數(shù)據(jù)庫場景下的算法運行效果,本文在客戶端中將真實數(shù)據(jù)集Washington數(shù)據(jù)設(shè)置為待共享數(shù)據(jù)集,該數(shù)據(jù)集共包含14126條數(shù)據(jù)。實驗中,客戶端通過互聯(lián)網(wǎng)將Washington數(shù)據(jù)集傳輸?shù)椒?wù)器端。數(shù)據(jù)共享到服務(wù)器端后,本文對Washington集進行了不同隱私預(yù)算的模體識別測試,測試結(jié)果如圖4所示,DP-CFMF和N-gram算法的精確度均可達到70%以上。由此可知,通過該平臺可以較好地實驗DNA數(shù)據(jù)的安全共享。

        圖4 Washington數(shù)據(jù)集在不同epsilon下的精確度對比

        4.2 客戶端總體功能測試

        在客戶端總體功能測試中,本文主要對安全共享平臺進行了參數(shù)設(shè)置、數(shù)據(jù)共享、模體識別質(zhì)量評估等功能的測試。通過測試可知,客戶端能夠?qū)崿F(xiàn)內(nèi)置DNA數(shù)據(jù)進行選擇、規(guī)約數(shù)據(jù)大小、描述共享數(shù)據(jù)集、設(shè)置差分隱私模體識別參數(shù)、選擇結(jié)果反饋方式等操作,并將相關(guān)指令發(fā)送給平臺端。平臺端對于客戶端的請求均做出了響應(yīng),并進行了相應(yīng)操作后將結(jié)果反饋給客戶端。測試結(jié)果表明:平臺端和客戶端各子程序模塊均能成功運行,能滿足設(shè)計需求。

        5 結(jié)論

        本文描述了差分隱私DNA模體識別安全共享平臺設(shè)計與實現(xiàn),該平臺利用C/S架構(gòu),允許用戶在客戶端進行隱私預(yù)算及算法參數(shù)配置、選擇DNA數(shù)據(jù)庫、上傳及共享DNA數(shù)據(jù)集、結(jié)果保存方式等操作,并通過多元網(wǎng)絡(luò)將指令傳入平臺端。平臺端接收到客戶端端指令后,讀取、導(dǎo)入用戶所選擇的數(shù)據(jù)源,利用差分隱私DNA模體識別方法對DNA數(shù)據(jù)進行識別,然后將結(jié)果通過客戶端的客戶端圖形化展示給用戶。測試結(jié)果證明,該平臺提供的差分隱私模體識別方法能夠有效實現(xiàn)DNA數(shù)據(jù)的安全識別,并能滿足用戶多種需求。同時,平臺提供的自主上傳數(shù)據(jù)和隱私預(yù)算配置等功能幫助生物學(xué)研究人員開展定制化研究工作,為生物序列的安全共享與研究提供有力支撐。

        猜你喜歡
        模體精確度差分
        數(shù)列與差分
        基于Matrix Profile的時間序列變長模體挖掘
        研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
        “硬核”定位系統(tǒng)入駐兗礦集團,精確度以厘米計算
        植入(l, d)模體發(fā)現(xiàn)若干算法的實現(xiàn)與比較
        基于網(wǎng)絡(luò)模體特征攻擊的網(wǎng)絡(luò)抗毀性研究
        基于模體演化的時序鏈路預(yù)測方法
        基于差分隱私的大數(shù)據(jù)隱私保護
        相對差分單項測距△DOR
        太空探索(2014年1期)2014-07-10 13:41:50
        差分放大器在生理學(xué)中的應(yīng)用
        曰本大码熟中文字幕| 自拍偷区亚洲综合激情| 中文字幕乱码熟女人妻在线| 日本无码欧美一区精品久久| 欧美成人看片黄a免费看| 91福利国产在线观看网站| 日韩一区二区av伦理| 国产精品理论片在线观看| 久久久精品人妻久久影视| 亚洲 日韩 在线精品| 国产盗摄一区二区三区av| 日本在线观看一区二区三| 精品少妇人妻av无码久久| 国产成人啪精品午夜网站| 成人短篇在线视频夫妻刺激自拍| 超级乱淫片国语对白免费视频| 黄网站欧美内射| 日本韩国一区二区三区| 免费黄网站永久地址进入| 18禁裸体动漫美女无遮挡网站| 欧美亚洲日本国产综合在线| 亚洲地区一区二区三区| 在线看亚洲一区二区三区| 免费国产a国产片高清网站 | 中文字幕无码中文字幕有码| 亚洲成av人片在线观看无码| аⅴ天堂一区视频在线观看 | 亚洲天堂av三区四区不卡| 久久国产精品-国产精品| 丝袜欧美视频首页在线| 中文字幕日韩精品人妻久久久| 国产在热线精品视频| 色妺妺视频网| 亚洲精品熟女乱色一区| 男人天堂这里只有精品| 军人粗大的内捧猛烈进出视频| 亚洲国产成人精品激情| 日本一区二区不卡在线| 最爽无遮挡行房视频| 国产福利酱国产一区二区| 国产优质av一区二区三区|