亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)隱私保護(hù)關(guān)鍵技術(shù)研究

        2018-01-09 11:06:31王換換吳響魏裕陽(yáng)
        科技視界 2017年28期
        關(guān)鍵詞:隱私保護(hù)

        王換換 吳響 魏裕陽(yáng)

        【摘 要】隱私保護(hù)是實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的首要步驟和關(guān)鍵環(huán)節(jié)。目前,結(jié)構(gòu)化數(shù)據(jù)隱私保護(hù)方法豐富,而醫(yī)療數(shù)據(jù)中常見(jiàn)的半結(jié)構(gòu)化數(shù)據(jù)缺乏可靠的隱私保護(hù)模型及完善的平臺(tái)支撐。針對(duì)這一問(wèn)題,本文將從數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化的角度入手,深入探索半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)的隱私保護(hù)方法及平臺(tái)構(gòu)建。

        【關(guān)鍵詞】隱私保護(hù);半結(jié)構(gòu)化;信息抽取

        1 研究意義

        醫(yī)療數(shù)據(jù)被充分共享的前提是保證數(shù)據(jù)的隱私安全。半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)是醫(yī)療大數(shù)據(jù)的重要組成部分,占有舉足輕重的地位。醫(yī)療過(guò)程中形成的半結(jié)構(gòu)化信息隱私內(nèi)容多樣,從中折射、反映、蘊(yùn)含的資訊及信息具有巨大的應(yīng)用價(jià)值,對(duì)于醫(yī)學(xué)研究、政府統(tǒng)計(jì)或是其他個(gè)人、機(jī)構(gòu)的科研有重要意義。然而,由于半結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜性、靈活性以及其自描述形式,現(xiàn)存的隱私保護(hù)技術(shù)滿足不了半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)的隱私保護(hù)需求。

        目前,數(shù)據(jù)共享中的隱私保護(hù)技術(shù)主要基于三類模型:k-匿名模型[1-2]、l-多樣性匿名模型[3-4]和t-closeness匿名模型。但大多數(shù)隱私保護(hù)技術(shù)都是針對(duì)結(jié)構(gòu)化數(shù)據(jù),對(duì)半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)共享的隱私保護(hù)并不理想。而綜合考慮技術(shù)、成本等問(wèn)題,對(duì)半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)的隱私保護(hù),應(yīng)首先考慮使用成熟的結(jié)構(gòu)化數(shù)據(jù)隱私保護(hù)方法,其關(guān)鍵是將半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)轉(zhuǎn)化結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)的隱私保護(hù)問(wèn)題要綜合考慮到數(shù)據(jù)的異構(gòu)性、復(fù)雜性、高維性等問(wèn)題,明確中文醫(yī)學(xué)信息數(shù)據(jù)特點(diǎn)造成半結(jié)構(gòu)化信息抽取困難的問(wèn)題,充分利用國(guó)內(nèi)外半結(jié)構(gòu)化數(shù)據(jù)抽取技術(shù)及結(jié)構(gòu)化數(shù)據(jù)集信息的指導(dǎo)作用,將結(jié)構(gòu)特征與詞法、語(yǔ)義、表現(xiàn)形式等其他特征相結(jié)合,建立專門針對(duì)中文半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)特點(diǎn)的智能化信息處理模型及系統(tǒng)。

        此外,考慮到結(jié)構(gòu)化后的醫(yī)療數(shù)據(jù)具有高維度、高復(fù)雜度的特點(diǎn),需要更加高效的計(jì)算技術(shù),自動(dòng)并行化是解決這一問(wèn)題的有效途徑之一。Spark 是由伯克利大學(xué)開(kāi)發(fā)的通用分布式內(nèi)存計(jì)算平臺(tái),而彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset,RDD)是Spark 的最基本抽象,是對(duì)分布式內(nèi)存的抽象使用,實(shí)現(xiàn)了以操作本地集合的方式操作分布式數(shù)據(jù)集的抽象實(shí)現(xiàn),適合優(yōu)化需要多次迭代操作的機(jī)器學(xué)習(xí)類算法。因此,半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)的隱私保護(hù)過(guò)程完成能夠使用spark并行計(jì)算,進(jìn)行高效地資源分配。

        2 研究?jī)?nèi)容

        本文主要解決半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)共享中的信息抽取、隱私保護(hù)、并行化等關(guān)鍵技術(shù)問(wèn)題,在保證半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)共享后隱私安全的情況下,提高半結(jié)構(gòu)化數(shù)據(jù)的可用性,為臨床決策、科研提供數(shù)據(jù)資源的支持,構(gòu)建面向半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)共享的BaaS隱私保護(hù)平臺(tái)。

        (1)面向半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)的信息抽取技術(shù)及醫(yī)學(xué)術(shù)語(yǔ)知識(shí)庫(kù)的構(gòu)建

        建立服務(wù)于機(jī)器學(xué)習(xí)算法的中文醫(yī)學(xué)術(shù)語(yǔ)知識(shí)庫(kù)是信息抽取技術(shù)的基礎(chǔ),利用統(tǒng)計(jì)學(xué)方法學(xué)習(xí)標(biāo)記好的語(yǔ)料庫(kù)、獲取規(guī)則、建立類似UMLS的中文醫(yī)學(xué)術(shù)語(yǔ)知識(shí)庫(kù)。標(biāo)注少量醫(yī)學(xué)病歷作為統(tǒng)計(jì)學(xué)方法的訓(xùn)練集;探索適當(dāng)?shù)目捎糜卺t(yī)學(xué)問(wèn)題識(shí)別的統(tǒng)計(jì)學(xué)算法;構(gòu)建一個(gè)可以表明人物及其相應(yīng)醫(yī)學(xué)問(wèn)題的信息表示方案;各部分研究間的關(guān)系可以構(gòu)成一個(gè)信息抽取系統(tǒng)。

        (2)隱私保護(hù)算法的自動(dòng)并行化技術(shù)

        引入Spark技術(shù),Spark 使用基于內(nèi)存計(jì)算的并行化計(jì)算模型——彈性分布式數(shù)據(jù)集(resilient distributed datasets,RDD),提供強(qiáng)大的分布式內(nèi)存并行計(jì)算引擎,支持快速迭代計(jì)算,將機(jī)器學(xué)習(xí)應(yīng)用到常規(guī)并行化策略上,能夠進(jìn)一步提升訓(xùn)練速度。首先采用合理智能算法以及不同訓(xùn)練集對(duì)各個(gè)k-匿名算法進(jìn)行測(cè)試訓(xùn)練,檢測(cè)不同算法較為費(fèi)時(shí)部分;其次測(cè)試該部分能否進(jìn)行分布式計(jì)算法;最后Spark平臺(tái)進(jìn)行分布式運(yùn)算會(huì)涉及到通信開(kāi)銷,智能算法訓(xùn)練各k-匿名算法,給定各算法進(jìn)行分布式所需要的數(shù)據(jù)集閾值。對(duì)k-匿名算法設(shè)計(jì)采用了并行化局部?jī)?yōu)化的迭代計(jì)算模式,有效提高匿名效率。

        (3)構(gòu)建面向半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)的分布式隱私保護(hù)BaaS平臺(tái)

        構(gòu)建面向結(jié)構(gòu)化醫(yī)療數(shù)據(jù)的分布式隱私保護(hù)BaaS平臺(tái),該平臺(tái)應(yīng)具備上載結(jié)構(gòu)化數(shù)據(jù)集和半結(jié)構(gòu)化數(shù)據(jù)集、連接數(shù)據(jù)庫(kù)、醫(yī)學(xué)數(shù)據(jù)信息抽取模塊、隱私保護(hù)模塊、提供k-匿名算法的Rest-API。平臺(tái)內(nèi)含自建中文臨床子語(yǔ)言語(yǔ)法規(guī)則及醫(yī)學(xué)術(shù)語(yǔ)知識(shí)庫(kù),為信息抽取的精確性提供知識(shí)儲(chǔ)備及技術(shù)支持。隱私保護(hù)模塊能夠按需求進(jìn)行全域k-匿名或局域k-匿名的選擇、具體實(shí)現(xiàn)k-匿名算法的選擇、隱私保護(hù)模型的選擇,同時(shí)該模塊具有是否使用分布式計(jì)算的選項(xiàng)。

        3 研究方法

        首先建立醫(yī)學(xué)術(shù)語(yǔ)知識(shí)庫(kù)及命名實(shí)體規(guī)則庫(kù),對(duì)半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)進(jìn)行信息抽取,測(cè)試抽取信息的準(zhǔn)確性。對(duì)抽取后的結(jié)構(gòu)化數(shù)據(jù)匿名,測(cè)試k-匿名算法的功能及其使用范圍。挖掘匿名前后數(shù)據(jù)所包含的信息,對(duì)比挖掘結(jié)果,對(duì)匿名后的數(shù)據(jù)集進(jìn)行信息損失量的度量,給出k-匿名算法的評(píng)估標(biāo)準(zhǔn)。為節(jié)省處理數(shù)據(jù)的時(shí)間,準(zhǔn)確找到各算法適合的分布式計(jì)算模塊,在k-匿名算法功能測(cè)試后,使用訓(xùn)練集對(duì)各k-匿名算法的代碼模塊進(jìn)行訓(xùn)練,分析每個(gè)程序段的運(yùn)行時(shí)間,探尋各個(gè)方法的運(yùn)行時(shí)間、次數(shù)等統(tǒng)計(jì)信息,并采用深度貪婪算法迭代統(tǒng)計(jì)含子程序的代碼段的運(yùn)行時(shí)間,找出算法最耗時(shí)模塊,對(duì)該模塊進(jìn)行分布式處理,使其單線程計(jì)算變?yōu)椴l(fā)式計(jì)算。

        使用GATE程序?qū)Π虢Y(jié)構(gòu)化程序進(jìn)行信息抽取,GATE的抽取信息的準(zhǔn)確性高達(dá)97.58%,處理速度為31.5KB/s,完全可以滿足現(xiàn)有情況下的信息抽取要求。選擇匿名模型及匿名算法,利用匿名算法處理抽取后的結(jié)構(gòu)化數(shù)據(jù),完成匿名。如果選擇的匿名算法匿名后的數(shù)據(jù)集不符合要求,則重新選擇匿名算法進(jìn)行匿名數(shù)據(jù)集,直到匿名后的數(shù)據(jù)集滿足隱私保護(hù)和數(shù)據(jù)可用性的雙重要求。同時(shí),在匿名化之前,根據(jù)已訓(xùn)練出的參數(shù)進(jìn)行分布式需求判斷,如果分布式較為節(jié)省時(shí)間則采用分布式計(jì)算,如果因?yàn)榉植际教幚淼耐ㄐ砰_(kāi)銷造成時(shí)間浪費(fèi),則采用單線程處理數(shù)據(jù)。

        4 實(shí)施方案與研究步驟

        第一步:關(guān)鍵詞提取,分詞處理是識(shí)別半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)的第一步

        (1)自主收集和制作中文詞表;

        (2)編寫(xiě)針對(duì)中文特性的規(guī)則。

        該方法不但可以準(zhǔn)確地抽取出個(gè)人信息,而且因其包含的ICD-10詞庫(kù)可以把半結(jié)構(gòu)化數(shù)據(jù)中包含的疾病、診斷、健康狀況信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),方便對(duì)半結(jié)構(gòu)化數(shù)據(jù)的挖掘,進(jìn)一步提高了半結(jié)構(gòu)化數(shù)據(jù)的價(jià)值。

        第二步:半結(jié)構(gòu)化醫(yī)療數(shù)據(jù)隱私保護(hù)處理

        針對(duì)提取出的個(gè)人信息,例如住址、年齡、提問(wèn)等信息,本文將采用k-匿名模型對(duì)其進(jìn)行匿名化處理??紤]到k-匿名是把精確數(shù)據(jù)模糊化,因此,該方法匿名的數(shù)據(jù)集會(huì)產(chǎn)生一定的信息損失,對(duì)此本文采用IL評(píng)估方法對(duì)匿名表進(jìn)行信息損失量的判斷。為了更好的進(jìn)行隱私保護(hù),在k-匿名模型的基礎(chǔ)上引入l-diversity模型、t-closeness模型對(duì)其進(jìn)行匿名化操作。

        第三步:Spark分布式并行化算法處理技術(shù)

        k-匿名算法是需要多次對(duì)數(shù)據(jù)操作即多次訪問(wèn)I/O端口,故可以通過(guò)減少k-匿名時(shí)的I/O操作較少匿名化時(shí)間,本文采用Spark平臺(tái),把數(shù)據(jù)存儲(chǔ)在內(nèi)存中,避免不斷從硬盤讀取數(shù)據(jù),節(jié)省訪問(wèn)I/O端口的通訊時(shí)間??紤]到Spark計(jì)算本身具有通信開(kāi)銷,當(dāng)數(shù)據(jù)量較小時(shí),使用Spark分布式進(jìn)行k-匿名算法可能會(huì)形成時(shí)間上的浪費(fèi)。因此,本文使用不同大小的訓(xùn)練集、不同屬性大小的訓(xùn)練集和不同泛化規(guī)則的訓(xùn)練集不斷進(jìn)行訓(xùn)練,找出來(lái)各k-匿名算法使用Spark平臺(tái)可以減少時(shí)間閾值[5]。在閾值之內(nèi)的數(shù)據(jù)集,將會(huì)建議采用單線程計(jì)算以節(jié)省時(shí)間和資源,大于此閾值的數(shù)據(jù)集,將會(huì)合理的給出分布式計(jì)算意見(jiàn)。

        第四步:構(gòu)建面向半結(jié)構(gòu)化數(shù)據(jù)的分布式隱私保護(hù)BaaS平臺(tái)

        構(gòu)建后端即服務(wù)BaaS平臺(tái),通過(guò)Web Service技術(shù)構(gòu)建Rest API,為開(kāi)發(fā)者提供接口。在服務(wù)器端提供對(duì)底層系統(tǒng)的抽象,以實(shí)現(xiàn)對(duì)底層通用數(shù)據(jù)處理引擎的支持,并提供上傳結(jié)構(gòu)化數(shù)據(jù)集和半結(jié)構(gòu)化數(shù)據(jù)集、連接數(shù)據(jù)庫(kù)、醫(yī)學(xué)數(shù)據(jù)信息抽取模塊、隱私保護(hù)模塊、k-匿名算法等編程語(yǔ)言接口(API),從而滿足開(kāi)發(fā)者的需求。

        【參考文獻(xiàn)】

        [1]Samarati P,Sweeney L.Protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression.SRI Computer Science Laboratory Technical Report SRI-CSL-98-04,1998.

        [2]Samarati P.Protecting respondentsidentities in microdata release[J].IEEE Trans Knowl Data Eng,2001,13:1010-1027.

        [3]Machanavajjhala A,Kifer D,Gehrke J,and Venkitasubramaniam M.1-diversity:Privacy beyond k-anonymity.ACM Trans KnowL Discov. Data 1.1.2007.

        [4]Li N H,Li T C,Venkatasubramanian S.t-closeness:privacy beyond k-anonymity and 1-diversity[C] Proceedings of IEEE 23rd International Conference on Data Engineering, Istanbul,2007.106-1 15.

        [5]李文,程華良,彭耀,等.基于Spark可視化大數(shù)據(jù)挖掘平臺(tái)[C].系統(tǒng)仿真技術(shù)及其應(yīng)用.

        猜你喜歡
        隱私保護(hù)
        移動(dòng)商務(wù)消費(fèi)行為分析研究
        適用于社交網(wǎng)絡(luò)的隱私保護(hù)興趣度匹配方案
        可搜索加密在云計(jì)算移動(dòng)學(xué)習(xí)中的應(yīng)用
        基于層次和節(jié)點(diǎn)功率控制的源位置隱私保護(hù)策略研究
        關(guān)聯(lián)規(guī)則隱藏算法綜述
        大數(shù)據(jù)環(huán)境下用戶信息隱私泄露成因分析和保護(hù)對(duì)策
        大數(shù)據(jù)安全與隱私保護(hù)的必要性及措施
        大數(shù)據(jù)時(shí)代中美保護(hù)個(gè)人隱私的對(duì)比研究
        新聞界(2016年15期)2016-12-20 09:47:10
        社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護(hù)研究綜述
        大數(shù)據(jù)時(shí)代的隱私保護(hù)關(guān)鍵技術(shù)研究
        国产精品毛片一区二区三区| 国产午夜视频在永久在线观看| 亚洲AV无码国产精品久久l | 男女一区视频在线观看| 男吃奶玩乳尖高潮视频| 国产国拍精品av在线观看按摩 | 青青草久久久亚洲一区| 亚洲 日韩 激情 无码 中出| 成 人 免费 黄 色 视频| 国产a级精精彩大片免费看| 久久精品亚洲成在人线av| 亚洲国产精品无码一线岛国| 亚洲av无码精品色午夜在线观看| 乱子伦av无码中文字幕| 国产av熟女一区二区三区蜜臀| 久久综合九色欧美综合狠狠| 怡红院免费的全部视频| 亚洲ⅤA中文字幕无码| 国产自拍三级黄片视频| 国产精品天干天干综合网| 天天躁日日躁狠狠躁av中文| 无码精品国产午夜| 蜜桃视频第一区免费观看| 99热爱久久99热爱九九热爱| 在线视频制服丝袜中文字幕| 日日噜噜夜夜久久密挑| 欧美颜射内射中出口爆在线| 欧美成年黄网站色视频| 1234.com麻豆性爰爱影| 男女调情视频在线观看| 天下第二社区在线视频| 国产欧美精品一区二区三区,| 国产91大片在线观看| 亚洲自偷自拍另类第1页| 久久精品国产亚洲一区二区 | 天天做天天爱夜夜爽毛片毛片| 亚洲∧v久久久无码精品| 爱v天堂在线观看| 三区中文字幕在线观看| 色橹橹欧美在线观看视频高清| 亚洲另在线日韩综合色|