亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生物醫(yī)學(xué)數(shù)據(jù)匿名化工具ARX 研究及啟示

        2022-11-18 05:40:14唐明坤張麗鑫周佳茵吳思竹
        關(guān)鍵詞:標(biāo)識(shí)符效用層級(jí)

        唐明坤,錢 慶,張麗鑫,周佳茵,吳思竹

        隨著大數(shù)據(jù)和醫(yī)療信息化建設(shè)的發(fā)展,數(shù)據(jù)共享成為大數(shù)據(jù)利用和學(xué)術(shù)研究過(guò)程中的重要環(huán)節(jié),數(shù)據(jù)安全問(wèn)題也受到越來(lái)越多的關(guān)注。2017 年國(guó)務(wù)院發(fā)布的《“十三五”衛(wèi)生與健康規(guī)劃》提到,我國(guó)要全面深化醫(yī)療大數(shù)據(jù)的應(yīng)用,加強(qiáng)醫(yī)療數(shù)據(jù)保護(hù)和患者隱私保護(hù),推動(dòng)醫(yī)療信息化的建設(shè)[1]。隨后我國(guó)陸續(xù)出臺(tái)了《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見(jiàn)稿)》等數(shù)據(jù)安全相關(guān)的法律或規(guī)定,反復(fù)強(qiáng)調(diào)了數(shù)據(jù)生命周期流程中數(shù)據(jù)安全和隱私保護(hù)的重要性。數(shù)據(jù)的共享和發(fā)布是數(shù)據(jù)生命周期中最容易出現(xiàn)隱私泄露的環(huán)節(jié),然而單純地刪去數(shù)據(jù)集中的標(biāo)識(shí)符并不能保證數(shù)據(jù)隱私安全。如美國(guó)馬薩諸塞州曾發(fā)布過(guò)刪除患者姓名和地址的醫(yī)療信息數(shù)據(jù)庫(kù),僅保留性別、出生日期、診斷結(jié)果等信息,但攻擊者通過(guò)結(jié)合另一個(gè)具有性別、出生日期等信息的州選民登記表,鎖定了大部分選民的醫(yī)療健康信息,從而造成了嚴(yán)重的醫(yī)療信息泄露事故[2]。因此數(shù)據(jù)共享和發(fā)布不能只是簡(jiǎn)單地刪除數(shù)據(jù)集中的標(biāo)識(shí)符,還需要結(jié)合其他隱私保護(hù)技術(shù)對(duì)數(shù)據(jù)集進(jìn)行處理。

        目前常用的隱私保護(hù)技術(shù)主要包括數(shù)據(jù)匿名化發(fā)布技術(shù)、數(shù)據(jù)加密技術(shù)、隱私保護(hù)數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)訪問(wèn)控制技術(shù)4 類[3]。其中,數(shù)據(jù)匿名化發(fā)布技術(shù)即統(tǒng)計(jì)披露控制相關(guān)技術(shù),是最基本和核心的隱私保護(hù)技術(shù),其核心思想是在數(shù)據(jù)共享或發(fā)布前對(duì)數(shù)據(jù)集進(jìn)行處理,防止敏感信息泄露的同時(shí)確保數(shù)據(jù)能夠用于分析挖掘[4]。隨著數(shù)據(jù)匿名化發(fā)布技術(shù)的發(fā)展,陸續(xù)出現(xiàn)了k-Anonymity[2]、l-Diversity[5]、t-Closeness[6]等隱私模型。這些隱私模型的算法逐漸復(fù)雜,隨著數(shù)據(jù)量的增加,匿名化轉(zhuǎn)換的計(jì)算量也逐漸增大,因此需要集合到可靠、可拓展的工具中才能實(shí)現(xiàn)基于隱私模型的匿名化轉(zhuǎn)換的操作。近年來(lái),國(guó)外多家機(jī)構(gòu)和單位的研究人員在這些隱私模型的基礎(chǔ)上開(kāi)發(fā)了多款開(kāi)源數(shù)據(jù)匿名化工具,如ARX 匿名化工具、UTD匿名化工具箱、康奈爾匿名化工具包(CAT)、R統(tǒng)計(jì)軟件開(kāi)源包sdcMicro 等[7]。對(duì)國(guó)外成熟的匿名化工具進(jìn)行研究可以為開(kāi)發(fā)適用于我國(guó)實(shí)際需求的數(shù)據(jù)匿名化工具提供很好的借鑒。因此,本文針對(duì)生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)匿名化處理需求,重點(diǎn)研究了目前發(fā)展最成熟的生物醫(yī)學(xué)數(shù)據(jù)匿名化工具ARX 的組成結(jié)構(gòu)和功能特點(diǎn),為我國(guó)匿名化工具的研發(fā)和數(shù)據(jù)共享技術(shù)的發(fā)展提供參考。

        1 ARX 工具概述

        ARX 工具是由慕尼黑工業(yè)大學(xué)的Fabian Prasser團(tuán)隊(duì)在2011 年開(kāi)發(fā)的一款擁有易操作的用戶圖形界面的開(kāi)源可拓展的數(shù)據(jù)匿名化工具。Fabian Prasser 團(tuán)隊(duì)長(zhǎng)期專注于數(shù)據(jù)匿名化研究,研究?jī)?nèi)容包括統(tǒng)計(jì)披露控制、隱私模型、匿名化數(shù)據(jù)效用評(píng)價(jià)等[8-12]。ARX 工具的設(shè)計(jì)特別關(guān)注了生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)匿名化的需求,但同時(shí)也適合其他領(lǐng)域數(shù)據(jù)的應(yīng)用。2015 年發(fā)布的ARX 工具2.2.0 版本已經(jīng)具備了豐富的隱私模型支持、匿名化數(shù)據(jù)效用評(píng)估及重識(shí)別風(fēng)險(xiǎn)評(píng)估等主要功能。2016 年,ARX 工具還成為了歐洲藥品管理局臨床數(shù)據(jù)發(fā)布政策的數(shù)據(jù)匿名化和風(fēng)險(xiǎn)評(píng)估推薦工具[13]。隨后,ARX 工具經(jīng)過(guò)不斷的更新,又增加了基于統(tǒng)計(jì)模型的匿名化方法[14]、基于博弈論的隱私模型[15]、差分隱私模型[16]等功能。由于出色的效用評(píng)估功能、重識(shí)別風(fēng)險(xiǎn)評(píng)估功能及能處理數(shù)百萬(wàn)條記錄并支持豐富的隱私模型的特點(diǎn),ARX 工具被廣泛應(yīng)用于各領(lǐng)域的數(shù)據(jù)匿名化研究,包括開(kāi)放政府?dāng)?shù)據(jù)的匿名化技術(shù)應(yīng)用[17]、實(shí)現(xiàn)醫(yī)療信息數(shù)據(jù)庫(kù)匿名化策略方案[18]等。有學(xué)者在進(jìn)行醫(yī)療領(lǐng)域數(shù)據(jù)匿名化現(xiàn)狀研究時(shí)發(fā)現(xiàn),與其他工具相比,ARX 工具的功能更豐富全面,支持的隱私模型數(shù)量也遙遙領(lǐng)先[19]。目前,ARX 工具還在持續(xù)更新中,隱私模型和相關(guān)功能也在進(jìn)一步豐富。

        2 ARX 工具的整體架構(gòu)和工作流程

        2.1 ARX 工具的整體架構(gòu)

        本文使用2021 年1 月10 日發(fā)布的ARX 3.9.0 Windows 64-Bit 版本(https://arx.deidentifier.org/downloads/)。ARX 工具具有友好的圖形用戶界面,操作界面與各功能模塊緊密連接。本文通過(guò)對(duì)各個(gè)功能模塊的分析,總結(jié)了ARX 工具整體架構(gòu)圖(圖1)。從功能上進(jìn)行歸納,ARX 工具的整體架構(gòu)可以分為數(shù)據(jù)導(dǎo)入導(dǎo)出模塊、數(shù)據(jù)處理模塊、隱私模型及其他參數(shù)模塊、匿名化方案探索模塊、效用分析及風(fēng)險(xiǎn)分析模塊。其中,隱私模型及其他參數(shù)模塊、效用分析及風(fēng)險(xiǎn)分析模塊具有很高的可拓展性,在歷次版本更新中,這些模塊功能得到不斷強(qiáng)化。

        圖1 ARX 工具的整體架構(gòu)

        2.1.1 數(shù)據(jù)導(dǎo)入導(dǎo)出模塊

        ARX 工具主要支持結(jié)構(gòu)化數(shù)據(jù)的匿名化處理,其數(shù)據(jù)導(dǎo)入導(dǎo)出模塊目前支持CSV、XLS、XLSX、JDBC 等多種格式的數(shù)據(jù)的導(dǎo)入,但經(jīng)過(guò)匿名化處理后的數(shù)據(jù)僅可以保存輸出為CSV 格式。

        2.1.2 數(shù)據(jù)處理模塊

        導(dǎo)入ARX 工具的數(shù)據(jù)需要在數(shù)據(jù)處理模塊進(jìn)行數(shù)據(jù)類型設(shè)置、數(shù)據(jù)屬性設(shè)置及數(shù)據(jù)轉(zhuǎn)換,這是獲得匿名化方案的前提。數(shù)據(jù)類型設(shè)置根據(jù)每列數(shù)據(jù)的格式特點(diǎn)決定。數(shù)據(jù)屬性設(shè)置則需要研究者根據(jù)每個(gè)屬性與個(gè)體身份的關(guān)系進(jìn)行設(shè)置。數(shù)據(jù)屬性共分為標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符、敏感屬性和不敏感屬性4 類。標(biāo)識(shí)符是指能直接確定個(gè)體身份的屬性,如姓名、身份證號(hào)等;準(zhǔn)標(biāo)識(shí)符是指在一定的背景知識(shí)下,能夠通過(guò)該屬性或?qū)傩越M合確定個(gè)體身份的屬性,如年齡、性別、身高等;敏感屬性是指想保護(hù)的、涉及個(gè)體隱私信息的屬性,如疾病、家族史等;不敏感屬性是與隱私無(wú)關(guān)的屬性。標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符是匿名化處理過(guò)程中的重點(diǎn)關(guān)注對(duì)象,也是數(shù)據(jù)轉(zhuǎn)換的處理對(duì)象。標(biāo)識(shí)符直接暴露了個(gè)體身份,需要進(jìn)行完全的信息刪除即抑制處理。準(zhǔn)標(biāo)識(shí)符間接暴露了個(gè)體身份,需要進(jìn)行泛化、集群等轉(zhuǎn)換,將暴露的風(fēng)險(xiǎn)降低到符合隱私保護(hù)要求的水平。泛化是數(shù)據(jù)轉(zhuǎn)換最常用的方式,是指創(chuàng)建多個(gè)范圍更廣的層級(jí)的數(shù)據(jù)值來(lái)替代原數(shù)據(jù)值,如用區(qū)間值[18,28]替代年齡值18。匿名化處理的過(guò)程需要通過(guò)算法實(shí)現(xiàn),泛化可以根據(jù)不同的算法處理進(jìn)一步分為全域泛化和局域泛化,前者是指在一個(gè)準(zhǔn)標(biāo)識(shí)符中所有值采取同一泛化層級(jí),后者則是允許一個(gè)準(zhǔn)標(biāo)識(shí)符中存在不同泛化層級(jí)的值。

        2.1.3 隱私模型及其他參數(shù)模塊

        泛化層級(jí)的創(chuàng)建是隱私模型實(shí)現(xiàn)的基礎(chǔ)。在ARX 工具中,匿名化處理的過(guò)程是通過(guò)篩選出準(zhǔn)標(biāo)識(shí)符泛化層級(jí)組合方案中所有滿足隱私模型和相關(guān)參數(shù)要求的方案,并形成一個(gè)隱私保護(hù)效果最佳的推薦方案的過(guò)程。根據(jù)隱私模型對(duì)生成數(shù)據(jù)的要求,可以將其分為面向準(zhǔn)標(biāo)識(shí)符的隱私模型、面向敏感屬性的隱私模型及超人群模型等。多種隱私模型和相關(guān)參數(shù)可以組合使用,但是隱私模型越嚴(yán)格,準(zhǔn)標(biāo)識(shí)符的值會(huì)被泛化到更高的層級(jí),雖然隱私信息能夠得到更好保護(hù),卻會(huì)降低數(shù)據(jù)質(zhì)量,影響數(shù)據(jù)分析質(zhì)量。因此,需要結(jié)合數(shù)據(jù)處理和使用需求選擇合適的隱私模型和相關(guān)參數(shù),以獲得最佳的結(jié)果。

        2.1.4 匿名化方案探索模塊

        ARX 工具形成隱私保護(hù)效果最佳的推薦方案的過(guò)程是通過(guò)Flash 檢索算法實(shí)現(xiàn)的。當(dāng)該方案不能滿足需要時(shí),可在匿名化方案探索模塊提供的泛化層級(jí)組合方案集合中探索新的匿名化方案。在該模塊中,ARX 工具提供的哈斯圖和隱私保護(hù)分?jǐn)?shù)列表分別展示了所有滿足隱私模型和相關(guān)參數(shù)的匿名化方案。研究者可以通過(guò)泛化層級(jí)過(guò)濾,保留自己所需要的重要信息。假如年齡是研究所需要的重要屬性,在探索模塊中指定年齡的泛化層級(jí)為0,那么最終篩選出的泛化方案均為保留原始年齡數(shù)據(jù)的方案,保證了重要屬性信息的留存。

        2.1.5 效用分析及風(fēng)險(xiǎn)分析模塊

        效用分析及風(fēng)險(xiǎn)分析模塊提供了多個(gè)維度的指標(biāo)衡量輸出數(shù)據(jù)的數(shù)據(jù)質(zhì)量和重識(shí)別風(fēng)險(xiǎn)。ARX工具關(guān)注的重點(diǎn)是輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的質(zhì)量變化,提供輸入和輸出數(shù)據(jù)的差異分析對(duì)比和展示。效用分析包含質(zhì)量模型評(píng)價(jià)指標(biāo)、統(tǒng)計(jì)分析和分類性能分析3 個(gè)部分,分析內(nèi)容圍繞著匿名化處理前后數(shù)據(jù)的分布、屬性相關(guān)關(guān)系、數(shù)據(jù)規(guī)模、數(shù)據(jù)包含信息的缺失等變化評(píng)價(jià)數(shù)據(jù)的質(zhì)量;風(fēng)險(xiǎn)分析模塊則主要包含風(fēng)險(xiǎn)直方分布圖、準(zhǔn)標(biāo)識(shí)符探索和攻擊者模型3 個(gè)部分,分析內(nèi)容圍繞匿名化處理后的數(shù)據(jù)的重識(shí)別風(fēng)險(xiǎn),即攻擊者基于背景知識(shí)從共享發(fā)布的數(shù)據(jù)中確定個(gè)體身份的危險(xiǎn)。

        2.2 ARX 工具的工作流程

        ARX 工具進(jìn)行數(shù)據(jù)匿名化流程設(shè)計(jì)時(shí)考慮較為全面,包括數(shù)據(jù)輸入、數(shù)據(jù)處理(屬性設(shè)置、泛化層級(jí)創(chuàng)建、模型和參數(shù)的選擇)、匿名化方案探索及效用和重識(shí)別風(fēng)險(xiǎn)評(píng)價(jià)等步驟,考慮了數(shù)據(jù)處理的評(píng)估和反饋。圖2 展示的是ARX 工具從導(dǎo)入數(shù)據(jù)到生成并輸出匿名化數(shù)據(jù)的工作流程,具體分為5 個(gè)步驟。同時(shí),本文以UCI Machine Learning Repository 中的Adult 數(shù)據(jù)集進(jìn)行k=5 的k-anonymity匿名化處理為例,對(duì)各個(gè)步驟進(jìn)行介紹。

        圖2 ARX 工具進(jìn)行數(shù)據(jù)匿名化處理的工作流程

        2.2.1 數(shù)據(jù)輸入

        數(shù)據(jù)輸入是匿名化處理的第一個(gè)步驟。在ARX 工具中,需要先創(chuàng)建一個(gè)項(xiàng)目,然后再把結(jié)構(gòu)化的Adult 數(shù)據(jù)集導(dǎo)入,如圖3 左半部分所示,數(shù)據(jù)集以表格的形式在工具中展現(xiàn)。

        圖3 ARX 的工作界面

        2.2.2 數(shù)據(jù)處理

        輸入的Adult 數(shù)據(jù)集需要進(jìn)行屬性的設(shè)置、泛化層次的創(chuàng)建及模型和參數(shù)的選擇。屬性設(shè)置需要研究者根據(jù)領(lǐng)域知識(shí)將所有屬性中的標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符、敏感屬性標(biāo)記出來(lái),如本文將id 設(shè)為標(biāo)識(shí)符,將年齡、性別、種族等屬性設(shè)為準(zhǔn)標(biāo)識(shí)符,將教育年限、收入作為敏感屬性。然后,準(zhǔn)標(biāo)識(shí)符需要?jiǎng)?chuàng)建相應(yīng)的泛化層級(jí)來(lái)保證隱私模型的實(shí)現(xiàn)。ARX 工具提供了4 種系統(tǒng)定義的泛化方法用于快速創(chuàng)建泛化層級(jí)方案,包括時(shí)間泛化、區(qū)間泛化、順序泛化及遮蓋泛化。對(duì)諸如年齡等數(shù)值類型的準(zhǔn)標(biāo)識(shí)符采用區(qū)間泛化的方法,以5 為間隔區(qū)間范圍創(chuàng)建泛化層級(jí)方案;對(duì)諸如種族等標(biāo)量類型的準(zhǔn)標(biāo)識(shí)符首先考慮語(yǔ)義關(guān)系創(chuàng)建泛化層級(jí)方案并導(dǎo)入使用,當(dāng)準(zhǔn)標(biāo)識(shí)符沒(méi)有語(yǔ)義層級(jí)概念時(shí),考察數(shù)據(jù)的特點(diǎn)使用順序泛化或遮蓋泛化創(chuàng)建泛化層級(jí)方案。在隱私模型選擇方面,本文選擇k-anonymity 模型,k 值設(shè)置為5;兩個(gè)敏感屬性均選擇參數(shù)為2 的?-diversity 模型。在相關(guān)參數(shù)設(shè)置方面,最大抑制率設(shè)置為推薦的100%,其他相關(guān)參數(shù)使用默認(rèn)值。經(jīng)過(guò)上述處理后,選擇實(shí)現(xiàn)隱私模型的默認(rèn)最優(yōu)算法檢索策略,ARX 工具就會(huì)自動(dòng)計(jì)算出所有符合隱私模型要求的泛化層級(jí)的組合方案,并生成一個(gè)最優(yōu)推薦方案。圖4 為ARX 工具匿名化解決方案空間,每一個(gè)節(jié)點(diǎn)代表一種準(zhǔn)標(biāo)識(shí)符泛化層級(jí)組合,黃色方形的節(jié)點(diǎn)為最優(yōu)推薦方案,節(jié)點(diǎn)中的數(shù)字代表準(zhǔn)標(biāo)識(shí)符的泛化層級(jí)。

        圖4 ARX 工具匿名化解決方案空間

        2.2.3 匿名化方案探索

        ARX 工具生成的最優(yōu)推薦方案是滿足隱私模型和相關(guān)參數(shù)標(biāo)準(zhǔn)下的最佳方案,但該方案不一定能滿足實(shí)際情況中對(duì)某準(zhǔn)標(biāo)識(shí)符泛化層級(jí)及數(shù)據(jù)效用指標(biāo)的要求。如果選擇保留年齡準(zhǔn)標(biāo)識(shí)符的最大信息,在匿名化解決方案空間中把年齡的泛化層級(jí)限制為0,可以在維持年齡不泛化的基礎(chǔ)上調(diào)整最佳匿名化方案。

        2.2.4 效用和重識(shí)別風(fēng)險(xiǎn)評(píng)價(jià)

        生物醫(yī)學(xué)領(lǐng)域?qū)?shù)據(jù)質(zhì)量具有較高的要求,因此需要對(duì)匿名化方案進(jìn)行效用和重識(shí)別風(fēng)險(xiǎn)評(píng)價(jià)以確保輸出數(shù)據(jù)的質(zhì)量。在該步驟中,ARX 工具會(huì)自動(dòng)給出匿名化方案的數(shù)據(jù)值缺失率、粒度及非均衡熵等衡量數(shù)據(jù)質(zhì)量的指標(biāo)和風(fēng)險(xiǎn)直方分布圖、檢察官模型風(fēng)險(xiǎn)等重識(shí)別風(fēng)險(xiǎn)評(píng)價(jià)內(nèi)容。當(dāng)該方案滿足數(shù)據(jù)效用和重識(shí)別風(fēng)險(xiǎn)的要求時(shí),則可確定為匿名化最優(yōu)方案并輸出,否則需要進(jìn)行新方案的探索。

        2.2.5 數(shù)據(jù)輸出

        當(dāng)匿名化方案滿足效用和重識(shí)別風(fēng)險(xiǎn)后,通過(guò)數(shù)據(jù)效用評(píng)價(jià)模塊對(duì)輸出數(shù)據(jù)進(jìn)行預(yù)覽,確認(rèn)無(wú)誤后以結(jié)構(gòu)化的CSV 格式輸出數(shù)據(jù)。

        3 ARX 工具的功能特點(diǎn)及局限性

        3.1 ARX 工具的功能特點(diǎn)

        ARX 工具功能豐富全面,支持匿名化處理的全流程。與UTD 匿名化工具箱、sdcMicro、CAT等其他數(shù)據(jù)匿名化工具相比,ARX 具有采用高效的全域匿名化算法、支持豐富的隱私模型、較為全面的數(shù)據(jù)效用評(píng)價(jià)指標(biāo)、較為豐富的風(fēng)險(xiǎn)分析功能等4 個(gè)功能特點(diǎn)。ARX 工具的歷次更新也多是在圍繞增加更多的隱私模型和效用評(píng)價(jià)指標(biāo)方面進(jìn)行的。ARX 工具與其他匿名化工具具體的功能特點(diǎn)比較如表1 所示。

        表1 ARX 工具與其他匿名化工具的功能特點(diǎn)比較

        3.1.1 高效的全域匿名化算法

        ARX 工具支持全域匿名化處理和局域匿名化處理。在全域匿名化處理中,支持多種高效穩(wěn)定的Flash 算法及變體是ARX 工具的一個(gè)重要特點(diǎn)。UTD 匿名化工具箱支持Datafly、Incognito 等算法實(shí)現(xiàn)k-anonymity 等匿名化處理,CAT 支持Incognito算法[20]實(shí)現(xiàn)匿名化處理,而sdcMicro 則提供多種自底向上和自頂向下的全域匿名化算法和10 余種局域匿名化算法[21]。與這些算法相比,F(xiàn)lash 算法使用預(yù)測(cè)標(biāo)記的方法,采用垂直遍歷匿名化解決方案空間的策略,剪枝能力和執(zhí)行時(shí)間要優(yōu)于Incognito 等其他算法,算法穩(wěn)定性較強(qiáng),能夠?qū)崿F(xiàn)數(shù)據(jù)集的快速全域匿名化處理。目前,ARX 工具還加入了對(duì)遺傳算法的支持,顯著提高了對(duì)高維數(shù)據(jù)的處理能力。

        3.1.2 豐富的隱私模型

        相比于UTD 匿名化工具箱、sdcMicro、CAT等其他匿名化工具僅支持2~3 種隱私模型,ARX工具支持的隱私模型高達(dá)10 余種,是目前支持隱私模型數(shù)量最多的數(shù)據(jù)匿名化工具。表2 是對(duì)各隱私模型相關(guān)研究的總結(jié)。根據(jù)隱私模型計(jì)算原理的不同,面向?qū)ο笾饕?zhǔn)標(biāo)識(shí)符和敏感屬性。k-anonymity、k-map 等隱私模型面向?qū)ο鬄闇?zhǔn)標(biāo)識(shí)符,是較為常用的隱私模型,這些模型主要通過(guò)泛化和抑制等手段增加準(zhǔn)標(biāo)識(shí)符中等價(jià)類(即準(zhǔn)標(biāo)識(shí)符值相同的記錄)的數(shù)目,減少唯一記錄,從而降低重識(shí)別風(fēng)險(xiǎn);?-diversity、t-closeness 等隱私模型主要面向敏感屬性,因?yàn)楸M管等價(jià)類數(shù)目增多保證了唯一記錄的減少,但如果同一等價(jià)類記錄對(duì)應(yīng)的敏感屬性值都相同時(shí)會(huì)導(dǎo)致一致性攻擊,容易使個(gè)體的敏感屬性信息被發(fā)現(xiàn)。因此,還需要保證敏感屬性的分布具有多樣性,從不同算法的層面上要求相同等價(jià)類記錄的敏感屬性下至少要存在一定閾值數(shù)量不同的值。此外,k-map、δ-presence 等隱私模型考慮到了種群唯一性的再識(shí)別風(fēng)險(xiǎn),使用時(shí)還需要獲得人群信息作為參數(shù),而ARX 工具也內(nèi)置了美國(guó)等國(guó)家的人口數(shù)量供參考;Profitability 模型基于博弈論進(jìn)行成本效益分析,可以更明確地解釋數(shù)據(jù)發(fā)布者和接收者的動(dòng)機(jī),但需要獲取攻擊者成本和收益等參數(shù);Average-reidentification-risk 模型則通過(guò)設(shè)置重識(shí)別風(fēng)險(xiǎn)閾值,獲得滿足重識(shí)別風(fēng)險(xiǎn)要求的匿名化方案。

        表2 ARX 工具支持的主要隱私模型及其原理

        3.1.3 數(shù)據(jù)效用評(píng)估

        從生物醫(yī)學(xué)研究需求的不同角度衡量匿名化數(shù)據(jù)的質(zhì)量,會(huì)獲得不同的結(jié)果。為此,ARX 工具提供了一系列的質(zhì)量評(píng)估指標(biāo)和數(shù)據(jù)質(zhì)量模型對(duì)匿名化數(shù)據(jù)進(jìn)行效用評(píng)估,供使用者從多個(gè)角度評(píng)估匿名化處理導(dǎo)致的信息丟失情況。在ARX 工具中,質(zhì)量評(píng)估指標(biāo)分為屬性級(jí)別的質(zhì)量評(píng)估指標(biāo)和數(shù)據(jù)集級(jí)別的質(zhì)量評(píng)估指標(biāo)。前者包含缺失率、泛化強(qiáng)度、粒度、非均衡熵和平方誤差等指標(biāo),后者包含泛化強(qiáng)度、粒度、非均衡熵、平方誤差和平均等價(jià)類大小等指標(biāo)。ARX 工具提供的部分質(zhì)量評(píng)估指標(biāo)的具體含義如表3 所示。

        表3 ARX 工具提供的部分質(zhì)量評(píng)估指標(biāo)

        數(shù)據(jù)質(zhì)量模型用于優(yōu)化匿名化處理的目標(biāo)函數(shù),不同的數(shù)據(jù)質(zhì)量模型側(cè)重考慮不同的評(píng)價(jià)指標(biāo),如粒度、泛化強(qiáng)度等,從而影響最終生成的匿名化數(shù)據(jù)。如在參數(shù)配置階段選擇了側(cè)重匿名化數(shù)據(jù)平均等價(jià)類大小的模型(AECS 模型)時(shí),最終生成的匿名化數(shù)據(jù)是具有平均等價(jià)類大小更優(yōu)的匿名化方案。質(zhì)量評(píng)估指標(biāo)眾多,ARX 工具中也內(nèi)置了豐富的數(shù)據(jù)質(zhì)量模型可供選擇,包括Loss模型、AECS 模型、Precision 模型、Discernibility模型和Non-Uniform Entropy 模型等。

        ARX 工具還提供了邏輯回歸、隨機(jī)森林和樸素貝葉斯等算法對(duì)輸入數(shù)據(jù)和輸出數(shù)據(jù)的分類性能進(jìn)行比較。研究結(jié)果顯示,選擇了Discernibility模型、Precision 模型和Non-Uniform Entropy 模型的輸出數(shù)據(jù)具有較好的分類模型訓(xùn)練能力,測(cè)量結(jié)果的相對(duì)準(zhǔn)確度為94%~99%,因此具有無(wú)監(jiān)督學(xué)習(xí)研究需求的數(shù)據(jù)應(yīng)優(yōu)先選擇這幾類數(shù)據(jù)質(zhì)量模型進(jìn)行匿名化處理[22]。

        3.1.4 風(fēng)險(xiǎn)分析功能

        風(fēng)險(xiǎn)分析主要是指對(duì)輸出數(shù)據(jù)的重識(shí)別風(fēng)險(xiǎn)的評(píng)估、ARX 工具中提供了攻擊風(fēng)險(xiǎn)模型分析、風(fēng)險(xiǎn)分布直方圖和發(fā)現(xiàn)準(zhǔn)標(biāo)記符等功能。

        3.1.4.1 攻擊風(fēng)險(xiǎn)模型分析

        攻擊風(fēng)險(xiǎn)模型分析包括對(duì)檢察官風(fēng)險(xiǎn)模型、記者風(fēng)險(xiǎn)模型和營(yíng)銷攻擊者風(fēng)險(xiǎn)模型3 種模型風(fēng)險(xiǎn)的分析。檢察官風(fēng)險(xiǎn)和記者風(fēng)險(xiǎn)是數(shù)據(jù)集隱私風(fēng)險(xiǎn)兩個(gè)基礎(chǔ)的重識(shí)別風(fēng)險(xiǎn)度量方法,都是衡量攻擊者從數(shù)據(jù)集中鎖定目標(biāo)個(gè)體的數(shù)據(jù)的風(fēng)險(xiǎn)。二者的區(qū)別在于對(duì)手能否知道某個(gè)特定的個(gè)體是否在數(shù)據(jù)集中。如果攻擊者能知道目標(biāo)是否在數(shù)據(jù)集內(nèi),則是所謂的“檢察官風(fēng)險(xiǎn)”;如果攻擊者不知道或不能知道目標(biāo)是否在數(shù)據(jù)集中,則被稱為“記者風(fēng)險(xiǎn)”。由于不能事先確定攻擊者掌握的背景知識(shí),因此無(wú)法得出一個(gè)固定的檢察官風(fēng)險(xiǎn)值或記者風(fēng)險(xiǎn)值。使用者可以在ARX 工具中設(shè)置風(fēng)險(xiǎn)閾值,工具將自動(dòng)計(jì)算超過(guò)閾值風(fēng)險(xiǎn)的記錄比例、平均能被重識(shí)別的記錄比例和單個(gè)記錄最高重識(shí)別風(fēng)險(xiǎn)。營(yíng)銷攻擊者風(fēng)險(xiǎn)模型則是以重新識(shí)別數(shù)據(jù)集中的大部分個(gè)體為目標(biāo),而不是特定個(gè)體為目標(biāo)來(lái)計(jì)算重識(shí)別風(fēng)險(xiǎn)。

        3.1.4.2 風(fēng)險(xiǎn)分布直方圖

        風(fēng)險(xiǎn)分布直方圖是數(shù)據(jù)集記錄中重識(shí)別風(fēng)險(xiǎn)分布的直方圖,它是以檢察官重識(shí)別風(fēng)險(xiǎn)作為橫坐標(biāo),受影響記錄百分比為縱坐標(biāo),可以直觀地看到有多少數(shù)量的記錄的檢察官風(fēng)險(xiǎn)小于某一個(gè)值。通過(guò)對(duì)比輸入輸出數(shù)據(jù)的風(fēng)險(xiǎn)分布直方圖可以發(fā)現(xiàn)檢察官重識(shí)別風(fēng)險(xiǎn)與受影響記錄的變化。ARX 工具可以直觀地對(duì)比輸入輸出數(shù)據(jù)風(fēng)險(xiǎn)直方分布圖的變化。一般而言,經(jīng)過(guò)了匿名化處理的數(shù)據(jù)集的最大重識(shí)別風(fēng)險(xiǎn)和平均重識(shí)別風(fēng)險(xiǎn)都將明顯下降。

        3.1.4.3 發(fā)現(xiàn)準(zhǔn)標(biāo)記符功能

        發(fā)現(xiàn)準(zhǔn)標(biāo)記符功能是指通過(guò)分析單個(gè)屬性或多個(gè)屬性組合的重識(shí)別風(fēng)險(xiǎn),發(fā)現(xiàn)其中的準(zhǔn)標(biāo)識(shí)符。ARX 工具提供了所有的屬性組合(包括不敏感屬性)的重新識(shí)別相關(guān)風(fēng)險(xiǎn)的值。當(dāng)這些值較高甚至達(dá)到100%時(shí),則需要考慮相應(yīng)屬性組合中是否存在未發(fā)現(xiàn)的準(zhǔn)標(biāo)識(shí)符。

        3.2 應(yīng)用局限

        ARX 工具是面向結(jié)構(gòu)化數(shù)據(jù)集設(shè)計(jì)的開(kāi)源匿名化工具,研究者可以脫機(jī)使用,能保障處理過(guò)程中的數(shù)據(jù)安全。該工具應(yīng)用功能豐富全面,適用于高維大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)集。但該工具在真實(shí)世界生物醫(yī)學(xué)數(shù)據(jù)匿名化的應(yīng)用中,還存在以下3 個(gè)問(wèn)題。一是真實(shí)世界生物醫(yī)學(xué)數(shù)據(jù)集中存在許多非結(jié)構(gòu)化數(shù)據(jù),但ARX 工具僅適用于結(jié)構(gòu)化數(shù)據(jù)集的匿名化;二是當(dāng)數(shù)據(jù)集存在的缺失值較多時(shí),需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,因?yàn)锳RX 工具的匿名化處理過(guò)程缺乏對(duì)缺失值的考慮,當(dāng)缺失值較多時(shí)會(huì)導(dǎo)致過(guò)度泛化而造成較多的信息損失;三是不太適合小規(guī)模數(shù)據(jù)集匿名化處理的應(yīng)用,因?yàn)樾∫?guī)模的數(shù)據(jù)集處理成本較低,往往采用局域匿名化的方法保留更細(xì)顆粒度的信息,而該工具提供的局域匿名化算法較少,它使用的Flash 算法的匿名化處理能力雖然高效穩(wěn)定,但在保留數(shù)據(jù)信息的能力方面不如局域匿名化算法。

        4 對(duì)我國(guó)數(shù)據(jù)匿名化工具研發(fā)的啟示

        目前,我國(guó)生物醫(yī)學(xué)領(lǐng)域有大量的數(shù)據(jù)匿名化需求,但卻缺乏可靠的開(kāi)源數(shù)據(jù)匿名化工具。ARX工具作為一款在國(guó)際上被廣泛應(yīng)用的開(kāi)源數(shù)據(jù)匿名化工具,具有高效的全域匿名化算法、豐富的隱私模型、數(shù)據(jù)效用分析和風(fēng)險(xiǎn)分析功能,為我國(guó)數(shù)據(jù)匿名化工具的研發(fā)提供了很好的啟示。

        4.1 完善匿名化處理流程,加強(qiáng)數(shù)據(jù)效用和風(fēng)險(xiǎn)評(píng)價(jià)

        生物醫(yī)學(xué)數(shù)據(jù)匿名化工具的研發(fā)比較重視數(shù)據(jù)匿名化處理算法模型研究,而容易忽視數(shù)據(jù)處理結(jié)果的可用性和風(fēng)險(xiǎn)評(píng)估。首先,過(guò)度的匿名化處理會(huì)導(dǎo)致過(guò)多的信息丟失,在開(kāi)展臨床科學(xué)研究時(shí),容易引起假陰性研究結(jié)果的出現(xiàn)。其次,數(shù)據(jù)匿名化處理后,由于處理粒度不足,或通過(guò)與其他數(shù)據(jù)關(guān)聯(lián),也存在個(gè)人信息被重識(shí)別的風(fēng)險(xiǎn)。ARX工具較好地考慮了數(shù)據(jù)匿名化處理的全鏈條,不僅提供了眾多可選擇的隱私模型,而且在效用評(píng)估和風(fēng)險(xiǎn)評(píng)價(jià)方面提供了較為豐富的評(píng)價(jià)指標(biāo)和參數(shù)。因此,我國(guó)生物醫(yī)學(xué)數(shù)據(jù)匿名化工具研發(fā)時(shí)可以借鑒它,完善數(shù)據(jù)匿名化處理全流程,完善效用評(píng)估和風(fēng)險(xiǎn)評(píng)價(jià)功能。結(jié)合不同生物醫(yī)學(xué)數(shù)據(jù)的實(shí)際應(yīng)用場(chǎng)景(如科學(xué)研究、臨床應(yīng)用、跨域共享等),建立完善多維度數(shù)據(jù)效用評(píng)價(jià)和風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)及技術(shù)方法,形成對(duì)匿名化處理方法和工具處理有效性的評(píng)估和及時(shí)反饋閉環(huán),探索實(shí)現(xiàn)隱私保護(hù)和數(shù)據(jù)利用的相對(duì)平衡,提高工具匿名化處理的效果和能力。

        4.2 結(jié)合敏感數(shù)據(jù)特征,支持多類型可擴(kuò)展隱私模型

        中文生物醫(yī)學(xué)數(shù)據(jù)來(lái)源廣泛,包括基礎(chǔ)調(diào)查、臨床、實(shí)驗(yàn)室等多種來(lái)源,具有數(shù)據(jù)量大、關(guān)聯(lián)性強(qiáng)、類型多樣(如數(shù)值、時(shí)間/日期、字符等)等特點(diǎn)。不同來(lái)源和不同數(shù)據(jù)類型的匿名化處理需要使用合適的隱私模型和相關(guān)參數(shù)才能取得理想的匿名化處理結(jié)果。ARX 工具支持k-anonymity、?-diversity、t-closeness 等10 余種隱私模型和多種隱私參數(shù)設(shè)置,雖然有一部分的改進(jìn)模型并未得到支持,但目前已經(jīng)能夠滿足大多數(shù)研究的數(shù)據(jù)匿名化處理需求。在我國(guó)數(shù)據(jù)匿名化工具的研發(fā)過(guò)程中,應(yīng)不斷研究和豐富工具所能支持的隱私模型,包括面向準(zhǔn)標(biāo)識(shí)符的隱私模型、面向敏感屬性的隱私模型和考慮人群唯一性的隱私模型等。同時(shí)還要保證工具的可拓展性,使工具可以隨著隱私模型的研究改進(jìn)不斷進(jìn)行更新迭代,從而滿足更廣泛的研究需求,并得到更優(yōu)的匿名化處理結(jié)果,從而提高研究效率。此外,ARX 工具實(shí)現(xiàn)隱私模型的算法主要集中在全域匿名化算法方面,提供的局域匿名化算法較少,減少泛化造成的信息損失的能力較弱。因此,在研發(fā)我國(guó)數(shù)據(jù)匿名化工具時(shí),還需要拓展對(duì)局域匿名化算法的支持,使匿名化工具的應(yīng)用場(chǎng)景更加豐富和全面。

        4.3 利用自然語(yǔ)言技術(shù),加強(qiáng)非結(jié)構(gòu)化數(shù)據(jù)處理能力

        ARX 工具主要是針對(duì)結(jié)構(gòu)化數(shù)據(jù)的匿名化處理,雖然對(duì)結(jié)構(gòu)化數(shù)據(jù)提供了豐富的匿名化處理功能,但是缺乏對(duì)文本等非結(jié)構(gòu)化數(shù)據(jù)的處理功能。而生物醫(yī)學(xué)領(lǐng)域中存在大量的非結(jié)構(gòu)化數(shù)據(jù),需要對(duì)散落在非結(jié)構(gòu)化文本中的敏感信息進(jìn)行識(shí)別和處理,如電子病歷數(shù)據(jù)中的現(xiàn)病史、既往史、主訴等部分的非結(jié)構(gòu)化文本描述。特別是中文數(shù)據(jù)中的專業(yè)術(shù)語(yǔ)、分詞和表達(dá)與英文數(shù)據(jù)存在較大差異,需要予以關(guān)注。敏感數(shù)據(jù)類型和特征識(shí)別也要結(jié)合國(guó)內(nèi)外發(fā)布的相關(guān)法律、法規(guī)和政策中對(duì)敏感數(shù)據(jù)或信息的范圍和類型的要求進(jìn)行及時(shí)更新和補(bǔ)充。因此,在研發(fā)我國(guó)生物醫(yī)學(xué)數(shù)據(jù)匿名化工具時(shí),還需要結(jié)合自然語(yǔ)言處理、深度學(xué)習(xí)、圖像識(shí)別等技術(shù),自動(dòng)和半自動(dòng)提取和識(shí)別電子病歷數(shù)據(jù)現(xiàn)病史中的準(zhǔn)標(biāo)識(shí)符和敏感屬性,并提供數(shù)據(jù)審查,支持泛化等匿名化處理功能進(jìn)行數(shù)據(jù)處理,從而實(shí)現(xiàn)敏感信息的保護(hù)。

        4.4 實(shí)現(xiàn)人性化功能設(shè)計(jì),提高工具易用性和可理解性

        ARX 工具豐富的隱私模型和可自定義的參數(shù)設(shè)置,能夠滿足面向多種需求的數(shù)據(jù)處理需要,但同時(shí),這種靈活性需要研究者了解隱私模型和掌握一定的數(shù)據(jù)匿名處理相關(guān)專業(yè)知識(shí),對(duì)研究者使用該工具有一定門檻。而要達(dá)到較好的數(shù)據(jù)處理效果,也的確需要結(jié)合數(shù)據(jù)集特點(diǎn)和匿名化轉(zhuǎn)換目的調(diào)整和優(yōu)化數(shù)據(jù)匿名化處理方案,才能獲得較好的數(shù)據(jù)匿名化處理結(jié)果。因此,在研發(fā)我國(guó)生物醫(yī)學(xué)數(shù)據(jù)匿名化工具時(shí),需要著重考慮用戶的應(yīng)用場(chǎng)景,提供快捷、易用的應(yīng)用入口,加強(qiáng)工具使用的指導(dǎo)性和引導(dǎo)性。另外,還需要增強(qiáng)工具的人性化設(shè)計(jì),結(jié)合用戶使用習(xí)慣設(shè)計(jì)工具功能和流程,采用用戶可理解的方式描述并進(jìn)行提示和說(shuō)明,提供一鍵式自動(dòng)化和分步檢查等不同運(yùn)行方式滿足用戶需求。

        此外,ARX 工具數(shù)據(jù)處理規(guī)模較大,適用范圍較廣,這也是許多研究者選擇使用ARX 工具進(jìn)行數(shù)據(jù)匿名化處理的原因。隨著生物醫(yī)學(xué)研究數(shù)據(jù)規(guī)模的不斷增長(zhǎng),對(duì)數(shù)據(jù)匿名化工具的數(shù)據(jù)處理能力要求也在不斷增加,因此在工具研發(fā)時(shí)還需要在此基礎(chǔ)上繼續(xù)拓展,達(dá)到更大規(guī)模的數(shù)據(jù)處理能力,保障工具的實(shí)用性。

        5 結(jié)語(yǔ)

        我國(guó)的數(shù)據(jù)匿名化工具的研發(fā)還處于探索階段。本文剖析了具有代表性的匿名化工具ARX 的功能架構(gòu),以Adult 數(shù)據(jù)集的匿名化處理為例介紹了ARX 工具的應(yīng)用流程。通過(guò)與其他匿名化工具的比較,本文歸納了ARX 工具的功能特點(diǎn)和不足之處,總結(jié)了隱私模型的原理、匿名化數(shù)據(jù)評(píng)價(jià)指標(biāo)和重識(shí)別風(fēng)險(xiǎn)評(píng)估的內(nèi)涵,并在此基礎(chǔ)上提出了我國(guó)數(shù)據(jù)匿名化工具研發(fā)時(shí)需要重點(diǎn)關(guān)注的內(nèi)容。但因?yàn)槠南拗?,本文也存在一定的不足,如未深入分析ARX 工具各隱私模型和功能指標(biāo)的具體適用場(chǎng)景,對(duì)我國(guó)數(shù)據(jù)匿名化工具的研發(fā)僅提供了方向上的指導(dǎo)等。后續(xù)的研究中,可以增加場(chǎng)景化的研究,為數(shù)據(jù)匿名化工具的研發(fā)提供更全面、更具體的指導(dǎo)。

        猜你喜歡
        標(biāo)識(shí)符效用層級(jí)
        淺析5G V2X 通信應(yīng)用現(xiàn)狀及其側(cè)鏈路標(biāo)識(shí)符更新技術(shù)
        基于底層虛擬機(jī)的標(biāo)識(shí)符混淆方法
        軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
        基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
        基于區(qū)塊鏈的持久標(biāo)識(shí)符系統(tǒng)①
        小學(xué)美術(shù)課堂板書(shū)的四種效用
        數(shù)字美術(shù)館“數(shù)字對(duì)象唯一標(biāo)識(shí)符系統(tǒng)”建設(shè)需求淺議
        納米硫酸鋇及其對(duì)聚合物的改性效用
        任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
        幾種常見(jiàn)葉面肥在大蒜田效用試驗(yàn)
        国产在线视频91九色| 精品一精品国产一级毛片| 久久国产A∨一二三| 日韩亚洲在线一区二区| 一区二区三区高清在线观看视频| 天天摸夜夜摸摸到高潮| 成人免费毛片内射美女-百度| 亚洲精品成人av观看| 91青青草视频在线播放| 99人中文字幕亚洲区三| 国产99久久久国产精品免费看| 人妻去按摩店被黑人按中出| 亚洲精品国产综合久久一线| 少妇一区二区三区精选| 国精产品一区一区三区有限在线| 国产成人av大片大片在线播放| 欧美精品黄页在线观看视频| 蜜桃视频色版在线观看| 亚洲第一女人的天堂av| 国产七十六+老熟妇| √天堂中文官网8在线| 日韩国产有码在线观看视频| 激情五月六月婷婷俺来也| 亚洲精品成人无限看| www国产无套内射com| 中文字幕巨乱亚洲| 国产激情小视频在线观看的| 性欧美丰满熟妇xxxx性久久久| 国产丝袜无码一区二区三区视频 | 久久亚洲精精品中文字幕早川悠里| 一区二区三区四区草逼福利视频| 国产午夜精品一区二区| 最新国产拍偷乱偷精品| 久久伊人久久伊人久久| 无码国内精品人妻少妇蜜桃视频| 人成午夜免费大片| 人妻av一区二区三区高| 丰满人妻猛进入中文字幕| 乌克兰少妇xxxx做受野外| 久久亚洲成a人片| 亚洲无人区乱码中文字幕能看|