臧國全 賈瑞瑩
摘 要:[目的/意義]計量醫(yī)療數(shù)據(jù)中的病種隱私值,并基于人口統(tǒng)計變量對病種隱私進行敏感性分析,為醫(yī)療隱私保護和醫(yī)療數(shù)據(jù)利用提供基礎(chǔ)條件。[方法/過程]采用聯(lián)合分析法,計算患者對醫(yī)療數(shù)據(jù)保護服務(wù)每個屬性的邊際支付意愿,求得醫(yī)療數(shù)據(jù)中病種的隱私值,通過獨立樣本T檢驗和單因素方差分析,研究不同個體特征之間病種隱私的差異是否具有統(tǒng)計學(xué)意義。[結(jié)果/結(jié)論]基于訪談法的預(yù)調(diào)查結(jié)果,艾滋病隱私值為最高;采用聯(lián)合分析法和Logit模型,計量其他病種隱私值,結(jié)果顯示,降序排列隱私值較高的病種為精神疾病、傳染?。ò滩〕猓?、惡性腫瘤、心臟與腦血管疾病;基于人口統(tǒng)計變量的隱私值分析顯示,性別、年齡、受教育程度3個變量下醫(yī)療數(shù)據(jù)中病種隱私差異具有顯著性,且男性高于女性,年齡段為41~65歲的人群高于其他年齡段人群,教育程度越高隱私越大。
關(guān)鍵詞:醫(yī)療數(shù)據(jù);病種隱私;隱私計量;聯(lián)合分析
DOI:10.3969/j.issn.1008-0821.2020.05.019
〔中圖分類號〕G250.252 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2020)05-0161-08
Measurement and Analysis of Disease Privacy in Medical Data
Zang Guoquan1,2 Jia Ruiying1
(1.School of Information Management,Zhengzhou University,Zhengzhou 450000,China;
2.Institute of Data Science,Zhengzhou University,Zhengzhou 450000,China)
Abstract:[Purpose/Significance]Measuring the privacy value of the disease in medical data and sensitivity analysis of disease privacy based on demographic variables provide basic conditions for medical privacy protection and medical data utilization.[Method/Process]Using the method of conjoint analysis,the privacy values of the diseases in medical data were obtained by calculating the patients marginal willingness to pay for each attribute of medical data protection service.And independent sample T-test and one-way ANOVA were used to investigate whether the differences in disease privacy between different individual characteristics were statistically significant.[Result/Conclusion]Pre-survey results based on interviews showed that AIDS had the highest privacy value;using the method of conjoint analysis and Logit model to measure the privacy value of other diseases,the results showed that the diseases with higher privacy value in descending order were mental diseases,infectious diseases(except AIDS),malignant tumors,heart and cerebrovascular diseases;Privacy value analysis based on demographic variables showed that there were significant differences in disease privacy among three variables:gender,age and education level.Males were higher than females,adults were higher than other age groups,and the higher education level,the greater privacy.
Key words:medical data;disease privacy;privacy measurement;conjoint analysis
1 問題提出
醫(yī)療數(shù)據(jù)是健康醫(yī)療大數(shù)據(jù)的重要部分。醫(yī)療數(shù)據(jù)是醫(yī)療機構(gòu)通過其醫(yī)療信息系統(tǒng)采集的患者就醫(yī)過程中產(chǎn)生的數(shù)據(jù)。中共中央、國務(wù)院印發(fā)的《“健康中國2030”規(guī)劃綱要》和《關(guān)于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》(2016)[1-2],將健康醫(yī)療大數(shù)據(jù)分3類:健康數(shù)據(jù)(亦稱院外數(shù)據(jù))、醫(yī)療數(shù)據(jù)(亦稱院內(nèi)數(shù)據(jù))和基因數(shù)據(jù)。據(jù)CHIMA(中華醫(yī)院管理學(xué)會信息管理專業(yè)委員會)調(diào)查(2017),85%以上醫(yī)院已實施醫(yī)療信息系統(tǒng),產(chǎn)生的醫(yī)療數(shù)據(jù)在整個健康醫(yī)療大數(shù)據(jù)中規(guī)模占比最大,采集最完善[3]。
Logit模型的選擇理由。根據(jù)Green P E等的研究,聯(lián)合分析中將配對比較數(shù)據(jù)與選擇概率模型聯(lián)系起來的參數(shù)估計方法有Logit模型和Probit模型,相比之下,Logit模型能夠保證全局的最大似然估計,逼近真實似然,而且Logit模型更簡單,應(yīng)用更加廣泛[9]。
2.3 聯(lián)合分析法運用于本研究的適用性分析
聯(lián)合分析法最早用于模擬產(chǎn)品,以得出消費者的總體偏好,后又用于模擬服務(wù),包括虛擬服務(wù)。本研究假設(shè)一個提供醫(yī)療數(shù)據(jù)保護的服務(wù)項目,應(yīng)用聯(lián)合分析法,模擬醫(yī)療數(shù)據(jù)中病種信息保護的服務(wù)項目,分析患者對各病種信息保護的選擇偏好及支付意愿。故在方法上是適用的。
病種的隱私值具有相對性,是患者相對于其他病種而言的隱私認(rèn)知相對程度。比如,一般認(rèn)為,艾滋病的隱私值最高,是相對于其他病種的界定,但艾滋病的絕對隱私值到底是多少,沒有一個確切的數(shù)值。聯(lián)合分析法將各病種放在一起,患者通過比較各病種保護狀態(tài)的服務(wù)項目輪廓計算病種的隱私值,此時的隱私值是各病種之間的患者隱私認(rèn)知的相對值。因此,聯(lián)合分析法能夠滿足病種隱私值計量的特質(zhì)需要。
估計消費者對某一產(chǎn)品和服務(wù)支付意愿的方法有很多種。除聯(lián)合分析法外,常見的還有條件價值法(Contingent Valuation Method)和BDM機制(Becker-DeGroot-Marshak Mechanism)。條件價值法只適合于具有單個屬性的產(chǎn)品或服務(wù),而病種信息保護服務(wù)涉及多重屬性,故條件價值法不適合本項研究[10]。BDM機制采用市場拍賣原理,競標(biāo)者對拍賣物品出價,為獲取該物品,競標(biāo)者需給出能夠承受的最高報價,即支付意愿,若拍賣成功,競標(biāo)者以上述支付意愿購買拍賣物品;很明顯,BDM機制拍賣的是實際商品,且該商品存在現(xiàn)實市場,而本研究中的病種信息保護服務(wù)是一個虛擬市場的模擬產(chǎn)品,故BDM機制也不適合本項研究[11]。
3 研究方案
3.1 醫(yī)療數(shù)據(jù)保護服務(wù)的屬性
為了確定醫(yī)療數(shù)據(jù)保護服務(wù)的屬性,采用訪談法預(yù)調(diào)查,了解用戶更關(guān)注的病種類型。本研究在鄭州大學(xué)第一附屬醫(yī)院隨機訪談40名患者,開放性訪談問題是“如果一個機構(gòu)提供醫(yī)療數(shù)據(jù)保護服務(wù),你期望保護哪些病種信息以不被泄露使用?”。經(jīng)過統(tǒng)計,艾滋病的出現(xiàn)頻率為100%,為了保證結(jié)果的有效性,將艾滋病的隱私等級設(shè)置為最高,且不納入聯(lián)合分析。其他調(diào)查結(jié)果中,患者給出的病種既有具體疾病名稱,又有一類疾病的類稱,為了方便研究,按照病種類型聚類,為了使研究具有可行性,僅選擇頻率排名前4的病種,結(jié)果為:精神疾病、傳染?。ò滩〕猓?、惡性腫瘤、心臟與腦血管疾病,每類病種為醫(yī)療數(shù)據(jù)保護服務(wù)的屬性,每個屬性設(shè)置兩個水平,見表1。
3.2 調(diào)查方案
本項調(diào)查中,4個病種屬性均有2個層次,一個費用屬性有4個層次,醫(yī)療數(shù)據(jù)保護服務(wù)項目輪廓64個(24x4)。然而,將64個服務(wù)項目輪廓全部進行比較是不切實際的,因為比較次數(shù)太多會降
根據(jù)IBM Security和Ponemon Institute的一項調(diào)研[12],連續(xù)8年來,健康醫(yī)療機構(gòu)的患者健康醫(yī)療數(shù)據(jù)泄露損失最高,單個數(shù)據(jù)項丟失和被盜所產(chǎn)生的損失為408美元,幾乎是其他領(lǐng)域平均值148美元的3倍。如果從泄露損失中提取很小部分用于購買醫(yī)療數(shù)據(jù)保護服務(wù),可大大降低產(chǎn)生的損失。所以,本研究采取損失金額的2%、4%和6%作為第5個屬性中的不同水平。
低受訪者對調(diào)查的注意力。為此,采用正交設(shè)計法,使用SPSS23.0中正交設(shè)計模塊,降低比較次數(shù),選擇部分比較代替完全比較,去除明顯不合理服務(wù)項目輪廓(比如,前4個屬性的水平均為“保護狀態(tài)”,但第5個屬性的水平為0元),最終構(gòu)建的7個服務(wù)項目輪廓見表2。
本研究的調(diào)查問卷分為兩部分:一是患者的人口統(tǒng)計學(xué)特征和所患病種;二是患者對所提供的兩兩匹配的醫(yī)療數(shù)據(jù)保護的服務(wù)項目輪廓的選擇(見表3調(diào)查樣表)。
3.3 調(diào)查對象來源
調(diào)查對象來自鄭州大學(xué)第一附屬醫(yī)院的住院患者,且至少患有上述4類疾病之一。調(diào)查樣本總數(shù)為453個,每類病種患者至少有100人。去除無效樣本,比如21次比較中選中的選擇項相同,或存在任一比較中不做選擇的,剩余有效樣本400個,且每類病種患者至少有100人,病種分布比較均勻。
4 結(jié)果與討論
4.1 樣本特征的描述
4.2 Logit模型的使用
應(yīng)用SPSS的二元Logitistic分析工具,可得到醫(yī)療數(shù)據(jù)的保護服務(wù)項目各屬性的相關(guān)系數(shù),見表5。
β值的涵義。Logit模型中,屬性的β值涵義是聯(lián)合分析中受訪者使用產(chǎn)品(服務(wù))中的對應(yīng)屬性所獲效用的程度描述,“1”表示效用最大,“0”表示無效用,負(fù)值表示屬性與效用之間負(fù)相關(guān)。針對本項研究,產(chǎn)品是醫(yī)療數(shù)據(jù)保護服務(wù)項目,屬性是病種,受訪者是患者,效用是患者使用該服務(wù)項目提供的保護該病種服務(wù)所獲得的收益。因此,表5中4個病種屬性的β值均為正值,表明患者使用病種保護服務(wù)均可獲得效用。β值越大,患者所獲效用越高,反之越低,由表5可知,精神疾病保護服務(wù)的效用最大,其他依次為傳染?。ò滩〕猓盒阅[瘤、心臟與腦血管疾病的保護服務(wù)。支付費用屬性的β值為負(fù)值,表明患者從該屬性中獲得的是負(fù)效用。
Wald值的作用。用于Logit回歸模型中β值的顯著性檢驗,顯著性水平為0.05情況下的Wald統(tǒng)計量臨界值為3.481。從表5可知,5個屬性的Wald值均大于臨界值,表明5個屬性的β系數(shù)都在99.5%的置信水平下成立。
p值的作用。也用于β值的顯著性檢驗,p值小于0.01情況下β系數(shù)在99%的置信水平下成立。表5可知,5個屬性的p值均為0,表明5個屬性的β系數(shù)均通過p值檢驗。
4.3 病種隱私值的計量
根據(jù)Itsubo N等研究結(jié)果[13],將上述得出各病種信息保護服務(wù)的β值除以愿意支付的醫(yī)療數(shù)據(jù)保護服務(wù)費用β值的相反值(因為服務(wù)費用β值為負(fù)值),即為患者對醫(yī)療數(shù)據(jù)保護服務(wù)項目各病種的邊際支付意愿,見表6。
根據(jù)上述分析,病種的邊際支付意愿即為病種的隱私值。因此,根據(jù)表6,精神疾病的隱私值最高,為30.81;其他依次為:傳染病(艾滋病除外)(29.90)、惡性腫瘤(23.95)、心臟與腦血管疾病(17.71)。
4.4 基于人口統(tǒng)計變量的隱私值分析
使用SPSS進行獨立樣本T檢驗和單因素方差分析,研究不同個體特征之間隱私值是否存在顯著差異。前者比較兩個分組個案,后者可比較多組樣本。本項研究中,收集4項人口統(tǒng)計學(xué)變量:性別、年齡、受教育程度、婚姻狀況,其中性別和婚姻狀況為兩分組樣本,適合獨立樣本T檢驗,年齡和受教育程度為多組樣本,適合單因素方差分析?;谏鲜鲭[私值計量方法,計算各個體特征下的隱私值,進行顯著性檢驗,結(jié)果顯示:婚姻變量下患者對不同病種隱私值不存在顯著差異,但其他3個變量下的差異顯著,故本節(jié)僅分析性別、年齡、受教育程度3個變量下的隱私值差異。
性別變量。該變量下患者對不同病種隱私值的獨立樣本T檢驗結(jié)果見表7。由于各病種隱私值的顯著性p值均小于標(biāo)準(zhǔn)值0.05,性別變量對每個病種隱私值均有顯著影響,且統(tǒng)計結(jié)果男性的隱私值均高于女性,可能原因是男性的事業(yè)心較強,更擔(dān)心所患疾病的泄露給自己事業(yè)帶來影響。
4.3 病種隱私值的計量
根據(jù)Itsubo N等研究結(jié)果[13],將上述得出各病種信息保護服務(wù)的β值除以愿意支付的醫(yī)療數(shù)據(jù)保護服務(wù)費用β值的相反值(因為服務(wù)費用β值為負(fù)值),即為患者對醫(yī)療數(shù)據(jù)保護服務(wù)項目各病種的邊際支付意愿,見表6。
年齡變量。該變量下患者對不同病種隱私值的單因素方差分析結(jié)果見表8。由于各病種隱私值的顯著性p值也均小于標(biāo)準(zhǔn)值0.05,年齡變量對每個病種隱私值均有顯著影響,且統(tǒng)計結(jié)果為41~65歲的隱私值最高,18~40歲的次之,66歲以上最低,可能原因是年齡段為41~65歲的患者正值事業(yè)高峰期,更擔(dān)心所患疾病的泄露給自己事業(yè)帶來影響。
受教育程度變量。該變量下患者對不同病種隱私值的單因素方差分析結(jié)果見表9。由于各病種隱私值的顯著性p值同樣也均小于標(biāo)準(zhǔn)值0.05,受教育程度變量對每個病種隱私值均有顯著影響,且統(tǒng)計結(jié)果均為受教育程度越高,隱私值越高??赡茉蚴墙逃潭鹊奶嵘粌H提高對隱私的認(rèn)知程度,而且社會身份和工作地位也會提高,進而導(dǎo)致對隱私泄露更加敏感。 -font-family:宋體; mso-bidi-font-family:宋體'>病種隱私值的計量
根據(jù)Itsubo N等研究結(jié)果[13],將上述得出各病種信息保護服務(wù)的β值除以愿意支付的醫(yī)療數(shù)據(jù)保護服務(wù)費用β值的相反值(因為服務(wù)費用β值為負(fù)值),即為患者對醫(yī)療數(shù)據(jù)保護服務(wù)項目各病種的邊際支付意愿,見表6。
5 結(jié)束語
本文采用聯(lián)合分析法結(jié)合Logit模型,計量醫(yī)療數(shù)據(jù)中主要病種的隱私值,除了可應(yīng)用于醫(yī)療隱私識別和隱私保護外,本項研究還可應(yīng)用于下述領(lǐng)域:
1)醫(yī)療數(shù)據(jù)保護服務(wù)潛在市場規(guī)模估計。步驟:一是依據(jù)本文研究過程,計算出單個患者對各單項病種保護的邊際支付意愿,得出單個患者對醫(yī)療數(shù)據(jù)保護服務(wù)項目提供各單項病種保護的經(jīng)濟價值;二是匯總求和單個患者對各單項病種保護的邊際支付意愿,得出單個患者對提供醫(yī)療數(shù)據(jù)保護服務(wù)項目的經(jīng)濟價值;三是采用隨機抽樣法,統(tǒng)計愿意使用醫(yī)療數(shù)據(jù)保護服務(wù)的患者比例,再依據(jù)醫(yī)療衛(wèi)生部門記載的患者總數(shù)量,得出愿意使用醫(yī)療數(shù)據(jù)保護服務(wù)的患者規(guī)模;四是依據(jù)上述單個患者對提供醫(yī)療數(shù)據(jù)保護服務(wù)項目的經(jīng)濟價值計量結(jié)果和愿意使用醫(yī)療數(shù)據(jù)保護服務(wù)的患者規(guī)模,估計醫(yī)療數(shù)據(jù)保護服務(wù)潛在市場規(guī)模。當(dāng)然,目前還沒有形成成熟的醫(yī)療數(shù)據(jù)保護服務(wù)現(xiàn)實市場,但患者對該服務(wù)項目的需求是現(xiàn)實的,建立該項服務(wù)是必要的,本研究結(jié)果可以供服務(wù)提供者估計市場規(guī)模,分析投資可行性。
2)醫(yī)療數(shù)據(jù)泄露的賠償政策制定。隨著公民的隱私意識增強,醫(yī)療數(shù)據(jù)泄露訴訟案件不斷增加,但經(jīng)濟賠償缺乏統(tǒng)一標(biāo)準(zhǔn),甚至缺失一個賠償標(biāo)準(zhǔn)的計量方法,不同判例的計量方法不同,經(jīng)濟賠償逐案確定。本項研究給出了醫(yī)療數(shù)據(jù)中各項病種的隱私值計量方法,也是各項病種的經(jīng)濟價值計量方法,進而可以計量整個醫(yī)療數(shù)據(jù)的經(jīng)濟價值,供醫(yī)療數(shù)據(jù)泄露的賠償政策制定參考。不可否認(rèn),目前我國醫(yī)療信息泄露的賠償乃至處罰力度相對于受害者感知的經(jīng)濟價值而言是非常低的,因此構(gòu)建一種具有科學(xué)依據(jù)的賠償制度,是廣大患者的需要,也是政府管理機構(gòu)的職責(zé)。
3)差異化醫(yī)療數(shù)據(jù)的隱私保護。醫(yī)療數(shù)據(jù)保護需成本投入,由于醫(yī)療數(shù)據(jù)中不同病種的隱私值不同,患者對不同病種的隱私認(rèn)知存在差異,采用同一高標(biāo)準(zhǔn)保護方案可能會造成資金浪費,但采用同一的寬松保護方案可能導(dǎo)致隱私泄露,因此醫(yī)療數(shù)據(jù)的差異化保護在所難免。差異化保護需要根據(jù)不同醫(yī)療數(shù)據(jù)制定不同的保護措施,制定保護措施的依據(jù)是醫(yī)療數(shù)據(jù)的隱私程度,醫(yī)療數(shù)據(jù)的隱私主要是由內(nèi)含的各類病種隱私構(gòu)成的,所以本研究可以為醫(yī)療數(shù)據(jù)差異化保護措施的制定提供基礎(chǔ)依據(jù)。
另外,本研究也存在一些局限性,主要表現(xiàn)在調(diào)查樣本上。首先,調(diào)查樣本的代表性沒有進行可信度檢驗,樣本數(shù)量的充足性也沒有論證,理想情況下,樣本數(shù)量應(yīng)能代表實際全部,樣本的人口統(tǒng)計特征與實際全部患者的人口統(tǒng)計特征比較一致,只有這樣才能保證抽樣結(jié)果的可信任性。其次,調(diào)查樣本來源均為鄭州大學(xué)第一附屬醫(yī)院,而該院患者幾乎都來自河南省,河南省屬于我國中部,與東部相比經(jīng)濟比較落后,但與西部相比經(jīng)濟比較發(fā)達,一般來說,經(jīng)濟越發(fā)達,人們的隱私保護意識越強,反之,隱私保護意識越弱,隱私保護意識與隱私值呈現(xiàn)正變關(guān)系,故經(jīng)濟發(fā)展程度與隱私值相關(guān),所以從地區(qū)維度,本研究僅限于河南省或擴大到中部地區(qū)的患者醫(yī)療隱私,不能代替其他地區(qū)。最后,不同國家的文化不同,對隱私也會產(chǎn)生影響,本研究的樣本均來自中國,故從文化維度,研究結(jié)果僅限于我國患者的醫(yī)療隱私。
參考文獻
[1]中共中央,國務(wù)院.“健康中國2030”規(guī)劃綱要[EB/OL].http://www.xinhuanet.com //politics/2016-10/25/c_11197858 67.htm,2019-08-11.
[2]國務(wù)院辦公廳.關(guān)于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見[EB/OL].http://www.gov.cn/zhengce/content/2016-06/24/content_5085091.htm,2019-08-11.
[3]CHIMA.2017-2018年度中國醫(yī)院信息化調(diào)查報告[EB/OL].https://chima- 1256452791.cos.ap-beijing.myqcloud.com/CHIMA%20Report/2017-2018中國醫(yī)院信息化狀況調(diào)查報告.pdf,2019-08-11.
[4]APSN.Privacy in Big Data:An Investigation and Analysis[EB/OL].http://www.apecpsn.org/ Documents/2018.pdf,2019-08-11.
[5]IBM,Ponemon.Cost of Data Breach Study in 2017:Global Overview[EB/OL].https:// www.ibm.com/report/2018.pdf,2019-07-16.
[6]IAPP.Privacy Leakage Survey in 2017[EB/OL].https://iapp.org/resources/article/ the-privacy-leakage-survey/,2019-08-16.
[7]Luce R D,Tukey J W.Simultaneous Conjoint Measurement:A New Type of Fundamental Measurement[J].Journal of Mathematical Psychology,1964,1(1):1-27.
[8]Sichtmann C,Wilken R,Diamantopoulos A.Estimating Willingness-to-Pay with Choice-based Conjoint Analysis-Can Consumer Characteristics Explain Variations in Accuracy?[J].British Journal of Management,2011,22(4):628-645.
[9]Green P E,Srinivasan V.Conjoint Analysis in Consumer Research:Issues and Outlook[J].Journal of Consumer Research,2008,5(2):103-123.
[10]Mackenzie,John.A Comparison of Contingent Preference Models[J].American Journal of Agricultural Economics,1993,75(3):593.
[11]Yue C,Hall C R,Behe B K,et al.Are Consumers Willing to Pay More for Biodegradable Containers Than for Plastic Ones?Evidence from Hypothetical Conjoint Analysis and Nonhypothetical Experimental Auctions[R].2010.
[12]IBM,Ponemon.2019 Cost of a Data Breach Report[EB/OL].https://www.ibm.com/security/data-breach,2019-07-16.
[13]Itsubo N,Sakagami M,Washida T,et al.Weighting Across Safeguard Subjects for LCIA Through the Application of Conjoint Analysis[J].The International Journal of Life Cycle Assessment,2014,9(3):196-205.
(責(zé)任編輯:馬 卓)