殷亞萍 凌毅德 朱芳華
摘要:為提高在云存儲(chǔ)環(huán)境中具有密度高、關(guān)聯(lián)復(fù)雜的醫(yī)學(xué)大數(shù)據(jù)安全保密級(jí)別,基于數(shù)據(jù)分割和等級(jí)關(guān)聯(lián)結(jié)構(gòu),以數(shù)據(jù)加密的隱私保護(hù)算法為支持,提出了一種新的大數(shù)據(jù)資源的隱私保密模式。從云環(huán)境下醫(yī)療大數(shù)據(jù)特征入手,分析云存儲(chǔ)中數(shù)據(jù)隱私保護(hù)機(jī)制,提出基于分割的云存儲(chǔ)數(shù)據(jù)分級(jí)保密模型,大大提高了數(shù)據(jù)的安全性。研究表明,該模型可以有效保護(hù)數(shù)據(jù)安全和隱私,提高云端數(shù)據(jù)的安全程度及提高執(zhí)行效率。
關(guān)鍵詞:云存儲(chǔ);數(shù)據(jù)分割;分級(jí)加密;隱私保護(hù);醫(yī)療大數(shù)據(jù)
中圖分類(lèi)號(hào):TP393文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2021)03-65-3
0引言
近年來(lái),云計(jì)算已在醫(yī)療信息化建設(shè)領(lǐng)域得到廣泛應(yīng)用。云存儲(chǔ)、管理、集成共享技術(shù)和健康醫(yī)療業(yè)通過(guò)高效、準(zhǔn)確和深度融合,滿(mǎn)足了病人就診、優(yōu)化醫(yī)療衛(wèi)生業(yè)務(wù)流程及提高服務(wù)效率等方面的要求,促進(jìn)了醫(yī)療衛(wèi)生服務(wù)模式和管理方面的深刻變化,也為促進(jìn)業(yè)內(nèi)健康的快速發(fā)展,提供有力支持。我國(guó)將健康醫(yī)學(xué)大數(shù)據(jù)定位為“國(guó)家重要的基礎(chǔ)性戰(zhàn)略資源”,安全是健康醫(yī)療大數(shù)據(jù)的核心基礎(chǔ),數(shù)據(jù)安全的重要性不斷凸顯,直接系著國(guó)家安全[1]。
云計(jì)算可以使大數(shù)據(jù)的提取與分析成為可能,實(shí)現(xiàn)了云端的健康醫(yī)學(xué)大數(shù)據(jù)存儲(chǔ)。云存儲(chǔ)系統(tǒng)中,數(shù)據(jù)安全問(wèn)題的核心是數(shù)據(jù)管理權(quán)和所有權(quán)的分離,云服務(wù)提供商獲得數(shù)據(jù)的優(yōu)先訪(fǎng)問(wèn)權(quán),由于內(nèi)部存在問(wèn)題,因此數(shù)據(jù)安全存在問(wèn)題[2]?;谏鲜龇治?,提出改進(jìn)的分離存儲(chǔ)方法,即真實(shí)的數(shù)據(jù)在客戶(hù)端分割后加密傳輸?shù)皆拼鎯?chǔ)服務(wù)器,數(shù)據(jù)目錄信息保存于本地。這種方式實(shí)現(xiàn)了文件數(shù)據(jù)與元數(shù)據(jù)割離,使服務(wù)商無(wú)法獲取元數(shù)據(jù),再對(duì)分割數(shù)據(jù)分級(jí)加密上傳,進(jìn)而提高數(shù)據(jù)上傳到云端后的安全性。
1醫(yī)療大數(shù)據(jù)特性
醫(yī)療大數(shù)據(jù)平臺(tái)對(duì)全院數(shù)據(jù)采集、清洗、形成云存儲(chǔ)數(shù)據(jù)中心,數(shù)據(jù)中心邏輯串聯(lián)后形成以患者就診為核心的資源中心,具有以下幾個(gè)特點(diǎn):
①多態(tài)性:區(qū)別于其他大數(shù)據(jù)最明顯的特性,同一就診序號(hào)對(duì)應(yīng)的數(shù)據(jù)既包含真實(shí)姓名、身份及年齡等純文本型數(shù)據(jù),又包含B超、CT、MR等圖形數(shù)據(jù),還包括各類(lèi)檢測(cè)的生理生化的數(shù)字型數(shù)據(jù)。
②冗余性:相同的患者不同時(shí)間、不同醫(yī)院就診會(huì)產(chǎn)生相同信息、不相關(guān)信息和矛盾信息。
③不完整性:部分醫(yī)療數(shù)據(jù),在記錄時(shí)產(chǎn)生的信息有缺失,應(yīng)用共享時(shí)不能反映出本身不完整性。
④時(shí)間性:心腦血管等疾病發(fā)生、就診均在一定時(shí)間內(nèi)產(chǎn)生,數(shù)據(jù)具有時(shí)序性。
2體系架構(gòu)
基于分割的云存儲(chǔ)分級(jí)數(shù)據(jù)隱私保護(hù)模型是基于客戶(hù)端/服務(wù)器模型構(gòu)建的,客戶(hù)端包括分割模塊和分級(jí)加密模塊;服務(wù)器是指云端處理系統(tǒng),包括分塊模塊和存儲(chǔ)模塊[3],體系架構(gòu)如圖1所示。
3關(guān)鍵模塊
3.1分割模塊
在大數(shù)據(jù)分割過(guò)程中,通過(guò)固定大小分割和非固定大小分割2種方式將文件在上傳前根據(jù)情況分割成大、小數(shù)據(jù)庫(kù)。
①固定大?。寒a(chǎn)生0~(文件尺寸)之間的隨機(jī)序列,長(zhǎng)度與小塊數(shù)據(jù)的大小相等;從小到大地排列隨機(jī)數(shù)據(jù),得到字節(jié)所在的位置;將對(duì)應(yīng)的字節(jié)位置由原文件分割,并與順序序列的隨機(jī)數(shù)字節(jié)保存,作為一個(gè)小塊的數(shù)據(jù);將分割過(guò)的文件視為大量數(shù)據(jù)。
②不固定大小:自動(dòng)將文件的大小設(shè)置為隨機(jī)數(shù)范圍(1~10),隨后生成一組隨機(jī)數(shù),將此值作為抽取位置的增量,滿(mǎn)足隨機(jī)數(shù)的范圍。依次從固定的位置中抽取一個(gè)字節(jié),使該位置和隨機(jī)數(shù)一起獲得下個(gè)字節(jié)的位置,直到該位置比待上傳的數(shù)據(jù)小得多;再將相應(yīng)位置的字節(jié)從原始文件中分離出來(lái),并與順序序列的隨機(jī)數(shù)字排列合并,作為一個(gè)小塊的數(shù)據(jù),將原文件分割成大量的文件。
3.2分級(jí)加密模塊
根據(jù)醫(yī)療大數(shù)據(jù)特性,本分級(jí)加密模塊采用3種不同程度的加密算法,安全級(jí)別如下:
①低級(jí):基于TEA算法的加密機(jī)制,這種機(jī)制的安全程度相對(duì)比較低,但處理速度占非常大的優(yōu)勢(shì),適合隱私要求相對(duì)低的數(shù)據(jù)。
②中級(jí):基于數(shù)據(jù)染色的加密機(jī)制,安全性適中,計(jì)算難度遠(yuǎn)遠(yuǎn)低于傳統(tǒng)加密計(jì)算,適合隱私要求普通的數(shù)據(jù)。
③高級(jí):基于高度橢圓三角曲線(xiàn)數(shù)據(jù)加密的高級(jí)算法,應(yīng)用此加密算法時(shí)數(shù)據(jù)安全性最高,但數(shù)據(jù)處理速度有所減慢,適合對(duì)個(gè)人隱私極高安全要求的用戶(hù)數(shù)據(jù)處理[4]。
當(dāng)客戶(hù)端上傳文件時(shí),提取對(duì)應(yīng)的上傳文件分割成大量的數(shù)據(jù),分級(jí)加密模塊啟動(dòng)用戶(hù)的數(shù)據(jù)和選擇安全戰(zhàn)略,根據(jù)用戶(hù)的選擇使用相應(yīng)算法處理上傳數(shù)據(jù),并維護(hù)安全戰(zhàn)略映射表,保存與本地相對(duì)應(yīng)的參數(shù)。
在下載文件時(shí),當(dāng)密文被下載到本地后,分級(jí)加密模塊可快速查找文件、加密策略映射表、加密及解密文件生成大量數(shù)據(jù)。
加密過(guò)程中的加密算法基于本地小塊數(shù)據(jù)生成,通過(guò)對(duì)此項(xiàng)數(shù)據(jù)塊進(jìn)行Hash操作,生成128位數(shù)值作為T(mén)EA的密鑰。
4基于加密的隱私保護(hù)算法
4.1 TEA加密算法
TEA是一種小型分組對(duì)稱(chēng)加密算法,其明文密分組長(zhǎng)度64 bit,密鑰長(zhǎng)度128 bit。利用不斷增加的Delta值作為變化,使每輪加密迭代次數(shù)改變[5]。算法特征存在0x9e3779b9,核心加密算法,如下: