◆楊雄 張曉惠 劉暢
供應(yīng)鏈產(chǎn)品信息搜索系統(tǒng)中基于同態(tài)加密的隱私保護(hù)研究
◆楊雄 張曉惠通訊作者劉暢
(福州大學(xué)至誠(chéng)學(xué)院計(jì)算機(jī)工程系 福建 350002)
為了有效保障云計(jì)算環(huán)境下供應(yīng)鏈產(chǎn)品信息搜索系統(tǒng)中外包數(shù)據(jù)的安全性,提出一種基于全同態(tài)加密的關(guān)鍵詞搜索方案。該方案基于向量加密技術(shù)對(duì)文檔集合建立關(guān)鍵詞向量空間模型,進(jìn)而在加密域中計(jì)算搜索關(guān)鍵詞與文檔向量空間的相似度,從而實(shí)現(xiàn)信息搜索操作。方案利用加密算法的同態(tài)性,在整個(gè)搜索過(guò)程中第三方均無(wú)法獲取明文數(shù)據(jù),在一定程度上保護(hù)了數(shù)據(jù)隱私。仿真實(shí)驗(yàn)結(jié)果表明,該方案不僅能夠滿足效率需求,還能夠保證數(shù)據(jù)的安全性,滿足實(shí)際應(yīng)用的需求。
云計(jì)算;全同態(tài);向量加密;關(guān)鍵詞檢索
隨著云計(jì)算技術(shù)的發(fā)展,越來(lái)越多企業(yè)傾向于將他們的供應(yīng)鏈產(chǎn)品信息搜索系統(tǒng)部署在云端,并利用云端可擴(kuò)展的計(jì)算資源和存儲(chǔ)資源來(lái)計(jì)算和存儲(chǔ)他們的數(shù)據(jù)[1]。與此同時(shí),供應(yīng)鏈產(chǎn)品信息搜索系統(tǒng)中的隱私數(shù)據(jù)及數(shù)據(jù)計(jì)算也都交由云計(jì)算服務(wù)器來(lái)進(jìn)行,這就使得企業(yè)的商業(yè)秘密處于一種不可控狀態(tài),存在泄漏的風(fēng)險(xiǎn)。因此,保證云計(jì)算環(huán)境中隱私數(shù)據(jù)的安全性已成為亟待解決的問(wèn)題。
為了解決云計(jì)算環(huán)境中供應(yīng)鏈產(chǎn)品信息搜索系統(tǒng)數(shù)據(jù)的安全性,可先將文檔數(shù)據(jù)進(jìn)行加密,然后再上傳存儲(chǔ)在云服務(wù)器中。當(dāng)進(jìn)行搜索時(shí),需要先在云服務(wù)器中對(duì)密文文檔進(jìn)行解密然后再與關(guān)鍵詞進(jìn)行匹配,從而完成信息搜索操作[2]。伴隨著企業(yè)的發(fā)展,信息搜索系統(tǒng)中的數(shù)據(jù)不斷膨脹,隨之存儲(chǔ)于云服務(wù)器中的加密數(shù)據(jù)也逐步增加,就會(huì)導(dǎo)致對(duì)這些密文數(shù)據(jù)進(jìn)行搜索的效率大幅下降。因此,使用這種傳統(tǒng)加解密的方法會(huì)導(dǎo)致信息搜索系統(tǒng)在大數(shù)據(jù)背景下的搜索效率極低。
為解決上述問(wèn)題,本文提出一種基于TF-IDF[3]和VHE[4]的關(guān)鍵詞密文搜索方案。該方案首先使用TF-IDF對(duì)文檔數(shù)據(jù)集建立關(guān)鍵詞集,然后基于VHE方案建立密文向量空間,再根據(jù)搜索關(guān)鍵詞和密文文檔向量空間的余弦相似度計(jì)算來(lái)實(shí)現(xiàn)在服務(wù)器不可信場(chǎng)景下的密文信息搜索。
如圖1所示為部署在云端的供應(yīng)鏈產(chǎn)品信息搜索系統(tǒng),參與者包括:企業(yè)(數(shù)據(jù)擁有者)、云服務(wù)器和用戶。企業(yè)負(fù)責(zé)管理信息搜索信息中的密文文檔和分發(fā)相應(yīng)權(quán)限的密鑰給用戶。用戶取得權(quán)限密鑰后,就可以在信息搜索系統(tǒng)中通過(guò)關(guān)鍵詞搜索、下載所需的文檔。云服務(wù)器不僅負(fù)責(zé)存儲(chǔ)加密數(shù)據(jù),還根據(jù)用戶的需求在加密域中進(jìn)行關(guān)鍵詞和密文向量空間的相似度計(jì)算,并將相似度計(jì)算結(jié)果返回給用戶,同時(shí)還負(fù)責(zé)用戶的文檔下載需求。
圖1 云端供應(yīng)鏈產(chǎn)品信息搜索系統(tǒng)原型
具體的信息搜索過(guò)程實(shí)現(xiàn)步驟如下:
(1)系統(tǒng)初始化:數(shù)據(jù)擁有者(企業(yè))根據(jù)預(yù)置的參數(shù)生成全同態(tài)加密算法的公私鑰對(duì)(P,P)和AES對(duì)稱加密算法的密鑰。
(2)加密上傳數(shù)據(jù):數(shù)據(jù)擁有者(企業(yè))利用TF-IDF基于文檔集生成文檔向量,對(duì)每個(gè)文檔向量中的特征項(xiàng)集合使用公鑰P并使用VHE進(jìn)行同態(tài)加密,得到文檔向量空間密文D。同時(shí)對(duì)原數(shù)據(jù)文件使用AES加密得到D。最后,將D和D一起發(fā)送至云服務(wù)器存儲(chǔ)。數(shù)據(jù)擁有者加密上傳數(shù)據(jù)的流程如圖2所示。
(3)信息搜索:已獲得權(quán)限的用戶向數(shù)據(jù)擁有者申請(qǐng)得到同態(tài)加密公私鑰對(duì)(P,P)和AES密鑰。當(dāng)用戶進(jìn)行信息搜索時(shí),首先對(duì)搜索關(guān)鍵詞根據(jù)向量空間模型和TF-IDF算法生成搜索關(guān)鍵詞向量,并將其擴(kuò)充至與文檔向量一樣的維度,然后一樣使用同態(tài)公鑰P并使用VHE加密得到搜索關(guān)鍵詞向量Q,最后向云服務(wù)器發(fā)送Q執(zhí)行搜索請(qǐng)求。
(4)相似度計(jì)算:云服務(wù)器在接收到用戶的搜索請(qǐng)求后,計(jì)算搜索關(guān)鍵詞向量Q和密文向量空間D之間的余弦相似度,將計(jì)算出的文檔相似度結(jié)果返回給用戶。余弦相似度的結(jié)果為-1至1,相似度越接近于1則意味著搜索向量與文檔向量之間的相似程度越高。相似度高低作為搜索結(jié)果排序的重要依據(jù)。
(5)下載:用戶在收到云服務(wù)器的計(jì)算后果后,首先使用同態(tài)私鑰P對(duì)計(jì)算結(jié)果進(jìn)行解密、排序,得到與搜索關(guān)鍵詞匹配相似度從高到低的所有文檔編號(hào),再根據(jù)實(shí)際需求和文檔編號(hào)向服務(wù)器發(fā)送下載請(qǐng)求,最后再使用AES密鑰對(duì)密文文檔D進(jìn)行解密得到最終的明文搜索結(jié)果。
用戶進(jìn)行搜索和下載文件的流程如圖3所示。
圖2 數(shù)據(jù)擁有者加密上傳數(shù)據(jù)流程
圖3 用戶搜索和下載文件的流程
本文將全同態(tài)加密算法和文檔處理方法應(yīng)用于云計(jì)算環(huán)境下的供應(yīng)鏈產(chǎn)品信息搜索系統(tǒng)中,提出了基于TF-IDF和VHE的關(guān)鍵詞搜索方案,對(duì)文檔文件和搜索關(guān)鍵詞均進(jìn)行加密,利用同態(tài)加密的特點(diǎn),在加載域中進(jìn)行余弦相似度的計(jì)算,整個(gè)搜索過(guò)程均是在密文下進(jìn)行的,第三方無(wú)法獲取任何關(guān)于明文的內(nèi)容,安全性較高,可有效解決外包數(shù)據(jù)的安全性問(wèn)題,具有一定的實(shí)際應(yīng)用價(jià)值。
[1]蔡韻,吳毅堅(jiān),趙文耘.一種面向云平臺(tái)的軟件配置與生成技術(shù)[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(11):113-117+146.
[2]龐婷. 支持模糊匹配的云存儲(chǔ)加密數(shù)據(jù)去重復(fù)機(jī)制的研究[D].西安電子科技大學(xué),2017.
[3]張賢亮,張尤賽.基于TF-IDF算法的分層搜索引擎設(shè)計(jì)[J].計(jì)算機(jī)與數(shù)字工程,2021,49(03):456-461.
[4]楊雄,張曉惠.基于全同態(tài)加密的人臉特征密文認(rèn)證系統(tǒng)[J].微電子學(xué)與計(jì)算機(jī),2020,37(09):56-61.
2019年福建省教育廳青年基金項(xiàng)目(JAT191109);2019年福建省教育廳青年基金項(xiàng)目(JAT191098);福州大學(xué)至誠(chéng)學(xué)院2021年省級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(云計(jì)算環(huán)境下全同態(tài)加密的人臉信息保護(hù)系統(tǒng):S202113470007);福州大學(xué)至誠(chéng)學(xué)院2020年國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(基于微信小程序的至誠(chéng)學(xué)院智能查寢系統(tǒng):202013470004)