武警工程大學(xué)信息工程系 李昊宇
一種基于多屬性關(guān)鍵詞的密文檢索方案
武警工程大學(xué)信息工程系 李昊宇
對(duì)外包數(shù)據(jù)進(jìn)行加密保護(hù)使得傳統(tǒng)查詢機(jī)制失效。針對(duì)目前密文查詢速度慢、準(zhǔn)確率不高的問題,提出一種基于多屬性關(guān)鍵詞的密文查詢方案。該方案通過多屬性特征向量建立安全索引,根據(jù)用戶選擇的排序方式及輸入的多關(guān)鍵詞進(jìn)行相關(guān)性計(jì)算,返回相關(guān)度最高的已排序查詢結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方案提高了查詢速度和查詢結(jié)果的準(zhǔn)確性。
云計(jì)算;密文檢索;多屬性關(guān)鍵詞
越來越多的機(jī)構(gòu)將數(shù)據(jù)存放在云端,由云服務(wù)商保存管理。數(shù)據(jù)的安全性受到關(guān)注,云數(shù)據(jù)脫離用戶控制,極易受到網(wǎng)絡(luò)攻擊。前端加密是解決上述威脅的方法之一[1]。但加密上傳使得傳統(tǒng)的檢索機(jī)制失效,如何對(duì)加密數(shù)據(jù)進(jìn)行快速高效檢索成為重要的挑戰(zhàn)。目前大多數(shù)密文查詢方案都僅從關(guān)鍵詞或?qū)傩缘葐我环矫孢M(jìn)行研究,很難適用于云環(huán)境中。
近些年針對(duì)密文查詢提出了很多方法,Song等人[2]首次提出基于對(duì)稱密鑰的單關(guān)鍵詞密文檢索方法,Wang等人[3]實(shí)現(xiàn)了結(jié)果排序的密文檢索方法,Cao等人[4]提出基于多關(guān)鍵詞的密文查詢方法,并實(shí)現(xiàn)了排序功能。但現(xiàn)有的方法大多不能滿足云環(huán)境下的高效查詢要求,本文提出基于多屬性關(guān)鍵詞的檢索方案提高了查詢速度。
2.1 選擇關(guān)鍵詞
輸入文檔,將文檔中的分離詞語,形成集合,再通過計(jì)算出現(xiàn)頻次等方法對(duì)結(jié)果進(jìn)行處理,提取出可準(zhǔn)確反映語義的關(guān)鍵詞。
本文采用IF-IWF[5](Term Frequency-Inverse Word Frequency)算法提取關(guān)鍵詞,處理完成后得到關(guān)鍵詞集合。
2.2 提取多屬性特征向量
具體方法是根據(jù)選擇關(guān)鍵詞的集合確定局部和全局屬性,再形成多屬性的特征向量。
首先在客戶端提取局部屬性的特征向量。實(shí)例將關(guān)鍵詞權(quán)值和關(guān)鍵詞出現(xiàn)位置作為局部屬性。
(1)關(guān)鍵詞權(quán)值:采用TF-IDF算法[6]。
(2)位置權(quán)值:關(guān)鍵詞在標(biāo)題出現(xiàn)的頻次最高,而在其他位置出現(xiàn)頻次較低。
提取文檔的全局屬性特征向量。將下載次數(shù)和被引次數(shù)作為全局屬性,它們從整體上反映出文檔的屬性。
2.3 對(duì)稱加密
對(duì)稱加密算法效率較高,可滿足一般用戶對(duì)安全性的要求。局部屬性的特征向量中只有關(guān)鍵詞部分會(huì)泄露信息,采用Trapdoor算法對(duì)其進(jìn)行加密,最后將加密文檔和加密局部屬性特征向量上傳至云服務(wù)器端存儲(chǔ)。
2.4 生成安全索引
根據(jù)關(guān)鍵詞的多屬性特征向量建立索引,再根據(jù)文檔編號(hào)和多屬性特征向量建立密文倒排索引。
2.5 密文檢索及排序
用戶輸入關(guān)鍵詞進(jìn)行檢索,服務(wù)器收到用戶查詢請(qǐng)求后,列出初步檢索結(jié)果。然后按照排序方式優(yōu)化結(jié)果,返回最終結(jié)果。
隨機(jī)抽取100篇文章,對(duì)單屬性與多屬性查詢時(shí)間進(jìn)行對(duì)比。輸入相同關(guān)鍵詞在單屬性和多屬性密文查詢系統(tǒng)下查詢。
圖1 查詢時(shí)間對(duì)比圖
從圖1可以看出,在相同文章數(shù)量下,多屬性密文查詢方案的時(shí)間遠(yuǎn)低于單屬性查詢方案的時(shí)間。
本文提出一種基于多屬性關(guān)鍵詞的密文查詢方案,實(shí)驗(yàn)表明該方案能有效提高查詢速度和結(jié)果的準(zhǔn)確性。下一步將對(duì)如何減少通信代價(jià)展開研究。
[1]Kamara S,Lauter K.Cryptographic Cloud Storage[J].Financial Cryptography & Data Security, 2010:136-149.
[2]Dawn Xiaodong Song David Wagner Song David Adrian Perrig. Practical Techniques for Searches On Encrypted Data[J]. IEEE Symposium on Security & Privacy,2000:0044.
[3]Wang C,Cao N,Li J,et al.Secure Ranked Keyword Search over Encrypted Cloud Data[C]//IEEE International Conference on Distributed Computing Systems,2010:253-262.
[4]Cao N,Wang C,Li M,et al.Privacy-Preserving Multi-Keyword Ranked Search over Encrypted Cloud Data[J].Parallel & Distributed Systems IEEE Transactions on,2011,25(1):829-837.
[5]王小林,楊林,王東等.改進(jìn)的TF-IDF關(guān)鍵詞提取方法[J]. Computer Sciences&sapplication,2013.
[6]Salton G,Buckley C.Buckley,C.:Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24(5), 513-523[J].Information Processing & Management,1988, 24(5):513-523.
CiphertextRetrieval Scheme based on Multi-attribute Keywords
LI Haoyu
(Department of Information Engineering,Engineering College of the Chinese Armed Police Force, Xi’an,Shaanxi,710086)
Users encrypt their data before outsourcing to protect their data privacy makes the traditional query method failure. Aiming at the problem of slow query speed and low accuracy of ciphertext query under cloud environment, a ciphertext query method based on multi-attribute keywords is proposed. The method establishes security index through multi-attribute characteristic vector, it conducts correlation calculation according to the sort order selected by users and multikeyword, and returns the most relevant sorted query result. Research result shows that the method improves query speed and accuracy of query result.
Cloud Computing; Ciphertext search; Multi-attribute Keywords
李昊宇(1993—),男,陜西渭南人,碩士在讀,研究方向:云計(jì)算安全。