亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于計數(shù)型布隆過濾器的可排序密文檢索方法

2018-10-16 08:23:50相中啟

計算機應(yīng)用 2018年9期

李勇，相中啟

(1.曲靖師范學(xué)院信息工程學(xué)院，云南曲靖 655011； 2.上饒師范學(xué)院數(shù)學(xué)與計算機科學(xué)學(xué)院，江西上饒 334001)

0 引言

隨著云計算技術(shù)的日益推廣，越來越多的用戶選擇將本地數(shù)據(jù)外包給云服務(wù)器存儲，以獲取高質(zhì)量低成本的應(yīng)用服務(wù)。然而，近年來不斷暴發(fā)的信息安全事件，尤其是2016全球“勒索”病毒事件的出現(xiàn)，引起了互聯(lián)網(wǎng)用戶對云計算環(huán)境下數(shù)據(jù)隱私安全性的廣泛擔(dān)憂。因此，必須對數(shù)據(jù)進行加密處理，以密文的形式在云中存儲數(shù)據(jù)，防止隱私信息的泄漏。數(shù)據(jù)以密文的形式在云中存儲，改變了數(shù)據(jù)之間原有的特性和關(guān)聯(lián)，使得傳統(tǒng)基于明文的數(shù)據(jù)檢索方法不再有效。可搜索加密技術(shù)以密文的方式建立安全檢索索引和保存數(shù)據(jù)，直接在密文狀態(tài)下完成對數(shù)據(jù)的檢索，不會泄漏任何明文信息，被廣泛地應(yīng)用于云計算環(huán)境下對數(shù)據(jù)的隱私保護和密文檢索；但是，已有的可搜索加密方法存在數(shù)據(jù)查詢更新和刪除操作不方便、時間效率低、不支持對查詢結(jié)果按精確度進行排序等問題，因此，設(shè)計一種安全高效、操作方便、支持排序的密文檢索方法具有重要的理論意義和實用價值。

1 相關(guān)工作

可搜索加密技術(shù)起源于Song等于2000年在文獻[1]中提出的首個對稱可搜索加密(Symmetric Searchable Encryption, SSE)方案——基于密文掃描思想的對稱可搜索加密方案(Symmetric Searchable Encryption Scheme based on Ciphertext Scanning, SWP)，但該方案不支持文件檢索索引，而是采用對稱加密技術(shù)將文件劃分為“單詞”進行加密，算法的存儲開銷大、時間效率極低。此后，國內(nèi)外學(xué)者圍繞著如何提高可搜索加密算法的安全性、時間開銷、查詢精確度、可操作性等問題開展了大量的研究工作。2003年，Goh在文獻[2]中提出了基于索引的可搜索加密方案Z-DIX(Index-based Searchable Encryption Scheme)，相比SWP方案有較大提升，但是，當(dāng)檢索系統(tǒng)中的文件數(shù)目較多時，仍然需要耗費較長的檢索時間，效率較低。2006年，文獻[3]中，Curtmola等在Song等的基礎(chǔ)上，提出了SSE-1、SSE-2方案，進行文件檢索時，服務(wù)器只需要O(1)時間復(fù)雜度即可完成檢索操作，然而，在文件進行添加、刪除時，服務(wù)器需重新構(gòu)建索引以適應(yīng)更新狀態(tài)，索引維護開銷較大。針對文獻[3]中存在的索引維護開銷大、不支持文件動態(tài)更新的問題，文獻[4-6]對服務(wù)器中存放的密文文件的動態(tài)添加、更新或刪除操作進行了改進，提出了適合密文狀態(tài)下動態(tài)更新的算法。此外，對于如何提高密文檢索結(jié)果的精確度和排序問題，文獻[7]基于樹狀檢索結(jié)構(gòu)提出了改進算法，但該算法存儲開銷較大。文獻[8]為減小存儲空間開銷，基于二叉樹構(gòu)建了可排序文件檢索結(jié)構(gòu)。針對文獻[7-8]中存在的索引維護開銷大和時間性能低的問題，文獻[9]中，提出了一種基于計數(shù)型布隆過濾器的分布式文本檢索模型(Text Retrieval Model based on Counting Bloom Filter, CBFTRM)，但CBFTRM模型無法實現(xiàn)對查詢結(jié)果排序。文獻[10]提出了一種安全多關(guān)鍵詞密文排序檢索方案，但是該方案中對不同關(guān)鍵詞計算的相關(guān)性分數(shù)并不能有效地說明文件與關(guān)鍵詞之間的相關(guān)性高低，排序結(jié)果不夠精確。文獻[11]中首次提出了基于隱私保護的多關(guān)鍵詞模糊檢索方案，大幅提高了文件檢索效率和精確度。文獻[12]在文獻[11]的基礎(chǔ)上基于計數(shù)型布隆過濾器構(gòu)建索引向量，使用MinHash算法對關(guān)鍵詞降維，減少了索引構(gòu)建和查詢陷門生成時間，同時以計數(shù)型布隆過濾器索引向量的計數(shù)表示關(guān)鍵詞權(quán)重，對查詢結(jié)果排序，但是計數(shù)型布隆過濾器索引向量的計數(shù)并不能準(zhǔn)確地表示關(guān)鍵詞與文件間之間的關(guān)系，對查詢結(jié)果的排序并不準(zhǔn)確。

綜上所述，已有的可搜索加密技術(shù)方案在時間效率、檢索精確度、排序性能、索引更新能力等方面存在不足之處。為了對已有方案進行改進，本文基于計數(shù)型布隆過濾器提出一種適合云計算環(huán)境下的可排序密文檢索方法——基于計數(shù)型布隆過濾器的可排序密文檢索方法(Ciphertext Retrieval Ranking Method based on Counting Bloom Filter, CRRM-CBF)。首先，基于計數(shù)型布隆過濾器構(gòu)建安全檢索索引，以實現(xiàn)對密文數(shù)據(jù)的高效檢索和索引的動態(tài)更新功能；然后，使用文件集中關(guān)鍵詞在文件中的出現(xiàn)頻率構(gòu)建關(guān)鍵詞頻率矩陣；最后，使用詞頻逆文本頻率(Term Frequency-Inverse Document Frequency, TF-IDF)模型計算檢索關(guān)鍵詞與目標(biāo)文件的相關(guān)度分值，根據(jù)檢索關(guān)鍵詞與目標(biāo)文件的相關(guān)度分值來實現(xiàn)對文件檢索結(jié)果按精確度排序。

2 預(yù)備知識

2.1 計數(shù)型布隆過濾器

布隆過濾器(Bloom Filter, BF)起源1970年，由Burton Bloom在文獻[13]中首次提出，是一種高時空效率的數(shù)據(jù)結(jié)構(gòu)，由一個很長的二進制向量和一組相互獨立的哈希函數(shù)組成，主要用于判斷某一個元素是否在某一個集合中：若某一元素經(jīng)過一組相互獨立的哈希函數(shù)映射，輸出結(jié)果對應(yīng)于布隆過濾器中向量位置序列的值全為1，則可判斷該元素屬于集合；反之，只要任意相應(yīng)位置的取值不為1則可判斷該元素不屬于集合。BF只支持插入和查找操作，不支持刪除操作，是一種僅適合應(yīng)用于靜態(tài)集合中元素判斷的簡單數(shù)據(jù)結(jié)構(gòu)，對于動態(tài)集合中的元素判斷顯得無能為力。

計數(shù)型布隆過濾器(Counting Bloom Filter, CBF)[14]是一種在BF的基礎(chǔ)上進行改進的數(shù)據(jù)結(jié)構(gòu)，它的基本原理是，將BF向量中的每一位擴展成一個計數(shù)器(Counter)，插入元素時，如果有不同元素被r個哈希函數(shù)多次映射到同一位置，那么將對應(yīng)位置Counter的值加1，刪除元素時，將對應(yīng)位置Counter的值減1，CBF在BF的基礎(chǔ)上增加了刪除操作，支持集合中元素的動態(tài)更新，適用于動態(tài)集合中的元素判斷，如文件檢索、網(wǎng)頁去重等，BF與CBF的映射結(jié)構(gòu)如圖1所示。

圖1 BF與CBF映射結(jié)構(gòu)

2.2 TF-IDF模型

TF-IDF模型[15]是常用于信息檢索的一種加權(quán)統(tǒng)計方法，用于評價某一關(guān)鍵詞對于文件集合中的某一份文件的重要程度，由關(guān)鍵詞詞頻(Term Frequency, TF)和逆文檔頻率(Inverse Document Frequency, IDF)兩部分組成。其中，詞頻TF表示某關(guān)鍵詞在文件中出現(xiàn)的次數(shù)，定義為式(1)：

(1)

逆文檔頻率IDF表示某一關(guān)鍵詞在文件集合中的普遍性重要程度，通常用作關(guān)鍵詞的權(quán)重因子，定義為式(2)：

(2)

最后，TF-IDF模型以式(3)的值作為查詢關(guān)鍵詞與目標(biāo)文件的相關(guān)度分值，并從大到小排序，返回用戶最感興趣的top-p個目標(biāo)文件。

TF-IDF=TFij*IDFij

(3)

3 系統(tǒng)安全模型

云計算環(huán)境下可搜索加密系統(tǒng)的安全模型如圖2所示，由數(shù)據(jù)擁有者(Owner User, OU)、授權(quán)用戶(Authentication User, AU)、不可信云服務(wù)器(Cloud Server, CS)3部分組成。

1)數(shù)據(jù)擁有者：提取文件關(guān)鍵詞，構(gòu)建文件檢索索引，并將索引和文件加密外包給云服務(wù)器。

2)授權(quán)用戶：輸入查詢關(guān)鍵詞，生成查詢陷門發(fā)送給云服務(wù)器，獲取感興趣的top-p個目標(biāo)文件。

3)云服務(wù)器：根據(jù)密文索引和查詢陷門完成計算，給用戶返回感興趣的top-p個目標(biāo)文件，同時負責(zé)密文索引的更新。

由于云計算系統(tǒng)都是在遵守用戶數(shù)據(jù)托管和通信協(xié)議的基礎(chǔ)下進行工作的，本文認為，云計算系統(tǒng)中的服務(wù)器是一個“誠實而好奇”的半可信實體，即，云服務(wù)器不會刻意地惡意攻擊系統(tǒng)、泄漏用戶隱私、或與其他非授權(quán)用戶合謀攻擊系統(tǒng)，但卻會出于“好奇”而挖掘用戶數(shù)據(jù)和推送應(yīng)用服務(wù)、泄漏用戶隱私。因此，本文考慮選擇已知密文攻擊模型作為安全目標(biāo)，在云計算系統(tǒng)通信環(huán)境下，云服務(wù)器或其他未授權(quán)用戶不能獲取任何明文信息，數(shù)據(jù)擁有者上傳的文件集、安全檢索索引，授權(quán)用戶的查詢請求及查詢結(jié)果等都以密文的形式存在，攻擊者只能選擇唯密文攻擊。

圖2 云環(huán)境下可搜索加密系統(tǒng)安全模型

4 CRRM-CBF方法

云計算環(huán)境中數(shù)據(jù)檢索具有數(shù)據(jù)量大、用戶數(shù)量多、檢索更新操作頻繁等特點，已有的需要線性搜索時間來逐次匹配密文信息且需要大量對數(shù)運算的可搜索公鑰加密方法顯然是不合適的，已有的排序密文搜索算法雖然計算量小、速度高，但是也存在查詢精確度不高的問題[16]，因此，本文基于CBF提出一種可以實現(xiàn)精確密文排序的可排序密文檢索方法CRRM-CBF，下面詳細介紹CRRM-CBF方法的具體實現(xiàn)過程。

4.1 主要符號定義及說明

CRRM-CBF方法中所涉及到的一些主要符號定義及說明如下。

F：明文文件集合F=(F1,F2,…Fm)。

C：密文文件集合C=(C1,C2,…Cm)。

FID：集合F中對應(yīng)文件的標(biāo)識符集合FID=(FID1,FID2,…,FIDm)，這里的FID是數(shù)據(jù)擁有者自己為了區(qū)分發(fā)布的文件而隨機分配的一個標(biāo)識，不具有任何挖掘語義。

MID：集合F中對應(yīng)文件在云服務(wù)器中的存儲標(biāo)識符集MID=(MID1,MID2,…,MIDm)。

QID：與檢索關(guān)鍵詞相關(guān)聯(lián)的文件標(biāo)識符集合QID=(QID1,QID2,…,QIDm1),QID?FID。

W：所有文件關(guān)鍵詞構(gòu)成的集合W=(w1,w2,…,wn)，關(guān)鍵詞允許在文件中多次重復(fù)出現(xiàn)。

ψ：關(guān)鍵詞在文件中的出現(xiàn)頻率次數(shù)構(gòu)成的關(guān)鍵詞頻率矩陣。

I：將所有關(guān)鍵詞映射到CBF中，構(gòu)成的文件檢索索引向量。

M：擁有k位存儲空間的映射向量，其長度允許動態(tài)增加，存儲關(guān)鍵詞映射的取值。

Cψ：關(guān)鍵詞頻率矩陣密文。

CI：文件檢索索引的密文形式，即安全索引。

Qw：檢索關(guān)鍵詞。

Q：檢索關(guān)鍵詞向量。

TQ：檢索陷門。

4.2 具體實現(xiàn)過程

CRRM-CBF方法的具體實現(xiàn)過程主要包括：

步驟1 Initial()初始化操作。數(shù)據(jù)擁有者OU從集合F中提取每個文件的關(guān)鍵詞，得到關(guān)鍵詞集合W，并對關(guān)鍵詞進行向量化處理。

步驟2 Preproc()預(yù)處理操作。數(shù)據(jù)擁有者OU統(tǒng)計各關(guān)鍵詞在文件中的出現(xiàn)次數(shù)記為ψij，表示關(guān)鍵詞wj在文件Fi中的出現(xiàn)次數(shù)，并以ψij值構(gòu)造如(4)所示的關(guān)鍵詞頻率矩陣ψ。

(4)

在ψ的基礎(chǔ)上，計算集合F中各文件Fi中包含的關(guān)鍵詞數(shù)并記為NFi,wj，以及集合F中包含有關(guān)鍵詞wj的文件數(shù)并記為Nwj,F，其中，NFi,wj的計算公式如(5)所示，Nwj,F的計算公式如(6)所示:

(5)

Nwj,F={Nwj,Fi-1+1,i=i-1|ψij≠0,i=m,j=1,2,…,n|}

(6)

步驟3 BuildIndex_I()、CreatLink()構(gòu)建文件檢索索引、關(guān)鍵詞與文件的關(guān)聯(lián)鏈表。數(shù)據(jù)擁有者OU先將W中的每個關(guān)鍵詞使用r個相互獨立的值域為[0,k-1)整數(shù)的哈希函數(shù)映射到CBF中的M向量，以此作為文件檢索索引。然后將索引向量中M[k]位置的計數(shù)器Counter擴展成如圖3所示的鏈表頭Link.head={M[k]，Next}，并在表頭的后面插入元素Link.element={FID，Next}，插入的元素即為與M[k]位置上關(guān)鍵詞相符的文件標(biāo)識符，Next為指向下一個元素的指針，尾部元素的Next指針指向Null。最后，得到文件檢索索引I和關(guān)鍵詞與文件的關(guān)聯(lián)鏈表，其結(jié)構(gòu)如圖3所示。

圖3 關(guān)鍵詞檢索索引結(jié)構(gòu)

步驟4 KenGen(k，n)產(chǎn)生安全密鑰。數(shù)據(jù)擁有者OU輸入安全參數(shù)k、n，使用概率密鑰生成算法生成安全密鑰sk=(M1,M2,M3,S,Pplu)，并使用秘密通道將安全密鑰sk發(fā)給授權(quán)用戶，這里的秘密通道指采用Kerberos協(xié)議來完成對授權(quán)用戶的身份認證和密鑰分發(fā)，其中M1、M2為k階隨機可逆矩陣，M3為n階隨機可逆矩陣，S=(0,1)k為k位二元向量，Pplu為一個秘密的大素數(shù)。

步驟5 Enc(F,ψ,I,sk)加密。數(shù)據(jù)擁有者OU使用安全密鑰sk對文件集F、詞頻矩陣ψ、文件檢索索引I加密，同時使用MD5函數(shù)計算每個文件在云服務(wù)器CS中的存儲標(biāo)識符MIDi=MD5(FIDi)，最后，將得到的文件集密文C、詞頻矩陣密文Cψ、安全索引CI、存儲標(biāo)識符MID一起上傳云服務(wù)器CS。

(7)

(8)

其中：ψ的加密過程如式(7)，I的加密過程如式(8)，I′、I″為I分解出來的兩個子向量，詳細的分解過程參考文獻[12]中的運算規(guī)則進行?？紤]到高級加密標(biāo)準(zhǔn)(Advanced Encryption Standard, AES)對稱加密運算速率快、安全級別高，適合于加密大規(guī)模文件集，本文使用AES加密算法和密鑰Pplu對F加密得到密文文件C。

步驟6 Trap(Q,sk)產(chǎn)生檢索陷門，授權(quán)用戶AU輸入文件檢索關(guān)鍵詞Qw=(w1,w2,…,wj)，并使用步驟3中的同一組哈希函數(shù)將查詢關(guān)鍵詞映射到CBF中的M向量，得到檢索向量Q。然后再采用步驟5相似的方法，使用安全密鑰加密檢索向量，輸出得到檢索陷門TQ，文件檢索陷門的生成公式如式(9)，最后，將檢索陷門TQ發(fā)往云服務(wù)器CS。

(9)

步驟7 Ranking_Search(CI,Cψ,TQ)。密文檢索與排序的詳細過程如下:

1)云服務(wù)器CS收到授權(quán)用戶AU的檢索陷門后，首先進行安全索引CI與TQ之間的內(nèi)積運算，以檢索與查詢關(guān)鍵詞相符的目標(biāo)文件，詳細計算過程[11-12]如下。

I′T·Q′+I″T·Q″=IT·Q

根據(jù)上式文件檢索的計算結(jié)果，從關(guān)鍵詞與文件的關(guān)聯(lián)鏈表中找到與檢索向量中關(guān)鍵詞相符的文件標(biāo)識符集QID，并將QID發(fā)送給授權(quán)用戶AU。

(10)

3)授權(quán)用戶AU根據(jù)關(guān)鍵詞頻率矩陣ψ，使用式(1)～(6)讀取并計算檢索關(guān)鍵詞的TF-IDF值，以此TF-IDF值作為區(qū)分QID中目標(biāo)文件的相關(guān)度分值，并根據(jù)這個相關(guān)度分值從大到小對QID中的文件排序，返回授權(quán)用戶AU感興趣的前top-p個有序的目標(biāo)文件的標(biāo)識符。

4)授權(quán)用戶AU使用相同的MD5函數(shù)計算top-p個目標(biāo)文件的MD5[top-p(QID)]值，并將MD5[top-p(QID)]的值依次發(fā)送至云服務(wù)器CS。

5)云服務(wù)器CS收到MD5[top-p(QID)]值后，根據(jù)MID值依次按順序?qū)中的top-p個密文目標(biāo)文件發(fā)送給授權(quán)用戶AU，最后，授權(quán)用戶AU使用相同的解密算法AES和解密密鑰Pplu對前top-p個密文目標(biāo)文件解密，還原得到排序的明文目標(biāo)文件，完成整個通信過程。

5 性能分析

5.1 安全性分析

針對有關(guān)文件檢索索引、檢索陷門、關(guān)鍵詞頻率矩陣的安全性保護問題，本文借鑒了文獻[11-12]中的做法，隨機生成了可逆矩陣M1、M2、M3，二元向量S，對文件檢索索引向量、關(guān)鍵詞檢索向量及關(guān)鍵詞頻率矩陣進行加密，由于密鑰矩陣的空間是無窮大的，每次隨機產(chǎn)生的密鑰矩陣只有唯一的一個可逆矩陣，未授權(quán)用戶想要正確偽造密鑰矩陣生成檢索陷門、解密關(guān)鍵詞頻率矩陣的可能性為0，有效保證了文件檢索索引、檢索陷門、關(guān)鍵詞頻率矩陣的安全性；同時，為了保證不會因關(guān)聯(lián)檢索陷門的泄漏而泄漏隱私信息，本文還使用二元向量S對索引向量I進行分裂運算，針對同一個檢索向量產(chǎn)生兩個完全不同的陷門，保證了陷門的無關(guān)聯(lián)性。最后，在文件隱私和密鑰管理的安全性保護方面，本文分別使用AES對稱加密算法和Kerberos協(xié)議來完成對文件集的加密和密鑰的管理，有效保證了文件集和密鑰的安全性，其中AES算法和Kerberos協(xié)議的安全性在許多文獻已有詳細的證明，本文在此不再敘述。綜上所述，在保證密鑰sk不被人為泄漏的前提下，CRRM-CBF方法針對已知密文攻擊模型是安全的。

5.2 可更新能力分析

5.3 可排序能力分析

針對CBF構(gòu)建索引不帶語義功能，不能實現(xiàn)對文件檢索結(jié)果排序的問題，本文在CBF索引的基礎(chǔ)上引入了關(guān)鍵詞文件關(guān)聯(lián)鏈表和關(guān)鍵詞頻率矩陣ψ，AU首先通過CBF索引判斷檢索關(guān)鍵詞是否屬于關(guān)鍵詞集W，若屬于，則在關(guān)鍵詞文件關(guān)聯(lián)鏈表中找到與檢索關(guān)鍵詞相關(guān)聯(lián)的目標(biāo)文件FID，再通過FID在關(guān)鍵詞頻率矩陣ψ中讀取檢索關(guān)鍵詞的出現(xiàn)頻率，使用TF-IDF模型統(tǒng)計計算檢索關(guān)鍵詞對目標(biāo)文件區(qū)分能力的相關(guān)度分值，最后，就可以按相關(guān)度分值對文件檢索結(jié)果實現(xiàn)排序，并且，查找鏈表和詞頻矩陣兩次比對過程還可以消除CBF索引的假陽性概率。

5.4 效率分析

為了較好地評測CRRM-CBF方法在文件檢索時的時間開銷、檢索精確度方面的性能。本文以安然公司郵件數(shù)據(jù)集(Enron Email Dataset, EED)作為實驗真實數(shù)據(jù)集[17]，從中隨機選取文件，基于Java程序設(shè)計語言，使用開源開發(fā)環(huán)境Apache-tomcat-7.0.23、MyEclipse2014、JDK1.7，開源分詞器MMSEG4J來實現(xiàn)方案，并在Intel Core i5-3230 2.60 GHz雙核心CPU、2.0 GB RAM內(nèi)存、Windows 7 64位操作系統(tǒng)平臺上進行實驗測試。

5.4.1 檢索時間開銷

文件檢索的時間開銷主要受文件集的規(guī)模、文件檢索索引的效率、檢索陷門的生成時間、檢索結(jié)果的排序機制影響，可以較全面地衡量一種可排序密文檢索方案的整體性能，也是衡量系統(tǒng)服務(wù)質(zhì)量的一項重要性能指標(biāo)。為了較客觀地評價本文CRRM-CBF方法與文獻[11-12]中方法在文件檢索時間方面的性能，本文分別以CRRM-CBF方法、文獻[11-12]中方法構(gòu)建文件檢索索引和檢索陷門進行測試。1)實驗設(shè)定輸入10個檢索關(guān)鍵詞、返回top-10個結(jié)果為目標(biāo)文件，隨機從數(shù)據(jù)集中選取100、200、300、400、500、600、700、800、900、1 000個文件進行文件檢索測試，實驗測得文件檢索的時間開銷如圖4(a)所示。2)實驗設(shè)定分別輸入1、5、10、15、20、25、30個檢索關(guān)鍵詞、返回top-10個結(jié)果為目標(biāo)文件，在1 000個文件中進行文件檢索測試，實驗測得文件檢索的時間開銷如圖4(b)所示。

圖4 3種方法文件檢索時間開銷比較

圖4(a)顯示，用10個關(guān)鍵詞為輸入在不同文件集規(guī)模下進行文件檢索的時間開銷結(jié)果為，文獻[12]中方法最低，本文方法接近于文獻[11]中方法；圖4(b)顯示，在文件數(shù)為1 000檢索關(guān)鍵詞數(shù)不同的情況下文件檢索的時間開銷結(jié)果為，在檢索關(guān)鍵詞數(shù)量小于5個的情況下，本文方法接近于文獻[12]方法而略優(yōu)于文獻[11]中方法，隨著關(guān)鍵詞數(shù)量的增加，本文方法基本接近于文獻[11]中方法而漸差于文獻[12]中方法,主要原因是，3種方法的索引建立和陷門生成機制都基本相同，不同的是，文獻[12]使用了MinHash算法對關(guān)鍵詞進行了降維處理，生成文件索引時需要的哈希函數(shù)運算次數(shù)較少，減少了構(gòu)建文件檢索索引的時間開銷，但對比圖4(a)與圖4(b)中的結(jié)果發(fā)現(xiàn)，這種降維處理的效果在少量關(guān)鍵詞檢索時的時間開銷優(yōu)勢并不明顯。文獻[11]中方法相比本文方法雖然少了對檢索結(jié)果排序的時間開銷，但在構(gòu)建索引時卻多了相似度計算的時間開銷，而本文方法的排序只是對常數(shù)項關(guān)聯(lián)文件和精確詞頻的讀取與計算，其算法時間復(fù)雜度為O(1)，當(dāng)關(guān)鍵詞數(shù)量較少時，檢索結(jié)果中與關(guān)鍵詞相關(guān)聯(lián)的文件并不多，也就是說，詞頻讀取與計算的時間開銷并不大。因此，總體上來講，本文方法的文件檢索時間開銷是較小的。

5.4.2 檢索精確度

查詢精確度是衡量密文檢索系統(tǒng)服務(wù)質(zhì)量的另一項重要性能指標(biāo)，為了客觀地測評本文方法與文獻[11-12]中方法在文件檢索精確度方面的性能，實驗設(shè)定從數(shù)據(jù)集中隨機選取1 000個文件、輸入10個檢索關(guān)鍵詞、返回top-10個結(jié)果作為目標(biāo)文件，測試在返回的top-10個結(jié)果中關(guān)鍵詞的相關(guān)度分值，以此衡量文件檢索結(jié)果的精確度，測試結(jié)果如圖5所示，相關(guān)度分值越高，表明檢索結(jié)果越精確。圖5中結(jié)果顯示，本文方法檢索精確度最高，而文獻[11]中方法最低，其主要原因是，文獻[12]僅以索引向量的計數(shù)為關(guān)鍵詞權(quán)重建立排序機制，其排序精確度受假陽性概率影響，所以排序精確度偏低，本文方法則建立精確的詞頻矩陣，依據(jù)詞頻矩陣來計算文件檢索關(guān)鍵詞區(qū)分目標(biāo)文件的相關(guān)度分值相對文獻[12]來講更加精確可靠。最后，文獻[11]中由于沒有建立有效的排序機制，所以精確度最低。

圖5 3種方法文件檢索精確度比較

6 結(jié)語

本文基于計數(shù)型布隆過濾器提出了一種適用于云計算環(huán)境下密文檢索和排序的方法CRRM-CBF。通過構(gòu)建CBF索引向量，實現(xiàn)了文件的密文檢索和索引的動態(tài)更新，同時，考慮到CBF構(gòu)建的索引向量本身不帶語義功能，不能實現(xiàn)對目標(biāo)文件的精確排序功能，文中引入了詞頻矩陣和TF-IDF模型計算關(guān)鍵詞區(qū)分文件能力的相關(guān)度分值，有效地實現(xiàn)了對目標(biāo)文件的排序功能。最后，從理論上對方法的安全性能力、可更新能力和可排序能力進行了分析，通過實驗測試分析了方法的文件檢索時間開銷和檢索精確度，證明了方法的可行性和有效性，但不足之處是，本文方法在實現(xiàn)排序的過程中，由于引入了詞頻矩陣和文件關(guān)聯(lián)鏈表，增加了存儲空間和索引更新開銷，因此，下一步的研究方向是進一步減少存儲空間和索引更新開銷。