亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題模型的多關(guān)鍵詞搜索加密方法

        2019-08-27 08:41:50王文濤馬永東王銀款
        關(guān)鍵詞:模型

        王文濤, 馬永東, 王銀款

        (1.東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 201620; 2.上海航天控制技術(shù)研究所, 上海 201109)

        0 引 言

        目前,云存儲(chǔ)的廣泛應(yīng)用給互聯(lián)網(wǎng)用戶提供了靈活的數(shù)據(jù)外包服務(wù).但是,將數(shù)據(jù)外包給云服務(wù)器,數(shù)據(jù)擁有者則會(huì)失去對(duì)數(shù)據(jù)的絕對(duì)控制權(quán),而云服務(wù)器可能也會(huì)受到數(shù)據(jù)泄漏及硬件故障等威脅[1].為了數(shù)據(jù)的安全,加密技術(shù)得到廣泛使用:一方面,加密數(shù)據(jù)使數(shù)據(jù)得到了保護(hù),但另一方面也給數(shù)據(jù)搜索帶來(lái)了挑戰(zhàn).為了解決這個(gè)問(wèn)題,研究人員提出了一系列相關(guān)解決方案[2-11].雖然這些方案提供了不同功能的搜索加密方案,但仍存在一定的局限性.首先,現(xiàn)有的可搜索加密方案中,大多數(shù)方案沒(méi)有考慮到文本提取中關(guān)鍵詞的重要性,都只是將關(guān)鍵詞進(jìn)行簡(jiǎn)單提取,并沒(méi)有考慮不同關(guān)鍵詞在文本中的重要性也是不同的.其次,部分方案僅考慮了關(guān)鍵詞詞頻關(guān)系,沒(méi)有考慮到不同主題下關(guān)鍵詞的重要性也是不同的.基于此,本研究提出了提高檢索效率的多關(guān)鍵詞排序搜索方案:首先,給出了基于主題模型的關(guān)鍵詞提取算法以增加檢索的準(zhǔn)確性,該算法基于文檔關(guān)鍵詞建立主題模型,得出文檔主題;其次,利用TextRank算法[12-13]計(jì)算每個(gè)關(guān)鍵詞在不同主題下的權(quán)重值,并根據(jù)文檔主題分布,得到最終關(guān)鍵詞權(quán)重排序,選出若干關(guān)鍵詞作為文檔的關(guān)鍵詞;為了解決關(guān)鍵詞同義關(guān)系,采用Stemming算法[14]獲取關(guān)鍵詞的詞根,還可以查詢具有相同詞根的關(guān)鍵詞.通過(guò)實(shí)驗(yàn)測(cè)試結(jié)果表明,本研究提出的方案比相關(guān)文獻(xiàn)中現(xiàn)有的方案具有更高的效率.

        1 基本概念

        1.1 系統(tǒng)模型

        本研究的模型系統(tǒng)基于文獻(xiàn)[7]建立(見(jiàn)圖1),主要分為3個(gè)主體:數(shù)據(jù)擁有者、搜索用戶和云服務(wù)器.其中,數(shù)據(jù)擁有者首先將文檔集合以加密的形式外包給云服務(wù)器,為了便于對(duì)密文進(jìn)行搜索,在外包之前對(duì)文檔進(jìn)行關(guān)鍵詞提取,并建立倒排索引,然后將倒排索引加密上傳至云服務(wù)器.為了下載感興趣的文件,搜索用戶將感興趣的查詢關(guān)鍵詞進(jìn)行加密,并將加密查詢發(fā)送給云服務(wù)器.云服務(wù)器通過(guò)計(jì)算加密查詢和加密倒排索引之間的相關(guān)性結(jié)果來(lái)搜索加密文檔,然后將前(top-k)個(gè)密文文檔返回給搜索用戶.最后,搜索用戶使用密鑰對(duì)密文文檔進(jìn)行解密.此過(guò)程中,云服務(wù)器不知道相關(guān)查詢關(guān)鍵詞的任何敏感信息或文檔內(nèi)容.

        圖1系統(tǒng)模型示意圖

        1.2 威脅模型

        本研究同樣利用文獻(xiàn)[7]的威脅模型,即假設(shè)云服務(wù)器是“誠(chéng)實(shí)且好奇的”,它會(huì)“誠(chéng)實(shí)地”根據(jù)指定協(xié)議存儲(chǔ)數(shù)據(jù),但又對(duì)存儲(chǔ)的數(shù)據(jù)“感興趣”,并通過(guò)推斷或分析來(lái)獲取數(shù)據(jù)信息.同時(shí),本模型主要針對(duì)兩種不同攻擊能力的威脅.

        1)已知密文模型.該模型中,假設(shè)云服務(wù)器僅知道數(shù)據(jù)擁有者上傳的加密文檔集C和安全索引I.

        2)已知背景模型.云服務(wù)器可以知道比已知密文模型更多的信息,例如陷門的相互關(guān)系和其他統(tǒng)計(jì)信息等.云服務(wù)器可以通過(guò)規(guī)模分析來(lái)推斷關(guān)鍵詞的特定信息,進(jìn)而識(shí)別出查詢中的關(guān)鍵詞.

        1.3 相關(guān)概念

        在方案中,本研究應(yīng)用如下相關(guān)概念:

        1)隱含狄利克雷分布(Latent dirichlet allocation,LDA)主題模型.該模型是一種離散數(shù)據(jù)集上的完全生成概率模型[12],其思路是:假設(shè)數(shù)據(jù)集存在K個(gè)獨(dú)立的隱含主題,在LDA主題模型中,每個(gè)文檔d的關(guān)鍵詞w通過(guò)文檔主題分布θ(d)采樣生成主題z,然后從以主題z為特征的關(guān)鍵詞分布φ(z)中采樣生成關(guān)鍵詞w,其中φ(d)和φ(z)分別由狄利克雷分布α和β生成,則文檔d中隨機(jī)變量θ、z和w的聯(lián)合分布為,

        (1)

        2)TextRank算法.該算法是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法,使用基于圖的排序方法,其中每個(gè)單詞表示頂點(diǎn),而加權(quán)邊表示頂點(diǎn)之間的相似度[13].TextRank算法完全基于單詞出現(xiàn)頻率,并且不需要任何先前的語(yǔ)法知識(shí).

        3)Stemming算法.該算法是語(yǔ)言規(guī)范化的過(guò)程,其中詞的變體形式簡(jiǎn)化為通用形式[14].例如,詞干分析器基于詞干“search”識(shí)別“searchable”和“searched”,基于詞干“fish”識(shí)別“fisher”和“fished”等.

        2 具體方案

        2.1 關(guān)鍵詞提取算法

        為區(qū)分文檔中關(guān)鍵詞之間的重要性,本研究提出了一種基于文本主題的關(guān)鍵詞提取算法:先將傳統(tǒng)的TextRank分解為不同主題下的多個(gè)TextRank,并根據(jù)TextRank算法獲取不同主題下的關(guān)鍵詞的權(quán)值;然后根據(jù)文檔主題分布進(jìn)一步提取關(guān)鍵詞.算法主要包括:構(gòu)建主題解析器以獲取關(guān)鍵詞與文檔的主題;執(zhí)行算法來(lái)提取關(guān)鍵詞.

        2.1.1 構(gòu)建主題解析器.

        本研究采用LDA主題模型算法從文檔集中獲取關(guān)鍵詞主題,其能夠獲得每個(gè)關(guān)鍵詞w的主題分布.關(guān)鍵詞的主題分布將用于關(guān)鍵詞提取,也用于整合不同主題下的關(guān)鍵詞.

        2.1.2 基于主題模型的關(guān)鍵詞提取.

        基于主題模型的關(guān)鍵詞提取的流程包括三個(gè)部分.

        1)根據(jù)文檔中關(guān)鍵詞之間的共現(xiàn)關(guān)系來(lái)構(gòu)造關(guān)鍵詞圖.文檔被看作一個(gè)關(guān)鍵詞序列,而邊的權(quán)重被設(shè)定為關(guān)鍵詞之間在長(zhǎng)度為K的滑動(dòng)窗口中的共現(xiàn)數(shù).G=(V,E)表示文檔的圖結(jié)構(gòu),其中,頂點(diǎn)表示為V={w1,w2,…,wn},邊(wi,wj)表示從關(guān)鍵詞wi到關(guān)鍵詞wj的連接,邊的權(quán)重表示為e(wi,wj),定點(diǎn)wi的出度表示O(wi)=∑j:wi→wje(wi,wj).

        2)利用TextRank算法來(lái)計(jì)算不同主題下的關(guān)鍵詞權(quán)重值.TextRank算法由PageRank算法改進(jìn)而來(lái),主要考慮關(guān)鍵詞權(quán)重.在TextRank算法中,關(guān)鍵詞wi的權(quán)重W(wi)表示為,

        (2)

        其中,d表示范圍在0~1間的阻尼系數(shù).

        式(2)表示每個(gè)節(jié)點(diǎn)有d的概率跳轉(zhuǎn)到該頂點(diǎn),有(1-d)的概率跳轉(zhuǎn)到其他頂點(diǎn).(1-d)表示隨機(jī)跳轉(zhuǎn),若值為常數(shù)1,則表示頂點(diǎn)wj等可能地跳轉(zhuǎn)到其他頂點(diǎn).而本研究所提出的基于主題的關(guān)鍵詞提取算法視隨機(jī)跳轉(zhuǎn)不是等可能的,這是因?yàn)樵诓煌黝}下,關(guān)鍵詞的TextRank權(quán)重可能會(huì)更加偏好于對(duì)應(yīng)的主題.因此,對(duì)于特定主題,本研究提出了改進(jìn)的TextRank算法,設(shè)置隨機(jī)跳轉(zhuǎn)概率為特定主題偏好值Pz(wk),其中∑wk∈wPz(wk)=1.此時(shí),與主題密切相關(guān)的關(guān)鍵詞將賦予更大的權(quán)值.主題z中,特定主題的關(guān)鍵詞wi的權(quán)重表示為,

        W(wi)=(1-d)Pz(wk)+

        (3)

        3)通過(guò)文檔主題分布,對(duì)不同主題下的關(guān)鍵詞進(jìn)行整合排序,并選出權(quán)重值最高的若干關(guān)鍵詞作為文檔關(guān)鍵詞.

        2.2 多關(guān)鍵詞搜索方案

        本研究在文獻(xiàn)[7]的基礎(chǔ)上提出了改進(jìn)的基于主題模型的多關(guān)鍵詞排序搜索方案,其關(guān)鍵函數(shù)介紹如下:

        1)KeyExtend(F).給定文檔集F,對(duì)文檔集進(jìn)行分詞,并使用Porter詞干算法將具有相同詞根的關(guān)鍵詞表示為同一形式,利用關(guān)鍵詞提取算法選出文檔關(guān)鍵詞w,并構(gòu)成關(guān)鍵詞集合W={w1,w2,…,wn};然后,將關(guān)鍵詞集合轉(zhuǎn)換成(n+u+1)維的文檔倒排索引向量I,其中對(duì)應(yīng)維上的值為關(guān)鍵詞權(quán)重W,u是插入的虛擬關(guān)鍵詞的數(shù)量,(n+u+1)維設(shè)置為1.

        2)KeyGen(n).數(shù)據(jù)所有者隨機(jī)生成安全密鑰SK(M1,M2,S),其中,M1,M2∈R(n+u+1)×(n+u+1)為可逆矩陣,S∈{0,1}n+u+1為一個(gè)向量.

        4)BuildIndexTree(I).在搜索過(guò)程中,云服務(wù)器必須搜索數(shù)據(jù)集的每個(gè)文檔索引,如果數(shù)據(jù)集非常大,則檢索效率會(huì)很低.本研究采用Xia等[15]提出的平衡二叉樹(shù)來(lái)構(gòu)建索引結(jié)構(gòu).在索引結(jié)構(gòu)構(gòu)建過(guò)程中,首先將索引生成樹(shù)的葉子節(jié)點(diǎn),然后根據(jù)這些葉子節(jié)點(diǎn)生成樹(shù)的中間節(jié)點(diǎn)平衡二叉樹(shù),具體如圖2所示.

        圖2平衡二叉樹(shù)結(jié)構(gòu)示意圖

        6)Query(I,Q).根據(jù)構(gòu)建的索引樹(shù),云服務(wù)器計(jì)算索引向量和安全陷門的內(nèi)積來(lái)獲得最終的查詢相關(guān)性結(jié)果,

        Ri=Il·Q

        =I′Q′+I″Q″

        =(Ii,εi,1)(xQ,x,y)

        (4)

        最后,返回相關(guān)性結(jié)果前(top-k)的加密文檔給搜索用戶,用戶根據(jù)密鑰對(duì)密文文檔進(jìn)行解密.

        3 安全性分析

        3.1 數(shù)據(jù)安全性

        在將數(shù)據(jù)集外包到云服務(wù)器之前,本研究采用了AES對(duì)稱加密算法[16]對(duì)數(shù)據(jù)集進(jìn)行加密.由于AES對(duì)稱加密算法是安全的,因此數(shù)據(jù)的安全性得到了保證.

        3.2 陷門不可連接性

        雖然云服務(wù)器無(wú)法恢復(fù)查詢關(guān)鍵詞的內(nèi)容,但是陷門的可連接性可能導(dǎo)致隱私泄露.例如,如果陷門是確定性的,攻擊者可以通過(guò)多次搜索相同的關(guān)鍵詞來(lái)推斷出關(guān)鍵詞之間的關(guān)系.對(duì)此,本研究通過(guò)在向量分割過(guò)程中引入隨機(jī)數(shù)的方法,使得即使對(duì)于相同的查詢也會(huì)生成不同的加密查詢向量,此外,可以分別將隨機(jī)數(shù)εi引入到索引向量中及將隨機(jī)數(shù)x和y引入到查詢向量中,最終的查詢結(jié)果也會(huì)不同,由此來(lái)實(shí)現(xiàn)陷門的不可連接性.

        3.3 關(guān)鍵詞安全性

        4 性能分析

        在實(shí)驗(yàn)測(cè)試中,本研究提出的方法在AMD5 CPU 2.0 GHz的Windows 10操作系統(tǒng)上應(yīng)用Java語(yǔ)言得以實(shí)現(xiàn).同時(shí),本研究還評(píng)估了本方法的性能.測(cè)試選取的真實(shí)數(shù)據(jù)集為Enron email dataset[17],其包含150個(gè)用戶的數(shù)據(jù).

        4.1 準(zhǔn)確性和隱私性

        (5)

        4.2 搜索效率

        搜索時(shí)間在文檔集中的變化趨勢(shì)如圖4所示.由圖4(a)可知,文檔數(shù)量的變化并沒(méi)有對(duì)本方案產(chǎn)生較大影響,但隨著文檔數(shù)量的增加,Cao方案的搜索時(shí)間呈線性趨勢(shì).圖4(b)表示搜索時(shí)間隨查詢關(guān)鍵詞不同而變化的趨勢(shì)圖.無(wú)論查詢關(guān)鍵詞包含多少關(guān)鍵詞,它們都在同個(gè)字典中,查詢時(shí)間不會(huì)隨著查詢關(guān)鍵詞數(shù)量的增加而增加.但是,同Cao方案相比,本方案采用了平衡二叉樹(shù)的索引結(jié)構(gòu),因此具有更高的搜索效率.

        圖3準(zhǔn)確性和隱私性

        圖4搜索效率

        5 結(jié) 語(yǔ)

        本研究提出了一種安全、高效的多關(guān)鍵詞排序搜索方案,設(shè)計(jì)了基于主題的關(guān)鍵詞提取算法,即將文檔關(guān)鍵詞賦予不同的權(quán)重,在不失隱私性的情況下,提高了查詢結(jié)果的準(zhǔn)確性.同時(shí),本研究通過(guò)實(shí)驗(yàn)測(cè)試證明了本方案的安全性和有效性.下一步的工作將通過(guò)考慮搜索關(guān)鍵詞的語(yǔ)義關(guān)系來(lái)進(jìn)一步提高搜索的準(zhǔn)確性.

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        在线免费观看一区二区| 亚洲ⅤA中文字幕无码| 人妻av一区二区三区高| 免费在线亚洲视频观看| 亚洲av无码乱码精品国产| 国产亚洲精品bt天堂精选| 国产午夜精品一区二区三区视频| 亚洲青涩在线不卡av| 日本美女在线一区二区| 国产乱妇无码大片在线观看| 人与嘼交av免费| 国产丝袜免费精品一区二区| 精品视频手机在线免费观看| 人妻体内射精一区二区三区| 国产香蕉尹人在线观看视频| 亚洲专区路线一路线二天美| 五十路在线中文字幕在线中文字幕| 黄片大全视频在线播放| 国产suv精品一区二区883| 国产精品久久久久…| 久久这黄色精品免费久| 国产亚洲精品久久久久5区| 国产av无码专区亚洲av极速版| 亚洲成人免费无码| 精品久久人妻一区二区| 岳丰满多毛的大隂户| 人成午夜免费大片| 国产男女乱婬真视频免费| 东京热加勒比久久精品| 色综合色狠狠天天综合色| 久久er国产精品免费观看8| 亚洲av一二三四又爽又色又色| 久久国产精品一区二区三区| 国产精品成人国产乱| 国产高潮流白浆免费观看不卡| 91乱码亚洲精品中文字幕| 亚洲sm另类一区二区三区| 麻豆精产国品| 亚洲免费看三级黄网站| 天堂网站一区二区三区| 亚洲欧美日韩精品久久亚洲区|