摘 要: 為了解決用戶在敏感內(nèi)容檢測時給定關鍵詞較少的問題,在此提出一種基于語義擴展技術識別敏感數(shù)據(jù)的方法。主要是通過對用戶給定的關鍵詞,進行基于搜索引擎、百度百科以及搜索引擎結果頁面三種模式的語義擴展,然后借助少量人工方式整體評價,得到用戶所需的擴展詞。實驗結果表明,與語義擴展之前相比,語義擴展之后敏感數(shù)據(jù)識別的準確率P、召回率R和評價值F均有所提高,說明該方法能夠有效地提高敏感數(shù)據(jù)識別結果的全面性和準確性。
關鍵詞: 語義擴展; 敏感數(shù)據(jù); 搜索引擎; 數(shù)據(jù)安全
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2016)12?0080?03
Abstract: To solve the problem of less key words given in sensitive content inspection, a sensitive data identification method based on semantic extension approach is proposed. The semantic extension based on three forms of search engine, Baidu Encyclopedia and results page of searching is performed through the keywords given by users, by which the extension words is obtained through the overall evaluation in a manual way. The experimental result shows that, with the three forms of semantic extension, the accuracy P, recall R and evaluation value F of sensitive data identification have all been improved, which illustrates that the approach can effectively improve the comprehensiveness and accuracy of sensitive data identification.
Keywords: semantic extension; sensitive data; search engine; data security
0 引 言
隨著信息技術的高速發(fā)展,國內(nèi)外信息安全形勢越來越嚴峻,多起信息安全事件(如,斯諾登事件)的發(fā)生給個人和社會帶來了嚴重的影響,尤其是敏感數(shù)據(jù)的泄露,直接影響國家的安全和社會的穩(wěn)定。
數(shù)據(jù)防泄漏技術作為信息安全的基礎性技術,其作用無論從國家安全的高度還是從經(jīng)濟發(fā)展的角度來看都變得日益重要。目前,敏感數(shù)據(jù)防泄漏的關鍵技術包括:敏感數(shù)據(jù)識別、敏感數(shù)據(jù)標記、敏感數(shù)據(jù)阻斷、銷毀和策略管理等。其中敏感數(shù)據(jù)識別是敏感數(shù)據(jù)防泄漏解決方案中非常關鍵的一環(huán),只有準確地識別出了敏感數(shù)據(jù)才能對這些數(shù)據(jù)進行有效保護。以往的敏感數(shù)據(jù)識別方法[1?2]大都通過建立敏感數(shù)據(jù)庫,通過用戶輸入關鍵詞或者預定義相關內(nèi)容匹配敏感數(shù)據(jù)庫來檢測實現(xiàn)。這種方法忽略了很多用戶缺乏對相關領域知識的了解,造成提交的關鍵詞數(shù)量有限且缺乏代表性,使得提交的關鍵詞不能全面準確地表達用戶的實際查詢意圖的現(xiàn)狀。此方法容易造成檢測結果不全面或不準確?;谶@個問題本文研究了一種能夠解決用戶給定較少關鍵詞,準確高效識別敏感數(shù)據(jù)的語義擴展關鍵詞方法。
在此主要通過三種模式對用戶給定的關鍵詞進行語義擴展:基于搜索引擎的語義擴展、基于百度百科的語義擴展和基于搜索引擎結果頁面的語義擴展。對這三種模式返回的候選詞借助少量人工方式進行整體評價,得到用戶所需的擴展詞。實驗結果表明,此方法能夠有效解決有限關鍵詞意圖表示模糊的問題,并且提高了敏感數(shù)據(jù)識別的準確率。
1 相關工作
語義擴展是指語義在原有的基礎上進行了延伸,其最直接也是最明顯的一個結果就是使原有詞匯使用的范圍更廣或者使表達的內(nèi)容更加深刻[3]。語義擴展技術主要應用于文本分類、信息檢索、搜索引擎等領域。它是以關鍵詞匹配為技術基礎,由于用戶對相關領域了解較少以及大量同義詞和多義詞的存在,用戶對查詢請求的表達形式多樣。根據(jù)有關實驗[4]統(tǒng)計,兩個人使用相同關鍵詞描述同一事物的概率小于20%。
在檢索時,用戶通常只用少量關鍵詞來表達自己的請求,導致檢測結果不全面和不準確。例如,F(xiàn)ranzen K等人分析了微軟公司旗下的Encarta在線百科全書網(wǎng)站[5]連續(xù)兩個月的用戶查詢記錄后發(fā)現(xiàn),49%的用戶僅用一個關鍵詞來表達自己的查詢請求,33%的用戶使用兩個單詞進行查詢,用戶平均使用1.4個單詞描述他們的查詢。查詢使用的關鍵詞越少,檢索結果命中率就越低。為了提高查詢的命中率,需要盡量增加檢索關鍵詞的數(shù)量[6]。但是由于用戶體驗的原因,在此無法強制規(guī)定用戶提交關鍵詞的數(shù)量,因此需要通過一定的技術對用戶提交的關鍵詞進行擴展,以彌補用戶給定關鍵詞數(shù)量不足的缺陷。本文主要將語義擴展技術應用于敏感數(shù)據(jù)識別,試圖解決用戶給定較少關鍵詞難以滿足敏感內(nèi)容文本表示復雜的問題。
2 語義擴展技術方法
2.1 方法概述
本文提出一種在敏感數(shù)據(jù)識別中使用語義擴展技術的方法,該方法首先使用三種擴展模式對用戶給定的關鍵詞進行擴展,然后借助少量的人工方式對擴展的候選詞進行整合評價,從而得到與用戶提交的關鍵詞內(nèi)容相關的擴展詞,如圖1所示。
圖1 方法流程
(1) 語義擴展。對用戶給定關鍵詞進行三種模式的擴展:基于搜索引擎的擴展、基于百度百科的擴展、基于搜索引擎結果頁面的擴展。
(2) 整合評價。利用三種擴展模式返回的擴展候選詞,借助少量人工方式進行整合評價。
2.2 語義擴展
2.2.1 基于搜索引擎的擴展
主要利用目前搜索引擎強大的查詢擴展功能對給定的敏感詞進行擴展。其中,搜索引擎可以選擇當前主流的,例如百度、谷歌、雅虎、必應等,本文選取百度作為擴展的搜索引擎。具體的操作:如“財務”是一般單位認為比較敏感的信息,要想得到財務相關的擴展詞,即在百度中輸入查詢詞,見圖2和圖3,圈標注的相關搜索作為其擴展詞。
2.2.2 基于百度百科的擴展
主要利用百度百科相關詞條進行擴展,具體流程如下:
(1) 首先利用搜索引擎找到相關的百度詞條,在搜索引擎中輸入“給定詞and百度百科”,如“財務 and 百度百科”,如圖4所示。
(2) 返回的搜索結果中,存在的百度百科詞條網(wǎng)頁鏈接為相關的百科詞條(見圖4中用圈標注的),然后點擊進入百度百科相關詞條網(wǎng)頁,選?。梢詫懗绦虿捎米詣踊姆绞剑┐嬖诘逆溄釉~作為擴展詞,見圖5,圈內(nèi)標注的詞認為是擴展詞。
2.2.3 基于搜索引擎結果的擴展
這種方法主要是利用搜索引擎,獲取敏感詞相關的頁面。然后抓取頁面后,利用開源的關鍵詞提取器,進行關鍵詞提取,建議抓取返回結果第一頁10條鏈接網(wǎng)頁進行提取,提取過程中可以單篇提取然后整合,也可以將所有網(wǎng)頁合成為一個文本后進行關鍵詞提取,提取數(shù)目可以任定。
2.3 整合評價
以上三種方式可以產(chǎn)生一些基于給定詞擴展的候選詞,但并不是所有的候選詞都能滿足用戶的需求,因此人工的少量參與是必須的。對于每個候選詞,可以邀請3位人員進行人工評價,如果2位以上人員認為候選詞有意義,則判斷該候選詞為用戶需要的擴展詞。
3 實 驗
3.1 實驗數(shù)據(jù)以及評價方法
本文通過整理某市部分單位的一些公告和相關新聞資訊,構建了一個包含1 500個文檔的測試集,該測試集包含了敏感信息文檔和非敏感信息文檔,其中敏感信息文檔指的是文檔中包含一般單位認為比較敏感的人事、財務相關信息,非敏感信息文檔指文檔中不包含任何敏感信息。本文中通過人工方法統(tǒng)計人事相關的文檔486個,財務相關文檔574個,其他非敏感信息文檔440個。
本文使用信息檢索領域的評價準則(準確率P、召回率R和評價值F)對敏感數(shù)據(jù)識別進行評價,具體定義為:
[P=AA?B;R=AA?C;][F=2×P×RP+R]
其中:A表示系統(tǒng)識別出敏感詞相關的文檔總數(shù);B表示系統(tǒng)識別出敏感詞不相關的文檔總數(shù);C表示系統(tǒng)沒有識別出敏感詞相關的文檔總數(shù)。
3.2 實驗過程及結果
在實驗中,本文選取人事、財務兩個敏感詞作為用戶給定關鍵詞,并且對這兩個詞語通過三種模式的語義擴展得到相關擴展詞。例如,對于給定詞人事,通過語義擴展之后得到相關擴展詞:任命、任免、任職、提拔、擬任、擬聘、罷免、辭去;財務,通過語義擴展之后得到相關擴展詞:經(jīng)營狀況、資金、資產(chǎn)、損益表、總賬、增值、負債、周轉、虧損、預算、凈利潤。最后通過對比語義擴展之前與之后敏感數(shù)據(jù)識別的準確率(P)、召回率(R)以及評價值(F)進行分析評價。結果如表1所示。
表1 語義擴展之前與之后敏感數(shù)據(jù)識別結果對比 %
分析表1中的結果可以發(fā)現(xiàn),語義擴展之后敏感數(shù)據(jù)識別的實驗結果都要好于語義擴展之前(即用戶給定關鍵詞),這是因為對給定關鍵詞擴展之后得到很多相關的擴展詞,所以在進行敏感數(shù)據(jù)識別的時候可以檢索出擴展之前不能檢索出來的文檔,并且本文中語義擴展的方法借助人工評價,這樣得到的擴展詞都是與用戶給定關鍵詞很相關的,這也是敏感數(shù)據(jù)識別準確率和查全率提高的主要原因。
4 結 語
為了解決用戶給定較少關鍵詞難以滿足敏感數(shù)據(jù)高準確率識別的問題,本文提出一種將語義擴展技術應用于敏感數(shù)據(jù)識別的方法。該方法通過基于搜索引擎、百度百科以及搜索引擎結果頁面三種模式對給定的關鍵詞進行語義擴展,借助少量人工方式整體評價,得到用戶所需的擴展詞,從而解決了給定關鍵詞較少語義表示模糊的問題,提高了敏感數(shù)據(jù)識別的全面性和準確性。
參考文獻
[1] 李偉偉,張濤,林為民,等.基于文本內(nèi)容的敏感數(shù)據(jù)識別方法研究與實現(xiàn)[J].計算機工程與設計,2013,34(4):1202?1206.
[2] 林臻彪.基于數(shù)據(jù)流分析的防文件網(wǎng)絡泄露關鍵技術研究[D].鄭州:解放軍信息工程大學,2009.
[3] 付義軍.語義擴展的認知機制[J].青春歲月,2013(15):121.
[4] 黃名選,嚴小衛(wèi),張師超.查詢擴展技術進展與展望[J].計算機應用與軟件,2007,24(11):1?4.
[5] FRANZEN K, KARLGREN J. Verbosity and interface design [R]. Sweden: Swedish Institute of Computer Science (SICS),2000.
[6] 徐建斌,施亞東.基于概念的文本自動分類研究的綜述[J].福建電腦,2005(2):2?4.
[7] 汪晨,鄧松,張濤,等.智能電網(wǎng)環(huán)境下用戶行為可信數(shù)據(jù)安全交換研究[J].現(xiàn)代電子技術,2014,37(1):75?79.