徐建忠,羅準(zhǔn)辰,張 亮
(1.杭州世平信息科技有限公司,浙江 杭州 310012;2.中國國防科技信息中心,北京 100142)
語義擴(kuò)展技術(shù)在敏感數(shù)據(jù)識(shí)別中的應(yīng)用研究
徐建忠1,羅準(zhǔn)辰2,張亮1
(1.杭州世平信息科技有限公司,浙江 杭州310012;2.中國國防科技信息中心,北京100142)
為了解決用戶在敏感內(nèi)容檢測時(shí)給定關(guān)鍵詞較少的問題,在此提出一種基于語義擴(kuò)展技術(shù)識(shí)別敏感數(shù)據(jù)的方法。主要是通過對(duì)用戶給定的關(guān)鍵詞,進(jìn)行基于搜索引擎、百度百科以及搜索引擎結(jié)果頁面三種模式的語義擴(kuò)展,然后借助少量人工方式整體評(píng)價(jià),得到用戶所需的擴(kuò)展詞。實(shí)驗(yàn)結(jié)果表明,與語義擴(kuò)展之前相比,語義擴(kuò)展之后敏感數(shù)據(jù)識(shí)別的準(zhǔn)確率P、召回率R和評(píng)價(jià)值F均有所提高,說明該方法能夠有效地提高敏感數(shù)據(jù)識(shí)別結(jié)果的全面性和準(zhǔn)確性。
語義擴(kuò)展;敏感數(shù)據(jù);搜索引擎;數(shù)據(jù)安全
隨著信息技術(shù)的高速發(fā)展,國內(nèi)外信息安全形勢越來越嚴(yán)峻,多起信息安全事件(如,斯諾登事件)的發(fā)生給個(gè)人和社會(huì)帶來了嚴(yán)重的影響,尤其是敏感數(shù)據(jù)的泄露,直接影響國家的安全和社會(huì)的穩(wěn)定。
數(shù)據(jù)防泄漏技術(shù)作為信息安全的基礎(chǔ)性技術(shù),其作用無論從國家安全的高度還是從經(jīng)濟(jì)發(fā)展的角度來看都變得日益重要。目前,敏感數(shù)據(jù)防泄漏的關(guān)鍵技術(shù)包括:敏感數(shù)據(jù)識(shí)別、敏感數(shù)據(jù)標(biāo)記、敏感數(shù)據(jù)阻斷、銷毀和策略管理等。其中敏感數(shù)據(jù)識(shí)別是敏感數(shù)據(jù)防泄漏解決方案中非常關(guān)鍵的一環(huán),只有準(zhǔn)確地識(shí)別出了敏感數(shù)據(jù)才能對(duì)這些數(shù)據(jù)進(jìn)行有效保護(hù)。以往的敏感數(shù)據(jù)識(shí)別方法[1?2]大都通過建立敏感數(shù)據(jù)庫,通過用戶輸入關(guān)鍵詞或者預(yù)定義相關(guān)內(nèi)容匹配敏感數(shù)據(jù)庫來檢測實(shí)現(xiàn)。這種方法忽略了很多用戶缺乏對(duì)相關(guān)領(lǐng)域知識(shí)的了解,造成提交的關(guān)鍵詞數(shù)量有限且缺乏代表性,使得提交的關(guān)鍵詞不能全面準(zhǔn)確地表達(dá)用戶的實(shí)際查詢意圖的現(xiàn)狀。此方法容易造成檢測結(jié)果不全面或不準(zhǔn)確。基于這個(gè)問題本文研究了一種能夠解決用戶給定較少關(guān)鍵詞,準(zhǔn)確高效識(shí)別敏感數(shù)據(jù)的語義擴(kuò)展關(guān)鍵詞方法。
在此主要通過三種模式對(duì)用戶給定的關(guān)鍵詞進(jìn)行語義擴(kuò)展:基于搜索引擎的語義擴(kuò)展、基于百度百科的語義擴(kuò)展和基于搜索引擎結(jié)果頁面的語義擴(kuò)展。對(duì)這三種模式返回的候選詞借助少量人工方式進(jìn)行整體評(píng)價(jià),得到用戶所需的擴(kuò)展詞。實(shí)驗(yàn)結(jié)果表明,此方法能夠有效解決有限關(guān)鍵詞意圖表示模糊的問題,并且提高了敏感數(shù)據(jù)識(shí)別的準(zhǔn)確率。
語義擴(kuò)展是指語義在原有的基礎(chǔ)上進(jìn)行了延伸,其最直接也是最明顯的一個(gè)結(jié)果就是使原有詞匯使用的范圍更廣或者使表達(dá)的內(nèi)容更加深刻[3]。語義擴(kuò)展技術(shù)主要應(yīng)用于文本分類、信息檢索、搜索引擎等領(lǐng)域。它是以關(guān)鍵詞匹配為技術(shù)基礎(chǔ),由于用戶對(duì)相關(guān)領(lǐng)域了解較少以及大量同義詞和多義詞的存在,用戶對(duì)查詢請(qǐng)求的表達(dá)形式多樣。根據(jù)有關(guān)實(shí)驗(yàn)[4]統(tǒng)計(jì),兩個(gè)人使用相同關(guān)鍵詞描述同一事物的概率小于20%。
在檢索時(shí),用戶通常只用少量關(guān)鍵詞來表達(dá)自己的請(qǐng)求,導(dǎo)致檢測結(jié)果不全面和不準(zhǔn)確。例如,F(xiàn)ranzen K等人分析了微軟公司旗下的Encarta在線百科全書網(wǎng)站[5]連續(xù)兩個(gè)月的用戶查詢記錄后發(fā)現(xiàn),49%的用戶僅用一個(gè)關(guān)鍵詞來表達(dá)自己的查詢請(qǐng)求,33%的用戶使用兩個(gè)單詞進(jìn)行查詢,用戶平均使用1.4個(gè)單詞描述他們的查詢。查詢使用的關(guān)鍵詞越少,檢索結(jié)果命中率就越低。為了提高查詢的命中率,需要盡量增加檢索關(guān)鍵詞的數(shù)量[6]。但是由于用戶體驗(yàn)的原因,在此無法強(qiáng)制規(guī)定用戶提交關(guān)鍵詞的數(shù)量,因此需要通過一定的技術(shù)對(duì)用戶提交的關(guān)鍵詞進(jìn)行擴(kuò)展,以彌補(bǔ)用戶給定關(guān)鍵詞數(shù)量不足的缺陷。本文主要將語義擴(kuò)展技術(shù)應(yīng)用于敏感數(shù)據(jù)識(shí)別,試圖解決用戶給定較少關(guān)鍵詞難以滿足敏感內(nèi)容文本表示復(fù)雜的問題。
2.1方法概述
本文提出一種在敏感數(shù)據(jù)識(shí)別中使用語義擴(kuò)展技術(shù)的方法,該方法首先使用三種擴(kuò)展模式對(duì)用戶給定的關(guān)鍵詞進(jìn)行擴(kuò)展,然后借助少量的人工方式對(duì)擴(kuò)展的候選詞進(jìn)行整合評(píng)價(jià),從而得到與用戶提交的關(guān)鍵詞內(nèi)容相關(guān)的擴(kuò)展詞,如圖1所示。
圖1 方法流程
(1)語義擴(kuò)展。對(duì)用戶給定關(guān)鍵詞進(jìn)行三種模式的擴(kuò)展:基于搜索引擎的擴(kuò)展、基于百度百科的擴(kuò)展、基于搜索引擎結(jié)果頁面的擴(kuò)展。
(2)整合評(píng)價(jià)。利用三種擴(kuò)展模式返回的擴(kuò)展候選詞,借助少量人工方式進(jìn)行整合評(píng)價(jià)。
2.2語義擴(kuò)展
2.2.1基于搜索引擎的擴(kuò)展
主要利用目前搜索引擎強(qiáng)大的查詢擴(kuò)展功能對(duì)給定的敏感詞進(jìn)行擴(kuò)展。其中,搜索引擎可以選擇當(dāng)前主流的,例如百度、谷歌、雅虎、必應(yīng)等,本文選取百度作為擴(kuò)展的搜索引擎。具體的操作:如“財(cái)務(wù)”是一般單位認(rèn)為比較敏感的信息,要想得到財(cái)務(wù)相關(guān)的擴(kuò)展詞,即在百度中輸入查詢?cè)~,見圖2和圖3,圈標(biāo)注的相關(guān)搜索作為其擴(kuò)展詞。
圖2 基于百度搜索推薦的語義擴(kuò)展示例
圖3 基于百度相關(guān)搜索的語義擴(kuò)展示例
2.2.2基于百度百科的擴(kuò)展
主要利用百度百科相關(guān)詞條進(jìn)行擴(kuò)展,具體流程如下:
(1)首先利用搜索引擎找到相關(guān)的百度詞條,在搜索引擎中輸入“給定詞and百度百科”,如“財(cái)務(wù) and百度百科”,如圖4所示。
圖4 基于百度百科連接詞條
(2)返回的搜索結(jié)果中,存在的百度百科詞條網(wǎng)頁鏈接為相關(guān)的百科詞條(見圖4中用圈標(biāo)注的),然后點(diǎn)擊進(jìn)入百度百科相關(guān)詞條網(wǎng)頁,選?。梢詫懗绦虿捎米詣?dòng)化的方式)存在的鏈接詞作為擴(kuò)展詞,見圖5,圈內(nèi)標(biāo)注的詞認(rèn)為是擴(kuò)展詞。
圖5 基于百度百科詞條內(nèi)容鏈接的語義擴(kuò)展示例
2.2.3基于搜索引擎結(jié)果的擴(kuò)展
這種方法主要是利用搜索引擎,獲取敏感詞相關(guān)的頁面。然后抓取頁面后,利用開源的關(guān)鍵詞提取器,進(jìn)行關(guān)鍵詞提取,建議抓取返回結(jié)果第一頁10條鏈接網(wǎng)頁進(jìn)行提取,提取過程中可以單篇提取然后整合,也可以將所有網(wǎng)頁合成為一個(gè)文本后進(jìn)行關(guān)鍵詞提取,提取數(shù)目可以任定。
2.3整合評(píng)價(jià)
以上三種方式可以產(chǎn)生一些基于給定詞擴(kuò)展的候選詞,但并不是所有的候選詞都能滿足用戶的需求,因此人工的少量參與是必須的。對(duì)于每個(gè)候選詞,可以邀請(qǐng)3位人員進(jìn)行人工評(píng)價(jià),如果2位以上人員認(rèn)為候選詞有意義,則判斷該候選詞為用戶需要的擴(kuò)展詞。
3.1實(shí)驗(yàn)數(shù)據(jù)以及評(píng)價(jià)方法
本文通過整理某市部分單位的一些公告和相關(guān)新聞資訊,構(gòu)建了一個(gè)包含1 500個(gè)文檔的測試集,該測試集包含了敏感信息文檔和非敏感信息文檔,其中敏感信息文檔指的是文檔中包含一般單位認(rèn)為比較敏感的人事、財(cái)務(wù)相關(guān)信息,非敏感信息文檔指文檔中不包含任何敏感信息。本文中通過人工方法統(tǒng)計(jì)人事相關(guān)的文檔486個(gè),財(cái)務(wù)相關(guān)文檔574個(gè),其他非敏感信息文檔440個(gè)。
本文使用信息檢索領(lǐng)域的評(píng)價(jià)準(zhǔn)則(準(zhǔn)確率P、召回率R和評(píng)價(jià)值F)對(duì)敏感數(shù)據(jù)識(shí)別進(jìn)行評(píng)價(jià),具體定義為:
其中:A表示系統(tǒng)識(shí)別出敏感詞相關(guān)的文檔總數(shù);B表示系統(tǒng)識(shí)別出敏感詞不相關(guān)的文檔總數(shù);C表示系統(tǒng)沒有識(shí)別出敏感詞相關(guān)的文檔總數(shù)。
3.2實(shí)驗(yàn)過程及結(jié)果
在實(shí)驗(yàn)中,本文選取人事、財(cái)務(wù)兩個(gè)敏感詞作為用戶給定關(guān)鍵詞,并且對(duì)這兩個(gè)詞語通過三種模式的語義擴(kuò)展得到相關(guān)擴(kuò)展詞。例如,對(duì)于給定詞人事,通過語義擴(kuò)展之后得到相關(guān)擴(kuò)展詞:任命、任免、任職、提拔、擬任、擬聘、罷免、辭去;財(cái)務(wù),通過語義擴(kuò)展之后得到相關(guān)擴(kuò)展詞:經(jīng)營狀況、資金、資產(chǎn)、損益表、總賬、增值、負(fù)債、周轉(zhuǎn)、虧損、預(yù)算、凈利潤。最后通過對(duì)比語義擴(kuò)展之前與之后敏感數(shù)據(jù)識(shí)別的準(zhǔn)確率(P)、召回率(R)以及評(píng)價(jià)值(F)進(jìn)行分析評(píng)價(jià)。結(jié)果如表1所示。
表1 語義擴(kuò)展之前與之后敏感數(shù)據(jù)識(shí)別結(jié)果對(duì)比 %
分析表1中的結(jié)果可以發(fā)現(xiàn),語義擴(kuò)展之后敏感數(shù)據(jù)識(shí)別的實(shí)驗(yàn)結(jié)果都要好于語義擴(kuò)展之前(即用戶給定關(guān)鍵詞),這是因?yàn)閷?duì)給定關(guān)鍵詞擴(kuò)展之后得到很多相關(guān)的擴(kuò)展詞,所以在進(jìn)行敏感數(shù)據(jù)識(shí)別的時(shí)候可以檢索出擴(kuò)展之前不能檢索出來的文檔,并且本文中語義擴(kuò)展的方法借助人工評(píng)價(jià),這樣得到的擴(kuò)展詞都是與用戶給定關(guān)鍵詞很相關(guān)的,這也是敏感數(shù)據(jù)識(shí)別準(zhǔn)確率和查全率提高的主要原因。
為了解決用戶給定較少關(guān)鍵詞難以滿足敏感數(shù)據(jù)高準(zhǔn)確率識(shí)別的問題,本文提出一種將語義擴(kuò)展技術(shù)應(yīng)用于敏感數(shù)據(jù)識(shí)別的方法。該方法通過基于搜索引擎、百度百科以及搜索引擎結(jié)果頁面三種模式對(duì)給定的關(guān)鍵詞進(jìn)行語義擴(kuò)展,借助少量人工方式整體評(píng)價(jià),得到用戶所需的擴(kuò)展詞,從而解決了給定關(guān)鍵詞較少語義表示模糊的問題,提高了敏感數(shù)據(jù)識(shí)別的全面性和準(zhǔn)確性。
[1]李偉偉,張濤,林為民,等.基于文本內(nèi)容的敏感數(shù)據(jù)識(shí)別方法研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(4):1202?1206.
[2]林臻彪.基于數(shù)據(jù)流分析的防文件網(wǎng)絡(luò)泄露關(guān)鍵技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2009.
[3]付義軍.語義擴(kuò)展的認(rèn)知機(jī)制[J].青春歲月,2013(15):121.
[4]黃名選,嚴(yán)小衛(wèi),張師超.查詢擴(kuò)展技術(shù)進(jìn)展與展望[J].計(jì)算機(jī)應(yīng)用與軟件,2007,24(11):1?4.
[5]FRANZEN K,KARLGREN J.Verbosity and interface design [R].Sweden:Swedish Institute of Computer Science(SICS),2000.
[6]徐建斌,施亞東.基于概念的文本自動(dòng)分類研究的綜述[J].福建電腦,2005(2):2?4.
[7]汪晨,鄧松,張濤,等.智能電網(wǎng)環(huán)境下用戶行為可信數(shù)據(jù)安全交換研究[J].現(xiàn)代電子技術(shù),2014,37(1):75?79.
Application of semantic extension approach in sensitive data identification
XU Jianzhong1,LUO Zhunchen2,ZHANG Liang1
(1.Hangzhou Shiping Information&Technology Co.,Ltd.,Hangzhou 310012,China;2.China Defense Science and Technology Information Center,Beijing 100142,China)
To solve the problem of less key words given in sensitive content inspection,a sensitive data identification method based on semantic extension approach is proposed.The semantic extension based on three forms of search engine,Baidu Ency?clopedia and results page of searching is performed through the keywords given by users,by which the extension words is ob?tained through the overall evaluation in a manual way.The experimental result shows that,with the three forms of semantic ex?tension,the accuracy P,recall R and evaluation value F of sensitive data identification have all been improved,which illus?trates that the approach can effectively improve the comprehensiveness and accuracy of sensitive data identification.
semantic extension;sensitive data;search engine;data security
TN911?34
A
1004?373X(2016)12?0080?03
10.16652/j.issn.1004?373x.2016.12.021
2015?10?09
徐建忠(1980—),男,浙江杭州人。主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全。羅準(zhǔn)辰(1984—),男,湖南長沙人,博士。主要研究方向?yàn)樽匀徽Z言處理與信息。張亮(1983—),男,陜西西安人,碩士。主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全。