亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語(yǔ)義擴(kuò)展技術(shù)在敏感數(shù)據(jù)識(shí)別中的應(yīng)用研究

        2016-04-12 00:00:00徐建忠羅準(zhǔn)辰張亮
        現(xiàn)代電子技術(shù) 2016年12期

        摘 要: 為了解決用戶在敏感內(nèi)容檢測(cè)時(shí)給定關(guān)鍵詞較少的問(wèn)題,在此提出一種基于語(yǔ)義擴(kuò)展技術(shù)識(shí)別敏感數(shù)據(jù)的方法。主要是通過(guò)對(duì)用戶給定的關(guān)鍵詞,進(jìn)行基于搜索引擎、百度百科以及搜索引擎結(jié)果頁(yè)面三種模式的語(yǔ)義擴(kuò)展,然后借助少量人工方式整體評(píng)價(jià),得到用戶所需的擴(kuò)展詞。實(shí)驗(yàn)結(jié)果表明,與語(yǔ)義擴(kuò)展之前相比,語(yǔ)義擴(kuò)展之后敏感數(shù)據(jù)識(shí)別的準(zhǔn)確率P、召回率R和評(píng)價(jià)值F均有所提高,說(shuō)明該方法能夠有效地提高敏感數(shù)據(jù)識(shí)別結(jié)果的全面性和準(zhǔn)確性。

        關(guān)鍵詞: 語(yǔ)義擴(kuò)展; 敏感數(shù)據(jù); 搜索引擎; 數(shù)據(jù)安全

        中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)12?0080?03

        Abstract: To solve the problem of less key words given in sensitive content inspection, a sensitive data identification method based on semantic extension approach is proposed. The semantic extension based on three forms of search engine, Baidu Encyclopedia and results page of searching is performed through the keywords given by users, by which the extension words is obtained through the overall evaluation in a manual way. The experimental result shows that, with the three forms of semantic extension, the accuracy P, recall R and evaluation value F of sensitive data identification have all been improved, which illustrates that the approach can effectively improve the comprehensiveness and accuracy of sensitive data identification.

        Keywords: semantic extension; sensitive data; search engine; data security

        0 引 言

        隨著信息技術(shù)的高速發(fā)展,國(guó)內(nèi)外信息安全形勢(shì)越來(lái)越嚴(yán)峻,多起信息安全事件(如,斯諾登事件)的發(fā)生給個(gè)人和社會(huì)帶來(lái)了嚴(yán)重的影響,尤其是敏感數(shù)據(jù)的泄露,直接影響國(guó)家的安全和社會(huì)的穩(wěn)定。

        數(shù)據(jù)防泄漏技術(shù)作為信息安全的基礎(chǔ)性技術(shù),其作用無(wú)論從國(guó)家安全的高度還是從經(jīng)濟(jì)發(fā)展的角度來(lái)看都變得日益重要。目前,敏感數(shù)據(jù)防泄漏的關(guān)鍵技術(shù)包括:敏感數(shù)據(jù)識(shí)別、敏感數(shù)據(jù)標(biāo)記、敏感數(shù)據(jù)阻斷、銷毀和策略管理等。其中敏感數(shù)據(jù)識(shí)別是敏感數(shù)據(jù)防泄漏解決方案中非常關(guān)鍵的一環(huán),只有準(zhǔn)確地識(shí)別出了敏感數(shù)據(jù)才能對(duì)這些數(shù)據(jù)進(jìn)行有效保護(hù)。以往的敏感數(shù)據(jù)識(shí)別方法[1?2]大都通過(guò)建立敏感數(shù)據(jù)庫(kù),通過(guò)用戶輸入關(guān)鍵詞或者預(yù)定義相關(guān)內(nèi)容匹配敏感數(shù)據(jù)庫(kù)來(lái)檢測(cè)實(shí)現(xiàn)。這種方法忽略了很多用戶缺乏對(duì)相關(guān)領(lǐng)域知識(shí)的了解,造成提交的關(guān)鍵詞數(shù)量有限且缺乏代表性,使得提交的關(guān)鍵詞不能全面準(zhǔn)確地表達(dá)用戶的實(shí)際查詢意圖的現(xiàn)狀。此方法容易造成檢測(cè)結(jié)果不全面或不準(zhǔn)確。基于這個(gè)問(wèn)題本文研究了一種能夠解決用戶給定較少關(guān)鍵詞,準(zhǔn)確高效識(shí)別敏感數(shù)據(jù)的語(yǔ)義擴(kuò)展關(guān)鍵詞方法。

        在此主要通過(guò)三種模式對(duì)用戶給定的關(guān)鍵詞進(jìn)行語(yǔ)義擴(kuò)展:基于搜索引擎的語(yǔ)義擴(kuò)展、基于百度百科的語(yǔ)義擴(kuò)展和基于搜索引擎結(jié)果頁(yè)面的語(yǔ)義擴(kuò)展。對(duì)這三種模式返回的候選詞借助少量人工方式進(jìn)行整體評(píng)價(jià),得到用戶所需的擴(kuò)展詞。實(shí)驗(yàn)結(jié)果表明,此方法能夠有效解決有限關(guān)鍵詞意圖表示模糊的問(wèn)題,并且提高了敏感數(shù)據(jù)識(shí)別的準(zhǔn)確率。

        1 相關(guān)工作

        語(yǔ)義擴(kuò)展是指語(yǔ)義在原有的基礎(chǔ)上進(jìn)行了延伸,其最直接也是最明顯的一個(gè)結(jié)果就是使原有詞匯使用的范圍更廣或者使表達(dá)的內(nèi)容更加深刻[3]。語(yǔ)義擴(kuò)展技術(shù)主要應(yīng)用于文本分類、信息檢索、搜索引擎等領(lǐng)域。它是以關(guān)鍵詞匹配為技術(shù)基礎(chǔ),由于用戶對(duì)相關(guān)領(lǐng)域了解較少以及大量同義詞和多義詞的存在,用戶對(duì)查詢請(qǐng)求的表達(dá)形式多樣。根據(jù)有關(guān)實(shí)驗(yàn)[4]統(tǒng)計(jì),兩個(gè)人使用相同關(guān)鍵詞描述同一事物的概率小于20%。

        在檢索時(shí),用戶通常只用少量關(guān)鍵詞來(lái)表達(dá)自己的請(qǐng)求,導(dǎo)致檢測(cè)結(jié)果不全面和不準(zhǔn)確。例如,F(xiàn)ranzen K等人分析了微軟公司旗下的Encarta在線百科全書(shū)網(wǎng)站[5]連續(xù)兩個(gè)月的用戶查詢記錄后發(fā)現(xiàn),49%的用戶僅用一個(gè)關(guān)鍵詞來(lái)表達(dá)自己的查詢請(qǐng)求,33%的用戶使用兩個(gè)單詞進(jìn)行查詢,用戶平均使用1.4個(gè)單詞描述他們的查詢。查詢使用的關(guān)鍵詞越少,檢索結(jié)果命中率就越低。為了提高查詢的命中率,需要盡量增加檢索關(guān)鍵詞的數(shù)量[6]。但是由于用戶體驗(yàn)的原因,在此無(wú)法強(qiáng)制規(guī)定用戶提交關(guān)鍵詞的數(shù)量,因此需要通過(guò)一定的技術(shù)對(duì)用戶提交的關(guān)鍵詞進(jìn)行擴(kuò)展,以彌補(bǔ)用戶給定關(guān)鍵詞數(shù)量不足的缺陷。本文主要將語(yǔ)義擴(kuò)展技術(shù)應(yīng)用于敏感數(shù)據(jù)識(shí)別,試圖解決用戶給定較少關(guān)鍵詞難以滿足敏感內(nèi)容文本表示復(fù)雜的問(wèn)題。

        2 語(yǔ)義擴(kuò)展技術(shù)方法

        2.1 方法概述

        本文提出一種在敏感數(shù)據(jù)識(shí)別中使用語(yǔ)義擴(kuò)展技術(shù)的方法,該方法首先使用三種擴(kuò)展模式對(duì)用戶給定的關(guān)鍵詞進(jìn)行擴(kuò)展,然后借助少量的人工方式對(duì)擴(kuò)展的候選詞進(jìn)行整合評(píng)價(jià),從而得到與用戶提交的關(guān)鍵詞內(nèi)容相關(guān)的擴(kuò)展詞,如圖1所示。

        圖1 方法流程

        (1) 語(yǔ)義擴(kuò)展。對(duì)用戶給定關(guān)鍵詞進(jìn)行三種模式的擴(kuò)展:基于搜索引擎的擴(kuò)展、基于百度百科的擴(kuò)展、基于搜索引擎結(jié)果頁(yè)面的擴(kuò)展。

        (2) 整合評(píng)價(jià)。利用三種擴(kuò)展模式返回的擴(kuò)展候選詞,借助少量人工方式進(jìn)行整合評(píng)價(jià)。

        2.2 語(yǔ)義擴(kuò)展

        2.2.1 基于搜索引擎的擴(kuò)展

        主要利用目前搜索引擎強(qiáng)大的查詢擴(kuò)展功能對(duì)給定的敏感詞進(jìn)行擴(kuò)展。其中,搜索引擎可以選擇當(dāng)前主流的,例如百度、谷歌、雅虎、必應(yīng)等,本文選取百度作為擴(kuò)展的搜索引擎。具體的操作:如“財(cái)務(wù)”是一般單位認(rèn)為比較敏感的信息,要想得到財(cái)務(wù)相關(guān)的擴(kuò)展詞,即在百度中輸入查詢?cè)~,見(jiàn)圖2和圖3,圈標(biāo)注的相關(guān)搜索作為其擴(kuò)展詞。

        2.2.2 基于百度百科的擴(kuò)展

        主要利用百度百科相關(guān)詞條進(jìn)行擴(kuò)展,具體流程如下:

        (1) 首先利用搜索引擎找到相關(guān)的百度詞條,在搜索引擎中輸入“給定詞and百度百科”,如“財(cái)務(wù) and 百度百科”,如圖4所示。

        (2) 返回的搜索結(jié)果中,存在的百度百科詞條網(wǎng)頁(yè)鏈接為相關(guān)的百科詞條(見(jiàn)圖4中用圈標(biāo)注的),然后點(diǎn)擊進(jìn)入百度百科相關(guān)詞條網(wǎng)頁(yè),選取(可以寫(xiě)程序采用自動(dòng)化的方式)存在的鏈接詞作為擴(kuò)展詞,見(jiàn)圖5,圈內(nèi)標(biāo)注的詞認(rèn)為是擴(kuò)展詞。

        2.2.3 基于搜索引擎結(jié)果的擴(kuò)展

        這種方法主要是利用搜索引擎,獲取敏感詞相關(guān)的頁(yè)面。然后抓取頁(yè)面后,利用開(kāi)源的關(guān)鍵詞提取器,進(jìn)行關(guān)鍵詞提取,建議抓取返回結(jié)果第一頁(yè)10條鏈接網(wǎng)頁(yè)進(jìn)行提取,提取過(guò)程中可以單篇提取然后整合,也可以將所有網(wǎng)頁(yè)合成為一個(gè)文本后進(jìn)行關(guān)鍵詞提取,提取數(shù)目可以任定。

        2.3 整合評(píng)價(jià)

        以上三種方式可以產(chǎn)生一些基于給定詞擴(kuò)展的候選詞,但并不是所有的候選詞都能滿足用戶的需求,因此人工的少量參與是必須的。對(duì)于每個(gè)候選詞,可以邀請(qǐng)3位人員進(jìn)行人工評(píng)價(jià),如果2位以上人員認(rèn)為候選詞有意義,則判斷該候選詞為用戶需要的擴(kuò)展詞。

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)以及評(píng)價(jià)方法

        本文通過(guò)整理某市部分單位的一些公告和相關(guān)新聞資訊,構(gòu)建了一個(gè)包含1 500個(gè)文檔的測(cè)試集,該測(cè)試集包含了敏感信息文檔和非敏感信息文檔,其中敏感信息文檔指的是文檔中包含一般單位認(rèn)為比較敏感的人事、財(cái)務(wù)相關(guān)信息,非敏感信息文檔指文檔中不包含任何敏感信息。本文中通過(guò)人工方法統(tǒng)計(jì)人事相關(guān)的文檔486個(gè),財(cái)務(wù)相關(guān)文檔574個(gè),其他非敏感信息文檔440個(gè)。

        本文使用信息檢索領(lǐng)域的評(píng)價(jià)準(zhǔn)則(準(zhǔn)確率P、召回率R和評(píng)價(jià)值F)對(duì)敏感數(shù)據(jù)識(shí)別進(jìn)行評(píng)價(jià),具體定義為:

        [P=AA?B;R=AA?C;][F=2×P×RP+R]

        其中:A表示系統(tǒng)識(shí)別出敏感詞相關(guān)的文檔總數(shù);B表示系統(tǒng)識(shí)別出敏感詞不相關(guān)的文檔總數(shù);C表示系統(tǒng)沒(méi)有識(shí)別出敏感詞相關(guān)的文檔總數(shù)。

        3.2 實(shí)驗(yàn)過(guò)程及結(jié)果

        在實(shí)驗(yàn)中,本文選取人事、財(cái)務(wù)兩個(gè)敏感詞作為用戶給定關(guān)鍵詞,并且對(duì)這兩個(gè)詞語(yǔ)通過(guò)三種模式的語(yǔ)義擴(kuò)展得到相關(guān)擴(kuò)展詞。例如,對(duì)于給定詞人事,通過(guò)語(yǔ)義擴(kuò)展之后得到相關(guān)擴(kuò)展詞:任命、任免、任職、提拔、擬任、擬聘、罷免、辭去;財(cái)務(wù),通過(guò)語(yǔ)義擴(kuò)展之后得到相關(guān)擴(kuò)展詞:經(jīng)營(yíng)狀況、資金、資產(chǎn)、損益表、總賬、增值、負(fù)債、周轉(zhuǎn)、虧損、預(yù)算、凈利潤(rùn)。最后通過(guò)對(duì)比語(yǔ)義擴(kuò)展之前與之后敏感數(shù)據(jù)識(shí)別的準(zhǔn)確率(P)、召回率(R)以及評(píng)價(jià)值(F)進(jìn)行分析評(píng)價(jià)。結(jié)果如表1所示。

        表1 語(yǔ)義擴(kuò)展之前與之后敏感數(shù)據(jù)識(shí)別結(jié)果對(duì)比 %

        分析表1中的結(jié)果可以發(fā)現(xiàn),語(yǔ)義擴(kuò)展之后敏感數(shù)據(jù)識(shí)別的實(shí)驗(yàn)結(jié)果都要好于語(yǔ)義擴(kuò)展之前(即用戶給定關(guān)鍵詞),這是因?yàn)閷?duì)給定關(guān)鍵詞擴(kuò)展之后得到很多相關(guān)的擴(kuò)展詞,所以在進(jìn)行敏感數(shù)據(jù)識(shí)別的時(shí)候可以檢索出擴(kuò)展之前不能檢索出來(lái)的文檔,并且本文中語(yǔ)義擴(kuò)展的方法借助人工評(píng)價(jià),這樣得到的擴(kuò)展詞都是與用戶給定關(guān)鍵詞很相關(guān)的,這也是敏感數(shù)據(jù)識(shí)別準(zhǔn)確率和查全率提高的主要原因。

        4 結(jié) 語(yǔ)

        為了解決用戶給定較少關(guān)鍵詞難以滿足敏感數(shù)據(jù)高準(zhǔn)確率識(shí)別的問(wèn)題,本文提出一種將語(yǔ)義擴(kuò)展技術(shù)應(yīng)用于敏感數(shù)據(jù)識(shí)別的方法。該方法通過(guò)基于搜索引擎、百度百科以及搜索引擎結(jié)果頁(yè)面三種模式對(duì)給定的關(guān)鍵詞進(jìn)行語(yǔ)義擴(kuò)展,借助少量人工方式整體評(píng)價(jià),得到用戶所需的擴(kuò)展詞,從而解決了給定關(guān)鍵詞較少語(yǔ)義表示模糊的問(wèn)題,提高了敏感數(shù)據(jù)識(shí)別的全面性和準(zhǔn)確性。

        參考文獻(xiàn)

        [1] 李偉偉,張濤,林為民,等.基于文本內(nèi)容的敏感數(shù)據(jù)識(shí)別方法研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(4):1202?1206.

        [2] 林臻彪.基于數(shù)據(jù)流分析的防文件網(wǎng)絡(luò)泄露關(guān)鍵技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2009.

        [3] 付義軍.語(yǔ)義擴(kuò)展的認(rèn)知機(jī)制[J].青春歲月,2013(15):121.

        [4] 黃名選,嚴(yán)小衛(wèi),張師超.查詢擴(kuò)展技術(shù)進(jìn)展與展望[J].計(jì)算機(jī)應(yīng)用與軟件,2007,24(11):1?4.

        [5] FRANZEN K, KARLGREN J. Verbosity and interface design [R]. Sweden: Swedish Institute of Computer Science (SICS),2000.

        [6] 徐建斌,施亞?wèn)|.基于概念的文本自動(dòng)分類研究的綜述[J].福建電腦,2005(2):2?4.

        [7] 汪晨,鄧松,張濤,等.智能電網(wǎng)環(huán)境下用戶行為可信數(shù)據(jù)安全交換研究[J].現(xiàn)代電子技術(shù),2014,37(1):75?79.

        成人激情五月天| 邻居人妻的肉欲满足中文字幕| 精品亚洲成a人在线观看| 久久久久久好爽爽久久| 99久久人妻无码精品系列蜜桃| 搡老女人老妇女老熟妇69| 国产无套一区二区三区久久| 亚洲日韩av无码一区二区三区人 | 中文字幕精品久久久久人妻红杏ⅰ| 欧美性猛交xxxx乱大交蜜桃| 日韩精品中文字幕人妻中出| 国产肥熟女免费一区二区| 精品国产一二三产品区别在哪| 中文字幕在线码一区| 日韩一二三四区免费观看| 日本一区二区在线免费视频| 国产精品无码午夜福利| 国产在线视频国产永久视频| 美女福利视频在线观看网址| √天堂资源中文www| 台湾佬综合网| 亚洲AV手机专区久久精品| 亚洲乱码中文字幕一线区| 国99久9在线 | 免费| 亚洲色图在线观看视频| 亚洲最黄视频一区二区| 国产高清成人在线观看视频| 精品午夜福利无人区乱码一区| 精品久久久久久午夜| 日本人妻系列中文字幕| 中文 在线 日韩 亚洲 欧美| 97视频在线播放| 亚洲伊人av综合福利| 免费人成在线观看视频高潮| 国产嫖妓一区二区三区无码| 精品黄色av一区二区三区| 91精品国产综合久久久密臀九色| 伊人久久久精品区aaa片| 香蕉国产人午夜视频在线观看| 日韩一区三区av在线| 高h纯肉无码视频在线观看|