亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理的文本泄密自動檢測技術(shù)

        2011-09-07 10:17:00王利鑫耿煥同
        計算機工程與設(shè)計 2011年8期
        關(guān)鍵詞:文本檢測信息

        王利鑫, 耿煥同, 孫 凱, 張 茜

        (南京信息工程大學(xué)計算機與軟件學(xué)院,江蘇南京210044)

        0 引 言

        信息的生產(chǎn)、存儲、獲取、共享以及傳播已越來越方便,但與此同時,信息泄密隨著信息化程度的提高而日益加劇。近年來,各級黨政機關(guān)門戶網(wǎng)站普及的同時,非法披露國家秘密信息事件呈上升趨勢,在泄密事件中所占比例也迅速攀升,信息公開的同時導(dǎo)致了信息的泄密[1]。在各種信息安全威脅所造成的損失中,企業(yè)和政府機構(gòu)因重要信息被泄密所造成的損失排第一位。所以,信息泄密檢測已成為一項十分艱巨而重要的任務(wù)。目前針對各級黨政機關(guān)網(wǎng)站的信息泄密檢測主要采用人工檢測方式,效率低、安全性差。主要原因有3點:一是網(wǎng)絡(luò)信息量大。工作人員需訪問大量網(wǎng)頁,下載大量文檔逐一查看比較,通過人工判斷是否存在涉密信息。二是泄密程度存在差異。泄密一般可分為全文與部分泄密。全文泄密檢測相對容易,部分泄密的檢測則難度高、工作量大。原因是泄密部分可能是涉密原文的部分段落,或是調(diào)整順序的段落,或是調(diào)整語序的段落,或是對某些段落的合并、擴充、壓縮等情況,更有甚者僅僅為涉密原文的某些語句。工作人員在檢測時需逐段逐句的進行比較并定位疑似泄密信息,否則會出現(xiàn)漏檢。三是安全性差,易造成二次泄密。由于人工檢測需查看涉密文件,為信息的泄密多了一份可能與危險。針對以上問題,提出了一種基于自然語言處理的文本泄密自動檢測技術(shù),實驗結(jié)果證明該方法是有效可行的。

        1 相關(guān)技術(shù)

        1.1 Web信息抽取技術(shù)

        網(wǎng)絡(luò)是巨大的數(shù)據(jù)庫,同時也是信息泄密的重要渠道,從Internet或Intranet上獲取信息,查看其是否含有涉密信息。目前人們主要通過人為打開網(wǎng)頁或下載相關(guān)文檔進行逐一查閱,費時費力,效率低。利用Web信息抽取技術(shù)[2](web information extraction),就是從Web頁面中所包含的無結(jié)構(gòu)化或者半結(jié)構(gòu)化的信息中識別用戶所感興趣的信息數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更加清晰的數(shù)據(jù)格式。論文仍采用原先提出的一種基于視覺分塊的Web信息抽取方法[3],自動抽取相關(guān)網(wǎng)站的信息。

        在此基礎(chǔ)上,又對具體網(wǎng)頁進行深層抽取,即對某一具體網(wǎng)頁的文本內(nèi)容進行抽取。首先獲得初次抽取的網(wǎng)頁的網(wǎng)址集合,然后分析某具體網(wǎng)頁源文件,最后采用基于正則表達式的方法自動將網(wǎng)頁中的文本內(nèi)容抽取出來,將此文本內(nèi)容用作泄密檢測的數(shù)據(jù)來源。

        1.2 中文分詞與文本加密技術(shù)

        中文分詞是漢語自然語言處理的第一步,也是最重要的環(huán)節(jié)。在中文信息處理中,信息檢索、抽取、Web文本挖掘、文本分類等都主要以中文分詞為基礎(chǔ)。文中主要是利用中文分詞技術(shù),對文本進行分詞,在分詞的基礎(chǔ)上,去除停用詞,為相似度計算做好準(zhǔn)備。

        由于泄密檢測的涉密文件,為防止其二次泄密,需對涉密文本進行加密;且保證加密過程不可逆,確保無法從加密后密文再得到明文,這樣就很好地保證了涉密文件在泄密檢測中的安全性。著名的MD5算法可以很好地滿足加密要求。MD5算法[4]是由美國教授RonaldRivest于1992年對MD4做改進的基礎(chǔ)上提出的HASH算法,就是把一個任意長度的字節(jié)串變換成一定長的大整數(shù),并且是不可逆的字符串變換算法。

        論文是利用MD5較好的安全性、不可逆性,對分詞后的文本逐個詞加密,每個不同的詞加密后得到唯一的MD5信息摘要,相同的詞必得到相同的信息摘要,這樣保證加密后不影響比較結(jié)果。

        2 主要流程與算法

        2.1 相似度比較算法

        相似度定義:A與B之間的相似度一方面與它們的共性相關(guān),共性越多,相似度越高;另一方面與它們的區(qū)別相關(guān),區(qū)別越大,相似度越低;當(dāng)A與B完全相同時,相似度達到最大值。對于文本相似度的度量一般將其定義在[0,1]范圍內(nèi),0值最小,表示完全不相似,1值最大,表示兩者相同。

        計算文本的相似度算法主要有基于馬爾科夫模型[5]、基于屬性輪[6]、基于語義理解[7-9]、基于向量空間模型[10-13]等幾種經(jīng)典的算法。論文采用的是基于向量空間模型的文本相似度算法。

        向量空間模型(vector space model,VSM)是近年來使用較多且效果較好的一種模型。在VSM中,將文本看作由相互獨立的詞條組(T1,T2,…,Tn)構(gòu)成,對于每個詞條Ti,統(tǒng)計其個數(shù),計算其詞頻,得到i詞條在整個文本中所占的權(quán)重Wi,文本間的相似度就可以轉(zhuǎn)化為向量之間夾角的余弦值來表示,夾角越小,表示越相似,對應(yīng)的相似度值(余弦值)也就越大。需比較的兩篇文檔為P1,P2,相似度計算公式如下

        2.2 基于自然段落的相似度計算

        (1)對待比較的文檔P1與P2進行自然分段,對每段進行分詞、去除停用詞等預(yù)處理,并計算每段中詞的權(quán)重;

        (2)設(shè)定一個閾值(論文中設(shè)為0.5),將待檢測的文檔P1的段落P1i(i為P1的段落數(shù))與P2中的所有自然段利用式(1)計算相似度Sim,當(dāng)Sim大于設(shè)定的閾值時,則記錄P2的段落數(shù)以及對應(yīng)的相似度值,否則跳到步驟3;

        (3)重復(fù)步驟2,直至P1中所有的段落與P2中的段落比較完成;

        (4)統(tǒng)計記錄的段落數(shù),并進行標(biāo)記,得到相似段落;

        2.3 工作流程與步驟

        泄密檢測系統(tǒng)主要有4方面工作:一是文本信息源的獲取(信息抽取),二是文本信息預(yù)處理(中文分詞、文本加密等),三是相似度計算,四是基于自然段落的相似度計算。其模型與流程如圖1所示。

        圖1 系統(tǒng)模型與流程

        (1)對涉密文本A預(yù)處理,包括:中文分詞、MD5加密得到每個詞的密文,并計算每個密文的權(quán)重Wi(i為某詞條);

        (2)提供需檢測的網(wǎng)站網(wǎng)址,利用基于視覺分塊的Web信息抽取方法,得到一組列表網(wǎng)頁的網(wǎng)址集合H;

        (3)在步驟2的基礎(chǔ)上,獲得網(wǎng)址Hj,分析該網(wǎng)頁的源文件,自動獲取網(wǎng)頁中文本內(nèi)容Bj(j為某網(wǎng)頁);

        (4)對步驟3中獲取的文本內(nèi)容進行預(yù)處理,包括:中文分詞、MD5加密得到第j篇文本分詞后每個詞的密文,計算每個密文的權(quán)重Wk(k為某詞條);

        (5)利用式(1),計算文本A與文本Bi的段落相似度Sim;

        (6)重復(fù)步驟(3~5),得到文本A與文本集合B的相似度集合AllSim;

        (7)根據(jù)設(shè)定的閾值,當(dāng)AllSimj>0.5時,則認為第j網(wǎng)頁泄密;否則進入步驟8;

        (8)為了防止漏檢,對涉密文本A與待檢測的網(wǎng)頁文本Bm(AllSimm<0.5)進行自然分段,采用基于自然段落的相似度比較方法,計算段落間的相似度,當(dāng)相似度值大于閾值時,則認為段落相似;

        (9)重復(fù)步驟8,直至所有小于閾值的文本比較完成,得到相似段落;

        3 實驗與分析

        為了驗證方法的可行性以及算法的正確性,設(shè)計了一篇文檔test1.txt,由南京信息工程大學(xué)網(wǎng)站信息公告的最近50篇公告中的30篇內(nèi)容組成,其中包括整段復(fù)制、部分段落復(fù)制、調(diào)換段落中語句順序、調(diào)換段落順序、對某些段落擴充或者壓縮等多種情況,從而達到驗證的目的。圖2為文檔與50篇信息公告初次比較的效果,粒度較大。所顯示的網(wǎng)頁為南京信息工程大學(xué)信息公告第24篇,與test1.txt相似度為0.96121,大于設(shè)定閾值0.5,直接判定該網(wǎng)頁泄密。系統(tǒng)能定位到該網(wǎng)頁,方面工作人員查看以及做好泄密報告。其中“B59CE2C0BB5 AAA86AB8B87C4EEA5EA79”為某一字符串加密后的密文,“【】”為分隔符,“0.00299”是其在文中所占的權(quán)重。

        圖2 初次比較結(jié)果

        對于相似度值小于閾值的網(wǎng)頁,也有可能存在泄密的信息。為了防止漏檢,需對其進一步的檢測。圖3是根據(jù)初次比較結(jié)果,細化比較粒度,采用基于自然段落的相似度比較算法進行檢測,設(shè)定閾值為0.5。為了顯示比較的效果,所以將涉密文件以明文來顯示。

        圖3 基于段落相似度比較

        圖3中,左側(cè)文檔1為涉密文本的某些段落,右側(cè)文檔2為某網(wǎng)頁文本內(nèi)容。可以看出,文檔1的第1段與文檔2的第6段相似,相似度為0.9214,段落中語句順序有調(diào)整;文檔1的第2段與文檔2的第3段相似,相似度為0.88177,區(qū)別在于少部分修飾的詞語;文檔1的第3段與文檔2的第4段相似,相似度為0.68096,其主要摘取了文檔2的部分語句;同樣,文檔1的第4段與文檔2的第7段內(nèi)容相似,相似度為0.92097,其主要是調(diào)整了部分語序以及摘取了部分語句。

        從以上實驗可以看出,粗粒度比較只能計算出整體相似度,易出現(xiàn)漏檢的可能。采用基于自然段落的相似度檢測方法后,細化了比較的粒度,能定位到具體泄密的段落,而且無須考慮段落的順序,段落語句順序的調(diào)整,段落的擴充或者壓縮等情況,能有效的檢測出信息泄密。

        基于自然段落的相似度比較主要有以下3種情況,如圖4所示:假定涉密段落為P1,待檢測的段落為P2。

        (1)P1≈P2:P1與P2中內(nèi)容大小相當(dāng)(如圖4中A情況所示);

        (2)P1>P2:P1的內(nèi)容遠大于P2中涉密的內(nèi)容,其中P2的內(nèi)容僅僅是P1中的一小部分(如圖4中B情況的紅色部分);

        圖4 段落相似度比較3種情況

        (3)P1

        在設(shè)定的閾值(論文中設(shè)為0.5)前提下,對于情況1,目前的算法能較好的計算其相似度并定位相應(yīng)的疑似相似段落,對于情況2與情況3,由于基于VSM的相似度算法是利用詞頻統(tǒng)計來計算的,所以會出現(xiàn)漏檢問題,即存在涉密的內(nèi)容,但是由于計算所得的相似度值遠遠小于閾值而無法檢測出泄密的內(nèi)容。

        針對情況2與情況3,論文提出兩種解決方案。一是調(diào)整相似度閾值,即根據(jù)檢測粒度的需要,將相似度閾值調(diào)小,從而提高檢測的查全率,這種方法的局限在于要不斷的調(diào)整閾值大小,而且易出現(xiàn)誤檢的可能。二是繼續(xù)細化比較粒度,即段落的分塊。對于大段落,將一定字?jǐn)?shù)分為一塊,然后與之比較得到相似的塊,這樣細化了段落,但同樣存在問題,即塊的大小確定為多大合適,另外一旦分塊,易出現(xiàn)將涉密信息分塊,導(dǎo)致漏檢。

        針對以上問題,論文又提出采用基于語句的相似度檢測的方法。即在段落的基礎(chǔ)上,根據(jù)段落中標(biāo)點符號(主要是句號)對段落進一步細化,然后采用相似度計算方法,得到疑似的句子,效果如圖5所示。段落中的語句順序有所改變,部分詞語有所增刪,但不影響比較效果。算法步驟如下:

        (1)對待比較的段落Para1與Para2根據(jù)句號來分句,然后對每句進行分詞、去除停用詞等預(yù)處理,并計算每句話中詞的權(quán)重;

        (2)設(shè)定一個閾值(論文設(shè)為0.5),將Para1的句子Si(i為句子數(shù))與Para2中的所有句子利用式(1)計算相似度Simi,當(dāng)Simi大于設(shè)定的閾值時,則記錄Para2的語句數(shù)以及對應(yīng)的相似度值,否則跳到步驟3;

        (3)重復(fù)步驟2,直至Para1中所有的句子與Para2中的句子比較完成;

        (4)統(tǒng)計記錄的語句數(shù),并進行標(biāo)記,得到相似語句;

        圖5 基于語句的相似度計算

        最后,對3種方法進行了性能比較,主要考慮查全率、查準(zhǔn)率以及檢測耗時3方面因素。比較效果如表1所示。

        表1 3種方法性能比較

        從表1可以看出,采用自然語言處理技術(shù)對文本進行泄密檢測,效率高,50篇檢測僅需8.4s,每篇耗時僅0.168s,采用段落和語句檢測耗時也在2s以內(nèi)。同時,采用段落和語句的比較后,在保證查準(zhǔn)率的前提下,大大提高了查全率。

        4 結(jié)束語

        針對目前文本泄密檢測采用人工方式檢測,效率低、易泄密等問題,論文提出了一種基于自然語言處理技術(shù)的文本泄密自動檢測方法。采用基于相似度比較方法,檢測文本是否泄密。為了防止漏檢與誤檢,設(shè)計了一種基于自然段落和語句的相似度比較算法,實驗表明該方法是可行的。

        從待檢測的文本信息源的獲取、信息加密、相似度比較到最后疑似泄密段落的定位都是自動的,并且改變以往人工一對一的比較方式,實現(xiàn)了一對多的比較,改變傳統(tǒng)的明文比較,在加密后對密文進行比較。該方法具有效率高,安全系數(shù)高,人工參與少等優(yōu)點。但不能完全替代人工檢測,一是會存在誤差,二是畢竟泄密是很嚴(yán)重的事,最后需要人的判定,但作為一種輔助的信息泄密檢測技術(shù),該方法能達到較好的效果。從完全人工的檢測到現(xiàn)在只需人工最后的判定,一定程度上減輕了人的工作量與負擔(dān)。

        目前仍存在值得改進的地方,如對文本的預(yù)處理,沒有考慮同義詞問題,通過同義詞轉(zhuǎn)化,能提高相似度比較的精確度等,這將是下一步需要解決的問題。

        [1]益陽保密網(wǎng)[EB/OL].http://www.yiyang.org/yybm/html/xuanchuan/20100318100838.html,2010.

        [2]Chang Chia-Hui,Mohammed Kayed.A survey of web information extraction systems[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1411-1428.

        [3]耿煥同,宋慶席,何宏強.一種基于視覺分塊的Web信息抽取方法研究[J].情報理論與實踐,2009,32(3):106-109.

        [4]張裔智,趙毅,湯小斌.MD5算法研究[J].計算機科學(xué),2008,35(7):295-297.

        [5]蘇振魁.基于馬爾科夫模型的文本相似度研究[D].大連:大連理工大學(xué),2007.

        [6]袁正午,李玉森,張雪英.基于屬性的文本相似度計算算法改進[J].計算機工程,2009,35(17):4-6.

        [7]金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報,2005,45(2):291-297.

        [8]李鵬,陶蘭,王弼佐.一種改進的本體語義相似度計算及其應(yīng)用[J].計算機工程與設(shè)計,2007,28(1):227-229.

        [9]黃果,周竹榮.基于領(lǐng)域本體的概念語義相似度計算研究[J].計算機工程與設(shè)計,2007,28(10):2460-2463.

        [10]郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計算的研究[J].計算機應(yīng)用研究,2008,25(11):3256-3258.

        [11]Elsayed Atlam.A new approach for text similarity using articles[J].International Journal of Information Technology&Decision Making,2008,7(1):23-34.

        [12]khaled M Hammouda,Mohamed S Kamel.Document similarity Using a phrase indexing graph model[J].Knowledge and Information System,2004,6(6):710-727.

        [13]Xu Yong-Dong,Xu Zhi-Ming,Wang Xiao-Long,et al.Using Mulitiple features and statistical model to calculate text units similarity[C].Guangzhou:Proceedings of the Fourth International Conference on Machine Learning and Cybernetics,2005:18-21.

        猜你喜歡
        文本檢測信息
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        小波變換在PCB缺陷檢測中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        国产精成人品| 亚洲国产女性内射第一区二区| 大尺度无遮挡激烈床震网站 | 美女内射毛片在线看免费人动物| 亚洲高潮喷水无码av电影| 国产农村三片免费网站| 国语自产啪在线观看对白| 男女av一区二区三区| 亚洲av无码成人专区片在线观看| 亚洲片一区二区三区| 日韩精品高清不卡一区二区三区| 免费亚洲老熟熟女熟女熟女| 最新亚洲人成网站在线观看 | av免费一区二区久久| 曰韩无码无遮挡a级毛片| 亚洲的天堂av无码| 久久亚洲中文字幕精品一区四| 高清在线有码日韩中文字幕| 真实人与人性恔配视频| 男人扒开女人双腿猛进女人机机里| 午夜一区二区三区在线视频| 国产精品白浆一区二区免费看| 成人aaa片一区国产精品| 国产鲁鲁视频在线播放| 亚洲av永久综合网站美女| 末成年人av一区二区| 精品国产sm捆绑最大网免费站| 成人午夜无人区一区二区| 中文字幕日本在线乱码| 朋友的丰满人妻中文字幕| 亚洲av区无码字幕中文色| 日本av一区二区播放| 亚洲毛片在线免费视频| 亚洲伊人色欲综合网| 91国在线啪精品一区| 国产精品久久av高潮呻吟| 国产精品9999久久久久仙踪林| 97色伦图片97综合影院久久 | 国模精品二区| 日本av一级视频在线观看| 国产色在线 | 日韩|