馮戈利,韓彥軍,王業(yè)璇,秦現(xiàn)生
(1.西北工業(yè)大學(xué)機(jī)電學(xué)院,陜西 西安 710072)
(2.成都飛機(jī)工業(yè)(集團(tuán))有限責(zé)任公司,四川 成都 610092)
(3.石家莊鐵道大學(xué)機(jī)械工程學(xué)院,河北 石家莊 050043)
(4.山西職業(yè)技術(shù)學(xué)院基礎(chǔ)部,山西 太原 030006)
信息安全審查中目標(biāo)信息智能發(fā)現(xiàn)技術(shù)研究
馮戈利1,2,韓彥軍3,王業(yè)璇4,秦現(xiàn)生1
(1.西北工業(yè)大學(xué)機(jī)電學(xué)院,陜西 西安 710072)
(2.成都飛機(jī)工業(yè)(集團(tuán))有限責(zé)任公司,四川 成都 610092)
(3.石家莊鐵道大學(xué)機(jī)械工程學(xué)院,河北 石家莊 050043)
(4.山西職業(yè)技術(shù)學(xué)院基礎(chǔ)部,山西 太原 030006)
為了保證生產(chǎn)企業(yè)中設(shè)計(jì)、存儲(chǔ)、制造等環(huán)節(jié)的信息安全,在對(duì)企業(yè)信息分析的基礎(chǔ)上搭建了信息安全審查中目標(biāo)信息智能發(fā)現(xiàn)基本框架,并針對(duì)信息審查中詞語(yǔ)級(jí)目標(biāo)信息的獲取、目標(biāo)信息與文檔的智能匹配策略進(jìn)行了研究,提出了相關(guān)算法,最后通過(guò)實(shí)例驗(yàn)證了算法的可行性。
目標(biāo)信息;發(fā)現(xiàn)技術(shù);檢索
信息安全是任何國(guó)家、政府、部門(mén)、行業(yè)都必須十分重視的問(wèn)題,目前已經(jīng)成為一個(gè)不容忽視的國(guó)家安全戰(zhàn)略問(wèn)題[1]。目前國(guó)內(nèi)涉密問(wèn)題的安全檢查主要依靠保密審查機(jī)制,依據(jù)國(guó)家及有關(guān)安保部門(mén)法律法規(guī)來(lái)執(zhí)行,例如《中華人民共和國(guó)保守國(guó)家秘密法》、《中國(guó)人民解放軍保密條例》、《科學(xué)技術(shù)保密條例》、《中央企業(yè)商業(yè)秘密保護(hù)暫行規(guī)定》。該機(jī)制最大弱點(diǎn)在于:制度、法規(guī)、條例的執(zhí)行尺度基本上需要依靠人為來(lái)掌握,因此會(huì)不可避免地帶來(lái)諸如貫徹不徹底、執(zhí)行不認(rèn)真、人工處理的主觀性等問(wèn)題和缺陷。
目標(biāo)信息智能發(fā)現(xiàn)技術(shù)是指對(duì)待審查信息進(jìn)行數(shù)據(jù)挖掘和分析,通過(guò)人機(jī)結(jié)合的智能化系統(tǒng)對(duì)特定的目標(biāo)信息進(jìn)行篩選和定位的技術(shù)。近年來(lái)隨著計(jì)算機(jī)技術(shù)的發(fā)展以及智能發(fā)現(xiàn)應(yīng)用環(huán)境的不斷拓展,其已經(jīng)在文獻(xiàn)查詢、信息安全監(jiān)察、內(nèi)容過(guò)濾等行業(yè)中逐漸得到了廣泛的應(yīng)用[2-4]。因此,可以利用該技術(shù)對(duì)政府、軍方、軍工企業(yè)等機(jī)構(gòu)的保密審查系統(tǒng)作補(bǔ)充和升級(jí)。
鑒于上述考慮,本文以高效、準(zhǔn)確的詞語(yǔ)級(jí)目標(biāo)信息審查為目標(biāo),設(shè)計(jì)了詞語(yǔ)級(jí)目標(biāo)信息的智能匹配策略,并在此基礎(chǔ)上建立了智能審查系統(tǒng),以期提高目標(biāo)信息審查系統(tǒng)的工作效率、準(zhǔn)確性、客觀性和智能性,從源頭上堵截涉密信息的流傳。
信息安全檢查基本思路是:在處理資料數(shù)據(jù)過(guò)程之初,總結(jié)本單位的涉密信息;然后在文件進(jìn)行導(dǎo)入導(dǎo)出等操作時(shí)對(duì)文檔進(jìn)行拆分、解析;隨后對(duì)文檔進(jìn)行信息識(shí)別,對(duì)待審查文檔與涉密信息進(jìn)行相似比較,就可以有效地發(fā)現(xiàn)待審查內(nèi)容中所包含的目標(biāo)信息?;究蚣苋鐖D1所示。
圖1所示的目標(biāo)信息發(fā)現(xiàn)系統(tǒng)主要包括兩個(gè)部分:信息輸入模塊、目標(biāo)信息智能發(fā)現(xiàn)模塊。
1)信息輸入處理模塊。
該模塊對(duì)目標(biāo)信息發(fā)現(xiàn)起到基礎(chǔ)信息支撐作用,主要工作是在日常工作中對(duì)常用文檔分析,總結(jié)、提煉、抽取、發(fā)現(xiàn)本單位企業(yè)相關(guān)機(jī)密、涉密詞匯,存入相關(guān)數(shù)據(jù)庫(kù)。
2)目標(biāo)信息智能發(fā)現(xiàn)模塊。
該模塊是該模型的核心,利用一些智能發(fā)現(xiàn)、查找算法,從傳入的待審查文檔中發(fā)現(xiàn)是否含有涉密信息。具體包括關(guān)鍵字審查、法規(guī)條例專家知識(shí)審查等步驟。
所謂的目標(biāo)信息,一般都是在特定領(lǐng)域的一些涉及內(nèi)部資料的核心內(nèi)容或者敏感信息。為了便于研究,在本文中采用詞語(yǔ)級(jí)的語(yǔ)素來(lái)表示目標(biāo)信息。為了闡述清晰,這里首先給出幾個(gè)關(guān)鍵性定義。
定義1:目標(biāo)信息。 指?jìng)€(gè)人、部門(mén)或整個(gè)組織所期望找到的涉及國(guó)家軍事機(jī)密、政治秘密、商業(yè)秘密、敏感信息、核心內(nèi)容、個(gè)人信息等內(nèi)容。
按照信息的具體表現(xiàn)形式,可將目標(biāo)信息劃分為文本信息和圖像信息;按照信息的清晰程度,可將目標(biāo)信息分為有參照目標(biāo)信息和無(wú)參照目標(biāo)信息。
定義2:詞語(yǔ)級(jí)目標(biāo)信息。 指能夠表征目標(biāo)信息的關(guān)鍵詞或者語(yǔ)素。
2.1目標(biāo)信息來(lái)源
在本研究中,詞語(yǔ)級(jí)目標(biāo)信息具體有以下幾種來(lái)源:
1)根據(jù)核心內(nèi)容和敏感內(nèi)容有預(yù)定意義的關(guān)鍵詞,包括關(guān)鍵術(shù)語(yǔ)、型號(hào)、數(shù)據(jù)、技術(shù)指標(biāo)等,具有很強(qiáng)的領(lǐng)域特性。
2)根據(jù)國(guó)家法律、法規(guī)和企業(yè)規(guī)定、條例預(yù)定義的關(guān)鍵詞。具體包括相關(guān)法規(guī)條例的內(nèi)容,或根據(jù)審查專家具體經(jīng)驗(yàn)總結(jié)出的內(nèi)容。
3)根據(jù)工作人員經(jīng)驗(yàn)預(yù)定義的關(guān)鍵詞。
4)通過(guò)采用自有搜索引擎,或與具有保密資質(zhì)的搜索引擎商合作,發(fā)現(xiàn)待審查信息中存在的而互聯(lián)網(wǎng)上沒(méi)有出現(xiàn)或很少出現(xiàn)的“新”涉及目標(biāo)內(nèi)容的關(guān)鍵詞。
在上述4種詞語(yǔ)級(jí)目標(biāo)信息來(lái)源中,前3種屬于有參照的目標(biāo)信息關(guān)鍵詞,最后一種屬于無(wú)參照的目標(biāo)信息關(guān)鍵詞。
2.2詞語(yǔ)級(jí)目標(biāo)信息抽取方法
為了能夠?qū)斎胛谋局械脑~語(yǔ)級(jí)目標(biāo)信息準(zhǔn)確抽取,在本研究中對(duì)輸入的文檔信息的處理分為以下兩個(gè)步驟。
1)文本預(yù)處理。
在本研究中,文本的預(yù)處理過(guò)程主要包括文本中格式標(biāo)記去除,非法字符去除,分詞、詞性標(biāo)注,停用詞去除等幾個(gè)步驟。
2)詞語(yǔ)級(jí)目標(biāo)信息抽取。
為了能夠準(zhǔn)確反映文本中內(nèi)容,需要抽取不同來(lái)源中的詞語(yǔ)級(jí)目標(biāo)信息。結(jié)合軍工企業(yè)信息特點(diǎn),借鑒文獻(xiàn)[5]中方法,可以利用圖譜理論中譜分割算法對(duì)文檔信息進(jìn)行信息抽取,統(tǒng)計(jì)文檔中相關(guān)詞語(yǔ)的權(quán)重。譜分割算法主要是基于Laplace矩陣的特征值和特征向量對(duì)圖進(jìn)行切割[6],主要包括以下幾個(gè)步驟。
①構(gòu)建關(guān)系圖。
結(jié)合軍工企業(yè)中信息安全特點(diǎn),抽取詞語(yǔ)級(jí)目標(biāo)信息構(gòu)建成詞語(yǔ)關(guān)系圖?;舅悸窞椋涸O(shè)置文檔的復(fù)現(xiàn)詞頻數(shù),設(shè)置人為的目標(biāo)信息;針對(duì)詞頻設(shè)置,以及人為目標(biāo)信息篩選關(guān)鍵詞;以關(guān)鍵詞作為圖的點(diǎn),以關(guān)鍵詞在同一句子中出現(xiàn)的頻率為相似度,建立文檔的詞語(yǔ)關(guān)系圖。上述過(guò)程中,文檔詞集與圖的對(duì)應(yīng)關(guān)系如圖2所示。
②構(gòu)建關(guān)系圖的鄰接矩陣。
根據(jù)詞語(yǔ)級(jí)目標(biāo)信息關(guān)系圖,構(gòu)建其帶權(quán)鄰接矩陣。
③利用譜分割算法對(duì)關(guān)系圖進(jìn)行分割。
本研究中針對(duì)已經(jīng)形成的目標(biāo)信息關(guān)系圖,利用鄰接矩陣的特征值特征向量中某些特性將圖分割成若干子圖。借鑒ACNA算法[7],算法流程圖如圖3所示。
2.3實(shí)例驗(yàn)證
為了測(cè)試目標(biāo)信息抽取方法,給定圖4所示的一段文字樣本。
1)文本預(yù)處理。
首先,需要對(duì)示例文檔進(jìn)行分詞和詞性標(biāo)注。本文的研究中采用中國(guó)科學(xué)院的ICTCLAS分詞系
統(tǒng)進(jìn)行中文分詞和詞性標(biāo)注,上述文檔在通過(guò)分詞之后的結(jié)果如圖5所示。
然后,進(jìn)一步去除分詞結(jié)果中的連詞、非法字符、標(biāo)點(diǎn)符號(hào)、停用詞語(yǔ),形成預(yù)處理文檔。
2)詞語(yǔ)級(jí)目標(biāo)信息抽取。
對(duì)于詞語(yǔ)級(jí)目標(biāo)的抽取,可以按照2.2節(jié)中相關(guān)步驟進(jìn)行。
①構(gòu)建詞語(yǔ)關(guān)系圖。
統(tǒng)計(jì)分詞結(jié)果中出現(xiàn)的飛機(jī)制造行業(yè)關(guān)鍵詞,以及在該文檔中出現(xiàn)兩次以上的詞語(yǔ),結(jié)果見(jiàn)表1。
按照?qǐng)D2中的對(duì)應(yīng)關(guān)系,針對(duì)出現(xiàn)兩次以上的詞語(yǔ),建立圖6所示的關(guān)系圖。
②構(gòu)建關(guān)系圖的鄰接矩陣。
構(gòu)建圖6的帶權(quán)鄰接矩陣如下:
③對(duì)關(guān)系圖進(jìn)行分割。
按照?qǐng)D3中所示的譜分割算法對(duì)關(guān)系圖進(jìn)行分割,可以抽取得到示例文檔(圖4)的詞語(yǔ)級(jí)目標(biāo)信息為隱形、飛機(jī)。另外,實(shí)際操作中還需要增加飛機(jī)制造行業(yè)信息安全中必須要有的幾個(gè)關(guān)鍵詞:雷達(dá)、散射、機(jī)翼、試驗(yàn)機(jī)。
這樣,示例文檔(圖4)的詞語(yǔ)級(jí)目標(biāo)信息就被擴(kuò)展為:隱形、飛機(jī)、雷達(dá)、散射、機(jī)翼、試驗(yàn)機(jī)。
在文檔的詞語(yǔ)級(jí)目標(biāo)信息獲取的基礎(chǔ)上,本文研究了依據(jù)詞語(yǔ)級(jí)目標(biāo)信息的文檔智能匹配策略。其核心思想是:首先利用2.2節(jié)中的方法,抽取文檔中的詞語(yǔ)級(jí)目標(biāo)信息;然后運(yùn)用數(shù)據(jù)挖掘分析方法和計(jì)算機(jī)技術(shù)來(lái)處理和表達(dá)詞性、詞長(zhǎng)等屬性以及詞語(yǔ)位置屬性之間的關(guān)聯(lián);最后,進(jìn)一步通過(guò)類區(qū)分(Data Discrimination)的對(duì)比方式,計(jì)算每個(gè)詞語(yǔ)級(jí)目標(biāo)信息之間的相關(guān)度。
3.1基于詞語(yǔ)級(jí)目標(biāo)信息的文檔展示方法
通過(guò)對(duì)飛機(jī)制造行業(yè)涉密信息文件的分析,本文認(rèn)為:文檔中的詞語(yǔ)級(jí)目標(biāo)信息大致包含詞性、詞長(zhǎng)和詞語(yǔ)位置3個(gè)維度的屬性。
1)詞性對(duì)文檔的影響。
結(jié)合文獻(xiàn)[8]中的研究,本文認(rèn)為詞語(yǔ)級(jí)目標(biāo)信息的詞性主要包含名詞、動(dòng)詞、名詞短語(yǔ)和動(dòng)詞短語(yǔ)4種詞性,其他語(yǔ)氣助詞在此暫時(shí)不予考慮。
2)詞長(zhǎng)對(duì)文檔的影響。
通過(guò)對(duì)大量的涉密文件分析可知,詞語(yǔ)級(jí)目標(biāo)信息大部分是由2~6個(gè)字組成的。
3)詞語(yǔ)位置對(duì)文檔的影響。
相關(guān)文獻(xiàn)的研究表明:詞語(yǔ)出現(xiàn)的位置對(duì)于描述、反映文檔內(nèi)容方面也起著重要的作用[9]。
通過(guò)對(duì)大量飛機(jī)制造行業(yè)涉密文檔的研究發(fā)現(xiàn),詞語(yǔ)級(jí)目標(biāo)信息在詞長(zhǎng)—詞語(yǔ)位置、詞性—詞長(zhǎng)、詞性—詞語(yǔ)位置之間存在大量很強(qiáng)的相關(guān)性。如果建立詞性、詞長(zhǎng)和詞語(yǔ)位置等屬性本體概念,就會(huì)發(fā)現(xiàn)每個(gè)詞都是以詞性、詞長(zhǎng)、詞語(yǔ)位置為維度的三維空間中的一個(gè)數(shù)據(jù)點(diǎn),如圖7所示。
因此,文檔中的詞語(yǔ)級(jí)信息在擁有具體描述內(nèi)容的同時(shí),還需要包含詞性、詞長(zhǎng)和詞語(yǔ)位置三維信息;進(jìn)而,如果忽略一些虛詞、沒(méi)有實(shí)際意義的詞語(yǔ),則文檔可以被表示為一系列詞語(yǔ)級(jí)信息的集合。
3.2基于內(nèi)容語(yǔ)義的相關(guān)度計(jì)算
利用3.1中方法可以將不同的文檔表示為一系列詞語(yǔ)級(jí)信息的集合;另外,可以在對(duì)詞語(yǔ)級(jí)目標(biāo)信息的屬性分析基礎(chǔ)上,構(gòu)建它們的本體概念。這樣就可利用LCH算法[10]來(lái)計(jì)算不同詞語(yǔ)級(jí)信息與文檔中詞語(yǔ)之間的相關(guān)度。
本研究中采用基于距離的LCH方法,該方法中將兩個(gè)詞語(yǔ)級(jí)信息之間的相似程度定義為本體分類結(jié)構(gòu)中連接兩個(gè)術(shù)語(yǔ)的路徑長(zhǎng)度的逆,公式表示如下:
由于詞語(yǔ)級(jí)信息在分類結(jié)構(gòu)中所處的深度不同,其代表的相似程度也大不相同,因此在計(jì)算中可以引入深度這一參數(shù),用來(lái)指該節(jié)點(diǎn)至根節(jié)點(diǎn)間路徑上的節(jié)點(diǎn)個(gè)數(shù)。因此,LCH可以被定義為:
log2(2d)-log2p
統(tǒng)一量綱后,其計(jì)算公式為:
3.3基于興趣模型的相似性計(jì)算
為了提高詞語(yǔ)級(jí)目標(biāo)信息的檢索質(zhì)量,針對(duì)前一階段的初步篩選結(jié)果,進(jìn)一步通過(guò)對(duì)比文檔與用戶(單位)興趣信息之間整體的相似度來(lái)篩選目標(biāo)信息。涉密企業(yè)之間存在不同的關(guān)注點(diǎn),可以利用本單位的特點(diǎn)及安全檢查文件的關(guān)鍵詞來(lái)構(gòu)建用戶(單位)的興趣模型。因此這里需要關(guān)注以下兩點(diǎn)內(nèi)容:文檔特征向量和用戶興趣模型特征的構(gòu)建方法;相關(guān)度計(jì)算方法。
3.3.1文檔與用戶興趣模型特征的構(gòu)建
1)構(gòu)建給定文檔的特征向量。
設(shè)文檔的關(guān)鍵詞分別為T(mén)1,T2,…,Tn,則其特征向量為T(mén)=[T1,T2,…,Tn];其對(duì)應(yīng)的詞頻向量為t=[t1,t2,…,tn],詞頻ti(1≤i≤n)是在詞語(yǔ)Ti(1≤i≤n)出現(xiàn)的次數(shù);可以設(shè)詞語(yǔ)Ti的權(quán)重是wi,表示其對(duì)文本主題內(nèi)容的貢獻(xiàn)程度,則特征向量T=[T1,T2,…,Tn]對(duì)應(yīng)的權(quán)重向量為w=[w1,w2,…,wn]。
關(guān)鍵詞的權(quán)重函數(shù)可以定義為:
式中:L表示詞語(yǔ)Ti的詞長(zhǎng);C為比例因子;α為詞語(yǔ)位于段首、段尾等位置時(shí)的一個(gè)權(quán)重。
2)構(gòu)建用戶興趣的特征向量。
用戶的興趣模型是指從大量數(shù)據(jù)信息中歸納出的不同企業(yè)的關(guān)注點(diǎn)、關(guān)注詞、涉密詞、有關(guān)發(fā)展的核心詞匯等,可以表達(dá)為向量空間模型。
3.3.2相關(guān)度計(jì)算方法
根據(jù)需要設(shè)定一個(gè)過(guò)濾閾值ψ,當(dāng)文檔的特征向量w與某個(gè)主題的興趣特征向量w′之間的相似度R大于ψ時(shí),說(shuō)明文檔與主題相似。
本文以軍工企業(yè)為例,探討了現(xiàn)代企業(yè)信息安全審查中目標(biāo)信息的智能發(fā)現(xiàn)方法。文章以詞語(yǔ)級(jí)信息為主體,提出了信息安全審查中目標(biāo)信息智能發(fā)現(xiàn)的基本框架,設(shè)計(jì)了信息安全審查中目標(biāo)信息的獲取算法和詞語(yǔ)級(jí)目標(biāo)信息智能匹配策略,實(shí)現(xiàn)了文檔中詞語(yǔ)級(jí)目標(biāo)信息智能發(fā)現(xiàn)的精確性、及時(shí)性。
[1] 程紅蓉,周世杰,丁熠,等. 一個(gè)信息安全綜合設(shè)計(jì)型實(shí)驗(yàn)的設(shè)計(jì)[J]. 實(shí)驗(yàn)科學(xué)與技術(shù), 2013, 11(6): 208-210.
[2] 梁愛(ài)東, 薛海波. 數(shù)字環(huán)境下的高校圖書(shū)館信息服務(wù)工作探析[J]. 信息系統(tǒng)工程, 2010(2):97-100.
[3] 崔虹燕, 蔣念平. 一種改進(jìn)的多級(jí)信息安全過(guò)濾模型[J]. 情報(bào)理論與實(shí)踐, 2006, 29(5): 615-617.
[4] 蘇威. 基于Web不良信息過(guò)濾系統(tǒng)的研究[D].成都: 電子科技大學(xué),2012.
[5] 肖根勝. 改進(jìn)TFIDF和譜分割的關(guān)鍵詞自動(dòng)抽取方法研究[D]. 武漢: 華中師范大學(xué), 2012.
[6]MoharB.SomeapplicationsofLaplaceeigenvaluesofgraphs[J].NatoAsi, 1997(9):227-275.
[7] 田娟,王崇駿,李靜,等. 一個(gè)基于譜圖分割的簡(jiǎn)單聚類算法[J]. 復(fù)旦學(xué)報(bào), 2004, 43(5): 810-814.
[8] 方俊,郭雷,王曉東.基于語(yǔ)義的關(guān)鍵詞抽取算法[J].計(jì)算機(jī)科學(xué),2008, 35(6):148-151.
[9] 李靜月,李培峰,朱巧明. 一種改進(jìn)的TFIDF網(wǎng)頁(yè)關(guān)鍵詞提出方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(5): 25-27.
[10]JonesKS.Astatisticalinterpretationoftermspecificityanditsapplicationinretrieval[J].JournalofDocumentation,1972, 28(1): 11-21.
Research on the technology of the intelligent target discovery in information security review
FENG Geli1,2,HAN Yanjun3,WANG Yexuan4,QIN Xiansheng1
(1.School of Mechanical and Electrical Engineering, Northwestern Polytechnical University, Shaanxi Xi'an, 710072, China)
(2. Chengdu Aircraft Industrial (group) Co., Ltd., Sichuan Chengdu, 610092, China)
(3.School of Mechanical Engineering, Shijiazhuang Tiedao University, Hebei Shijiazhuang, 050043, China)
(4.Department of Basic Courses, Shanxi Polytechnic College, Shanxi Taiyuan, 030006, China)
In order to ensure the information security of the production enterprises during design, storage and manufacture process, it sets the basic framework of the intelligent target discovery in the information security review base on the analysis of enterprise information. It analyzes the acquisition of the word-level target information and the intelligent matching strategy between the target information and documents in the information security review, then puts forward the related algorithm, validates the feasibility and effectiveness of the algorithm.
target information; discovery technology; retrieval
10.3969/j.issn.2095-509X.2015.05.013
2015-04-23
馮戈利(1968—),女,四川洪雅人,成都飛機(jī)工業(yè)(集團(tuán))有限責(zé)任公司高級(jí)工程師,博士,主要研究方向?yàn)槟繕?biāo)信息發(fā)掘與安全技術(shù)研究。
TP301.6
A
2095-509X(2015)05-0055-06