亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

信息安全審查中目標信息智能發(fā)現(xiàn)技術研究

2015-04-16 22:19:22馮戈利韓彥軍王業(yè)璇秦現(xiàn)生

機械設計與制造工程 2015年5期

關鍵詞：智能信息

馮戈利，韓彥軍，王業(yè)璇，秦現(xiàn)生

(1.西北工業(yè)大學機電學院，陜西西安 710072)

(2.成都飛機工業(yè)(集團)有限責任公司,四川成都 610092)

(3.石家莊鐵道大學機械工程學院,河北石家莊 050043)

(4.山西職業(yè)技術學院基礎部,山西太原 030006)

信息安全審查中目標信息智能發(fā)現(xiàn)技術研究

馮戈利1,2，韓彥軍3，王業(yè)璇4，秦現(xiàn)生1

(1.西北工業(yè)大學機電學院，陜西西安 710072)

(2.成都飛機工業(yè)(集團)有限責任公司,四川成都 610092)

(3.石家莊鐵道大學機械工程學院,河北石家莊 050043)

(4.山西職業(yè)技術學院基礎部,山西太原 030006)

為了保證生產企業(yè)中設計、存儲、制造等環(huán)節(jié)的信息安全，在對企業(yè)信息分析的基礎上搭建了信息安全審查中目標信息智能發(fā)現(xiàn)基本框架，并針對信息審查中詞語級目標信息的獲取、目標信息與文檔的智能匹配策略進行了研究，提出了相關算法，最后通過實例驗證了算法的可行性。

目標信息;發(fā)現(xiàn)技術;檢索

信息安全是任何國家、政府、部門、行業(yè)都必須十分重視的問題，目前已經成為一個不容忽視的國家安全戰(zhàn)略問題[1]。目前國內涉密問題的安全檢查主要依靠保密審查機制，依據(jù)國家及有關安保部門法律法規(guī)來執(zhí)行，例如《中華人民共和國保守國家秘密法》、《中國人民解放軍保密條例》、《科學技術保密條例》、《中央企業(yè)商業(yè)秘密保護暫行規(guī)定》。該機制最大弱點在于：制度、法規(guī)、條例的執(zhí)行尺度基本上需要依靠人為來掌握，因此會不可避免地帶來諸如貫徹不徹底、執(zhí)行不認真、人工處理的主觀性等問題和缺陷。

目標信息智能發(fā)現(xiàn)技術是指對待審查信息進行數(shù)據(jù)挖掘和分析，通過人機結合的智能化系統(tǒng)對特定的目標信息進行篩選和定位的技術。近年來隨著計算機技術的發(fā)展以及智能發(fā)現(xiàn)應用環(huán)境的不斷拓展，其已經在文獻查詢、信息安全監(jiān)察、內容過濾等行業(yè)中逐漸得到了廣泛的應用[2-4]。因此，可以利用該技術對政府、軍方、軍工企業(yè)等機構的保密審查系統(tǒng)作補充和升級。

鑒于上述考慮，本文以高效、準確的詞語級目標信息審查為目標，設計了詞語級目標信息的智能匹配策略，并在此基礎上建立了智能審查系統(tǒng)，以期提高目標信息審查系統(tǒng)的工作效率、準確性、客觀性和智能性，從源頭上堵截涉密信息的流傳。

1 信息安全審查中目標信息智能發(fā)現(xiàn)基本框架

信息安全檢查基本思路是：在處理資料數(shù)據(jù)過程之初，總結本單位的涉密信息；然后在文件進行導入導出等操作時對文檔進行拆分、解析；隨后對文檔進行信息識別，對待審查文檔與涉密信息進行相似比較，就可以有效地發(fā)現(xiàn)待審查內容中所包含的目標信息?；究蚣苋鐖D1所示。

圖1所示的目標信息發(fā)現(xiàn)系統(tǒng)主要包括兩個部分：信息輸入模塊、目標信息智能發(fā)現(xiàn)模塊。

1)信息輸入處理模塊。

該模塊對目標信息發(fā)現(xiàn)起到基礎信息支撐作用，主要工作是在日常工作中對常用文檔分析，總結、提煉、抽取、發(fā)現(xiàn)本單位企業(yè)相關機密、涉密詞匯，存入相關數(shù)據(jù)庫。

2)目標信息智能發(fā)現(xiàn)模塊。

該模塊是該模型的核心，利用一些智能發(fā)現(xiàn)、查找算法，從傳入的待審查文檔中發(fā)現(xiàn)是否含有涉密信息。具體包括關鍵字審查、法規(guī)條例專家知識審查等步驟。

2 信息安全審查中目標信息的獲取

所謂的目標信息，一般都是在特定領域的一些涉及內部資料的核心內容或者敏感信息。為了便于研究，在本文中采用詞語級的語素來表示目標信息。為了闡述清晰，這里首先給出幾個關鍵性定義。

定義1：目標信息。指個人、部門或整個組織所期望找到的涉及國家軍事機密、政治秘密、商業(yè)秘密、敏感信息、核心內容、個人信息等內容。

按照信息的具體表現(xiàn)形式，可將目標信息劃分為文本信息和圖像信息；按照信息的清晰程度，可將目標信息分為有參照目標信息和無參照目標信息。

定義2：詞語級目標信息。指能夠表征目標信息的關鍵詞或者語素。

2.1目標信息來源

在本研究中，詞語級目標信息具體有以下幾種來源：

1)根據(jù)核心內容和敏感內容有預定意義的關鍵詞，包括關鍵術語、型號、數(shù)據(jù)、技術指標等，具有很強的領域特性。

2)根據(jù)國家法律、法規(guī)和企業(yè)規(guī)定、條例預定義的關鍵詞。具體包括相關法規(guī)條例的內容，或根據(jù)審查專家具體經驗總結出的內容。

3)根據(jù)工作人員經驗預定義的關鍵詞。

4)通過采用自有搜索引擎，或與具有保密資質的搜索引擎商合作，發(fā)現(xiàn)待審查信息中存在的而互聯(lián)網上沒有出現(xiàn)或很少出現(xiàn)的“新”涉及目標內容的關鍵詞。

在上述4種詞語級目標信息來源中，前3種屬于有參照的目標信息關鍵詞，最后一種屬于無參照的目標信息關鍵詞。

2.2詞語級目標信息抽取方法

為了能夠對輸入文本中的詞語級目標信息準確抽取，在本研究中對輸入的文檔信息的處理分為以下兩個步驟。

1)文本預處理。

在本研究中，文本的預處理過程主要包括文本中格式標記去除，非法字符去除，分詞、詞性標注，停用詞去除等幾個步驟。

2)詞語級目標信息抽取。

為了能夠準確反映文本中內容，需要抽取不同來源中的詞語級目標信息。結合軍工企業(yè)信息特點，借鑒文獻[5]中方法，可以利用圖譜理論中譜分割算法對文檔信息進行信息抽取，統(tǒng)計文檔中相關詞語的權重。譜分割算法主要是基于Laplace矩陣的特征值和特征向量對圖進行切割[6]，主要包括以下幾個步驟。

①構建關系圖。

結合軍工企業(yè)中信息安全特點，抽取詞語級目標信息構建成詞語關系圖?；舅悸窞椋涸O置文檔的復現(xiàn)詞頻數(shù)，設置人為的目標信息；針對詞頻設置，以及人為目標信息篩選關鍵詞；以關鍵詞作為圖的點，以關鍵詞在同一句子中出現(xiàn)的頻率為相似度，建立文檔的詞語關系圖。上述過程中，文檔詞集與圖的對應關系如圖2所示。

②構建關系圖的鄰接矩陣。

根據(jù)詞語級目標信息關系圖，構建其帶權鄰接矩陣。

③利用譜分割算法對關系圖進行分割。

本研究中針對已經形成的目標信息關系圖，利用鄰接矩陣的特征值特征向量中某些特性將圖分割成若干子圖。借鑒ACNA算法[7]，算法流程圖如圖3所示。

2.3實例驗證

為了測試目標信息抽取方法，給定圖4所示的一段文字樣本。

1)文本預處理。

首先，需要對示例文檔進行分詞和詞性標注。本文的研究中采用中國科學院的ICTCLAS分詞系

統(tǒng)進行中文分詞和詞性標注，上述文檔在通過分詞之后的結果如圖5所示。

然后，進一步去除分詞結果中的連詞、非法字符、標點符號、停用詞語，形成預處理文檔。

2)詞語級目標信息抽取。

對于詞語級目標的抽取，可以按照2.2節(jié)中相關步驟進行。

①構建詞語關系圖。

統(tǒng)計分詞結果中出現(xiàn)的飛機制造行業(yè)關鍵詞，以及在該文檔中出現(xiàn)兩次以上的詞語，結果見表1。

按照圖2中的對應關系，針對出現(xiàn)兩次以上的詞語，建立圖6所示的關系圖。

②構建關系圖的鄰接矩陣。

構建圖6的帶權鄰接矩陣如下：

③對關系圖進行分割。

按照圖3中所示的譜分割算法對關系圖進行分割，可以抽取得到示例文檔(圖4)的詞語級目標信息為隱形、飛機。另外，實際操作中還需要增加飛機制造行業(yè)信息安全中必須要有的幾個關鍵詞：雷達、散射、機翼、試驗機。

這樣，示例文檔(圖4)的詞語級目標信息就被擴展為：隱形、飛機、雷達、散射、機翼、試驗機。

3 詞語級目標信息智能匹配策略

在文檔的詞語級目標信息獲取的基礎上，本文研究了依據(jù)詞語級目標信息的文檔智能匹配策略。其核心思想是：首先利用2.2節(jié)中的方法，抽取文檔中的詞語級目標信息；然后運用數(shù)據(jù)挖掘分析方法和計算機技術來處理和表達詞性、詞長等屬性以及詞語位置屬性之間的關聯(lián)；最后，進一步通過類區(qū)分(Data Discrimination)的對比方式，計算每個詞語級目標信息之間的相關度。

3.1基于詞語級目標信息的文檔展示方法

通過對飛機制造行業(yè)涉密信息文件的分析，本文認為：文檔中的詞語級目標信息大致包含詞性、詞長和詞語位置3個維度的屬性。

1)詞性對文檔的影響。

結合文獻[8]中的研究，本文認為詞語級目標信息的詞性主要包含名詞、動詞、名詞短語和動詞短語4種詞性，其他語氣助詞在此暫時不予考慮。

2)詞長對文檔的影響。

通過對大量的涉密文件分析可知，詞語級目標信息大部分是由2～6個字組成的。

3)詞語位置對文檔的影響。

相關文獻的研究表明：詞語出現(xiàn)的位置對于描述、反映文檔內容方面也起著重要的作用[9]。

通過對大量飛機制造行業(yè)涉密文檔的研究發(fā)現(xiàn)，詞語級目標信息在詞長—詞語位置、詞性—詞長、詞性—詞語位置之間存在大量很強的相關性。如果建立詞性、詞長和詞語位置等屬性本體概念，就會發(fā)現(xiàn)每個詞都是以詞性、詞長、詞語位置為維度的三維空間中的一個數(shù)據(jù)點,如圖7所示。

因此，文檔中的詞語級信息在擁有具體描述內容的同時，還需要包含詞性、詞長和詞語位置三維信息；進而，如果忽略一些虛詞、沒有實際意義的詞語，則文檔可以被表示為一系列詞語級信息的集合。

3.2基于內容語義的相關度計算

利用3.1中方法可以將不同的文檔表示為一系列詞語級信息的集合；另外，可以在對詞語級目標信息的屬性分析基礎上，構建它們的本體概念。這樣就可利用LCH算法[10]來計算不同詞語級信息與文檔中詞語之間的相關度。

本研究中采用基于距離的LCH方法，該方法中將兩個詞語級信息之間的相似程度定義為本體分類結構中連接兩個術語的路徑長度的逆，公式表示如下：

由于詞語級信息在分類結構中所處的深度不同，其代表的相似程度也大不相同，因此在計算中可以引入深度這一參數(shù)，用來指該節(jié)點至根節(jié)點間路徑上的節(jié)點個數(shù)。因此，LCH可以被定義為：

log2(2d)-log2p

統(tǒng)一量綱后，其計算公式為：

3.3基于興趣模型的相似性計算

為了提高詞語級目標信息的檢索質量，針對前一階段的初步篩選結果，進一步通過對比文檔與用戶(單位)興趣信息之間整體的相似度來篩選目標信息。涉密企業(yè)之間存在不同的關注點，可以利用本單位的特點及安全檢查文件的關鍵詞來構建用戶(單位)的興趣模型。因此這里需要關注以下兩點內容：文檔特征向量和用戶興趣模型特征的構建方法；相關度計算方法。

3.3.1文檔與用戶興趣模型特征的構建

1)構建給定文檔的特征向量。

設文檔的關鍵詞分別為T1,T2,…,Tn，則其特征向量為T=[T1,T2,…,Tn]；其對應的詞頻向量為t=[t1,t2,…,tn]，詞頻ti(1≤i≤n)是在詞語Ti(1≤i≤n)出現(xiàn)的次數(shù)；可以設詞語Ti的權重是wi，表示其對文本主題內容的貢獻程度，則特征向量T=[T1,T2,…,Tn]對應的權重向量為w=[w1,w2,…,wn]。

關鍵詞的權重函數(shù)可以定義為：

式中：L表示詞語Ti的詞長；C為比例因子;α為詞語位于段首、段尾等位置時的一個權重。

2)構建用戶興趣的特征向量。

用戶的興趣模型是指從大量數(shù)據(jù)信息中歸納出的不同企業(yè)的關注點、關注詞、涉密詞、有關發(fā)展的核心詞匯等，可以表達為向量空間模型。

3.3.2相關度計算方法

根據(jù)需要設定一個過濾閾值ψ，當文檔的特征向量w與某個主題的興趣特征向量w′之間的相似度R大于ψ時，說明文檔與主題相似。

4 結束語

本文以軍工企業(yè)為例，探討了現(xiàn)代企業(yè)信息安全審查中目標信息的智能發(fā)現(xiàn)方法。文章以詞語級信息為主體，提出了信息安全審查中目標信息智能發(fā)現(xiàn)的基本框架，設計了信息安全審查中目標信息的獲取算法和詞語級目標信息智能匹配策略，實現(xiàn)了文檔中詞語級目標信息智能發(fā)現(xiàn)的精確性、及時性。

[1] 程紅蓉,周世杰,丁熠,等. 一個信息安全綜合設計型實驗的設計[J]. 實驗科學與技術, 2013, 11(6): 208-210.

[2] 梁愛東, 薛海波. 數(shù)字環(huán)境下的高校圖書館信息服務工作探析[J]. 信息系統(tǒng)工程, 2010(2):97-100.

[3] 崔虹燕, 蔣念平. 一種改進的多級信息安全過濾模型[J]. 情報理論與實踐, 2006, 29(5): 615-617.

[4] 蘇威. 基于Web不良信息過濾系統(tǒng)的研究[D].成都: 電子科技大學,2012.

[5] 肖根勝. 改進TFIDF和譜分割的關鍵詞自動抽取方法研究[D]. 武漢: 華中師范大學, 2012.

[6]MoharB.SomeapplicationsofLaplaceeigenvaluesofgraphs[J].NatoAsi, 1997(9):227-275.

[7] 田娟,王崇駿,李靜,等. 一個基于譜圖分割的簡單聚類算法[J]. 復旦學報, 2004, 43(5): 810-814.

[8] 方俊,郭雷,王曉東.基于語義的關鍵詞抽取算法[J].計算機科學,2008, 35(6):148-151.

[9] 李靜月,李培峰,朱巧明. 一種改進的TFIDF網頁關鍵詞提出方法[J].計算機應用與軟件,2011,28(5): 25-27.

[10]JonesKS.Astatisticalinterpretationoftermspecificityanditsapplicationinretrieval[J].JournalofDocumentation,1972, 28(1): 11-21.

Research on the technology of the intelligent target discovery in information security review

FENG Geli1,2,HAN Yanjun3,WANG Yexuan4,QIN Xiansheng1

(1.School of Mechanical and Electrical Engineering, Northwestern Polytechnical University, Shaanxi Xi'an, 710072, China)

(2. Chengdu Aircraft Industrial (group) Co., Ltd., Sichuan Chengdu, 610092, China)

(3.School of Mechanical Engineering, Shijiazhuang Tiedao University, Hebei Shijiazhuang, 050043, China)

(4.Department of Basic Courses, Shanxi Polytechnic College, Shanxi Taiyuan, 030006, China)

In order to ensure the information security of the production enterprises during design, storage and manufacture process, it sets the basic framework of the intelligent target discovery in the information security review base on the analysis of enterprise information. It analyzes the acquisition of the word-level target information and the intelligent matching strategy between the target information and documents in the information security review, then puts forward the related algorithm, validates the feasibility and effectiveness of the algorithm.

target information; discovery technology; retrieval

10.3969/j.issn.2095-509X.2015.05.013

2015-04-23

馮戈利(1968—)，女，四川洪雅人，成都飛機工業(yè)(集團)有限責任公司高級工程師，博士，主要研究方向為目標信息發(fā)掘與安全技術研究。

TP301.6

2095-509X(2015)05-0055-06