王 雷,李云亞
(江蘇金盾檢測技術(shù)有限公司,江蘇 南京 210042)
以文字、圖表、音像及其他記錄形式記載商業(yè)、軍事、國家秘密內(nèi)容的資料被稱為涉密文件,國家安全利益、企業(yè)商業(yè)利益直接與這類文件存放是否得當(dāng)相關(guān)聯(lián)[1]。隨著網(wǎng)絡(luò)以及各類應(yīng)用的發(fā)展,涉密材料往往在網(wǎng)絡(luò)渠道傳播、流傳過程中,由于其中一人疏忽,造成整個安全屏障的破壞而引發(fā)泄密事件。
案例二:2018年4月,某市機要部門通知某局涉密文件專管員周某緊急取涉密文件。由于周某臨時有手頭工作,便找來剛剛?cè)肼毜乃緳C趙某代領(lǐng)。接受“重要任務(wù)”的趙某受寵若驚,取件返回途中,將3份機密文件打開,拍照后,上傳至微信群,造成泄密。
這些案例都是網(wǎng)絡(luò)泄密的典型例子,而且往往是涉密材料已經(jīng)傳播一定的范圍之后,才能引起相關(guān)部門的注意并采取相應(yīng)的措施。在公開網(wǎng)絡(luò)產(chǎn)生泄密事件處理過程中,最重要的因素是在泄密材料出現(xiàn)于公開網(wǎng)絡(luò)并廣泛傳播之前,發(fā)現(xiàn)并確定傳播材料是否涉密、可能的來源以及相應(yīng)的密級。因此,涉密文件的鑒別與響應(yīng)速度是關(guān)鍵的要素。但是,涉密文件在傳播前經(jīng)常往往會被刻意地去除保密標記、密級以及相關(guān)的信息,使得涉密文件鑒別較為困難。同時又因為涉密文件來源眾多,確定文件的來源不易,進一步造成涉密文件鑒別的難度。因此,有必要構(gòu)建一個統(tǒng)一的涉密文件快速鑒別與響應(yīng)平臺。通過統(tǒng)一的平臺實現(xiàn)可以隨時監(jiān)控在公開網(wǎng)絡(luò)中出現(xiàn)的各類電子文件與相關(guān)材料,并快速予以鑒別。對于可能的涉密文件發(fā)出預(yù)警信息。
本文提出一種基于NER和TF/IDF算法的涉密文件的脫密鑒別方法,利用NER和TF/IDF算法識別涉密文件中的命名實體,構(gòu)成矩陣,經(jīng)過HASH脫密,發(fā)送統(tǒng)一中心平臺存儲。鑒別時,取出文件中各命名實體對應(yīng)的TF/IDF值乘以出現(xiàn)的次數(shù)并求和,其值跟預(yù)先設(shè)定的閾值比較,以此來確定是否為涉密文件,從而進一步判斷涉密文件的來源。
在網(wǎng)絡(luò)環(huán)境的高度開放性面前,涉密文件保密工作顯得十分被動,面臨嚴峻考驗,如何避免重要文件信息遭到泄漏和竊取成為關(guān)乎各單位生存發(fā)展的重要課題[2]。在公開網(wǎng)絡(luò)產(chǎn)生泄密事件處理過程中,在涉密文件廣泛傳播之前鑒別出材料為涉密文件是關(guān)鍵的要素。由于鑒別文件之前需要對涉密文件進行脫密處理,所以脫密技術(shù)成為鑒別的關(guān)鍵。脫密是國內(nèi)外普遍采用的地理信息安全保密技術(shù)手段,目前已有很多關(guān)于脫密技術(shù)的研究。
部分學(xué)者對數(shù)據(jù)脫密展開了研究,具體如下:李安波等[3]為實現(xiàn)精度可控矢量地理數(shù)據(jù)脫密處理,提出基于Logistic混沌系統(tǒng)的干擾脫密方法和基于輔助點的精密控制方法。閆娜[4]實現(xiàn)了以數(shù)據(jù)拓撲結(jié)構(gòu)不改變?yōu)榍疤幔悦荑€為依據(jù)對DOM數(shù)據(jù)進行脫密,同時可用密鑰進行恢復(fù)。謝年[5]分別對每個網(wǎng)格內(nèi)要素的節(jié)點和相對坐標進行偏移,改變了每個要素節(jié)點的絕對坐標和相對坐標,脫密程度較高,且不可逆。
TF/IDF算法和NER也是本文提出方法的重要基礎(chǔ)。趙曉平等[6]針對海量短文本,傳統(tǒng)文本聚類算法存在聚類性能差的問題,融合TF-IDF方法和詞向量,提出一種新的短文本聚類算法。李昆侖等[7]為了提高推薦系統(tǒng)的精度,提出了一種基于注意力機制與改進TF-IDF(AMITI)的推薦算法,通過注意力機制和AMITI算法分配權(quán)重,加強模型的特征挖掘能力,從而提高推薦精度。Bikel[8]于1999年提出基于隱馬爾科夫模型的IdentiFinderTM系統(tǒng),識別和分類名稱、日期、時間和數(shù)值等實體,是最早的命名實體識別。Yamada等[9]針對日文提出一個基于SVM的命名識別系統(tǒng),此系統(tǒng)為Kudo的分塊系統(tǒng)的擴展。之后隨著深度學(xué)習(xí)的興起,NER結(jié)合深度學(xué)習(xí)方法稱為該領(lǐng)域研究的重點。
由于涉密文件的特殊性,顯然不可能將所有的涉密文件明文統(tǒng)一集中存儲并予以比對,因為會造成機密集中存儲的風(fēng)險,因此本文提出采用一種基于NER與TF/IDF算法實現(xiàn)對涉密文件的鑒別。
不少人把“一個角色59個演員”當(dāng)成笑話看,對何翔一家給予各種調(diào)侃。據(jù)稱,原本何翔在學(xué)校各方面都很優(yōu)秀,這次卻因為這部電影遭到了同學(xué)們的嘲笑,變得悶悶不樂??吹骄W(wǎng)友評論,估計一家人更會著急。
命名實體識別(Named Entity Recognition,簡稱NER)是信息提取、問答系統(tǒng)、句法分析、機器翻譯等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具,在自然語言處理技術(shù)走向?qū)嵱没倪^程中占有重要地位。命名實體識別旨在從屬于預(yù)定義語義類型(如人、位置、組織等)的文本中識別剛性指示符。NER不僅是信息提取的獨立工具,而且在文本理解、信息檢索、自動文本摘要、問答、機器翻譯以及知識庫建設(shè)等方面多有運用。
NER中應(yīng)用的技術(shù),主要有4種:(1)基于規(guī)則的方法,由于依賴手工規(guī)則,不需要注釋數(shù)據(jù)。(2)無監(jiān)督學(xué)習(xí)方法,它依賴無監(jiān)督算法,沒有手工標記的訓(xùn)練例子。(3)基于特征的監(jiān)督學(xué)習(xí)方法,它依賴于經(jīng)過仔細特征工程的監(jiān)督學(xué)習(xí)算法。(4)基于深度學(xué)習(xí)的方法,以端到端方式從原始輸入中自動發(fā)現(xiàn)分類或檢測所需的表示。
命名實體是一個單詞或短語,從一組具有類似屬性的其他項中清楚地標識一個項。命名實體的例子有一般領(lǐng)域中的組織名稱、個人名稱、地點名稱;生物醫(yī)學(xué)領(lǐng)域的基因、蛋白質(zhì)、藥物和疾病名稱。NER是將文本中的命名實體定位和分類為預(yù)定義實體類別的過程,其應(yīng)用類型如圖1所示。
圖1 NER應(yīng)用類型
基于NER的涉密文件處理的基本思想就是將各涉密單位的涉密文件庫中的涉密文件取出,通過NER識別文件中的實體,統(tǒng)計每篇文件中各實體出現(xiàn)的次數(shù)與值對,然后構(gòu)建矩陣,再將矩陣按行進行歸一化,即第i各列除以第i行各列總和?;贜ER的涉密文件處理流程如圖2所示。加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TFIDF算法的思想就是一個詞語在一篇文章中出現(xiàn)次數(shù)越多, 同時在所有文檔中出現(xiàn)次數(shù)越少, 越能夠代表該文章,這也就是TF-IDF的含義。
圖2 基于NER的涉密文件處理流程
TF-IDF分為詞頻(Term Frequency,TF)和逆文件頻率(Inverse Document Frequency,IDF)兩個概念。
3.2.1 TF
TF表示詞條在文本中出現(xiàn)的頻率,這個數(shù)字通常會被歸一化(一般是詞頻除以文章總詞數(shù)),以防止它偏向長的文件(同一個詞語在長文件里可能會比短文件有更高的詞頻,而不管該詞語重要與否)。TF用公式表示如下:
其中,ni,j表示詞條在文檔中出現(xiàn)的次數(shù),TFi,j就是表示詞條在文檔中出現(xiàn)的頻率。但是,需要注意,一些通用的詞語對于主題并沒有太大的作用,反倒是一些出現(xiàn)頻率較少的詞才能夠表達文章的主題,所以單純使用TF是不合適的。權(quán)重的設(shè)計必須滿足:一個詞預(yù)測主題的能力越強,權(quán)重越大,反之,權(quán)重越小。
詞頻-逆向文件頻率算法(Term Frequency-Inverse Document Frequency,TF/IDF)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。文件的重要程度對涉密文件來說是十分重要的信息,可以通過 TF-IDF這種統(tǒng)計方法來評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增
3.2.2 IDF
如果包含詞條i的文檔dj越少,IDF越大,則說明該詞條具有很好的類別區(qū)分能力。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到:
其中,∣D∣表示所有文檔數(shù)量,∣j∶ti∈dj∣表示包含詞條ti的文檔數(shù)量,這里的加1主要是防止包含詞條ti的數(shù)量為0從而導(dǎo)致運算出錯的現(xiàn)象發(fā)生。
鑒于上面介紹的兩種方法,本文提出一種基于NER和TF/IDF算法的涉密文件的脫密鑒別方法,利用NER和TF/IDF算法識別涉密文件中的命名實體,構(gòu)成矩陣,經(jīng)過HASH脫密,發(fā)送至統(tǒng)一中心平臺存儲。鑒別時,取出文件中各命名實體對應(yīng)的TF/IDF值乘以出現(xiàn)的次數(shù)并求和,其值跟預(yù)先設(shè)定的閾值比較,以此來確定是否為涉密文件,從而進一步判斷涉密文件的來源。基于NER和TF/IDF算法的涉密文件的脫密鑒別框架如圖3所示。
圖3 基于NER和TF/IDF算法的涉密文件的脫密鑒別框架
整個涉密文件的脫密流程分為兩個大部分:(1)對涉密文件的處理。(2)對文件的脫密鑒別。
(1)將各涉密單位的涉密文件庫中的文件依次取出,并通過NER識別文件中的實體,統(tǒng)計每篇文件中各實體出現(xiàn)的次數(shù)與值對<E,C>,其中E是實體命名,C為實體在該文件中出現(xiàn)的次數(shù)。
(2)構(gòu)建矩陣,其中每行i代表一篇文件,各列j為涉密文件庫中所有實體命名,<i,j>為該實體命名實體j在文件i中的出現(xiàn)次數(shù),按行進行歸一化,即第i各列除以第i行各列總和。
(3)根據(jù)上述的統(tǒng)計結(jié)果,調(diào)用TF/IDF算法云計算該單位的涉密文件中各命名實體的TF/IDF值并對命名實體進行HASH脫密。
(4)將構(gòu)建完成的矩陣與各值對序列發(fā)送到統(tǒng)一中心平臺存儲。
(1)通過NER算法對待鑒別的文件材料進行處理,提取出其中的命名實體以及各命名實體出現(xiàn)的次數(shù),通過查找,按來源單位依次取出各命名實體對應(yīng)的TF/IDF值乘以出現(xiàn)次數(shù)并求和。
(2)若求和的值大于一定的閾值,則可能為涉密材料,進一步判斷涉密材料的來源。
(3)對于文件材料中命名實體及出現(xiàn)的次數(shù)進行歸一化,形成一個向量V,查詢存儲在庫中的各單位涉密文件的脫密矩陣,進行投影操作,取出待鑒定材料中命名實體組成的子矩陣,遍歷子矩陣中每一行向量,通過余弦相似度判斷待鑒別材料與各行向量代表的涉密文件的相似度。
(4)按相似度選出前N個行向量,按各行向量對應(yīng)的文檔來源進行分類,來源分類中包含行向量數(shù)越多的,待鑒定材料來源可能性越高。
本文針對涉密文件泄露時無法快速集中地鑒別涉密文件,判別涉密文件來源,以防止涉密文件進一步散播的現(xiàn)狀,提出一種基于NER和TF-IDF算法的涉密文件集中脫密鑒別方法。該方法簡單快速,能有效預(yù)防涉密文件的泄露或者能有效鑒別出已泄露的涉密文件,從源頭切斷,防止進一步散播。該方法構(gòu)建一個統(tǒng)一的涉密文件快速鑒別與響應(yīng)平臺,通過統(tǒng)一的平臺實現(xiàn)隨時監(jiān)控在公開網(wǎng)絡(luò)中出現(xiàn)的各類電子文件與相關(guān)材料,快速鑒別并對于可能的涉密文件發(fā)出預(yù)警信息。