陸春祥 王偉
【摘 要】 近年來,互聯(lián)網泄密事件逐漸增多,傳統(tǒng)人工檢查方法難以應對海量信息的合規(guī)審查,本文通過一種基于圖文識別OCR的方法,通過分布式部署互聯(lián)網檢查設備,可以快速發(fā)現互聯(lián)網違規(guī)發(fā)布的涉密文件,大幅提升互聯(lián)網涉密信息檢查能力。
【關鍵詞】 互聯(lián)網 海量信息 OCR
1 引言
近年來,在各級機關的保密檢查中發(fā)現通過互聯(lián)網違規(guī)發(fā)布涉密文件資料的案件逐年增多。其中涉密文件為圖片格式的案件比例呈現更加明顯的上升趨勢。相關人員通過截圖等形式,便可輕易的傳遞一些不合規(guī)的信息,而不被現有的設備檢查出來,致使互聯(lián)網信息管控存在嚴重的漏洞。
如何才能堵上這一傳播不合規(guī)信息的漏洞呢?依靠傳統(tǒng)的方法即采用人工查看的方式在互聯(lián)網上搜索到圖片格式的涉密文件,費時費力,無異于大海撈針。利用圖文識別技術,又稱為OCR(Optical Character Recognition,光學字符識別),則能夠較好地解決該問題。 OCR的原理主要是指利用各種識別算法分析圖像中包含的文字形態(tài)特征,判斷出文字的標準編碼,并按通用格式存儲在信息化設備中。
2 方法介紹
下面結合實例,對利用OCR技術進行互聯(lián)網涉密檢查的技術方案進行描述。場景為采用分布式部署實現互聯(lián)網檢查設備中對圖片中文字內容的審計。互聯(lián)網檢查設備由2臺設備組成,一臺負責對內部網絡連接到互聯(lián)網的數據流進行采集、分析和識別,并將采集的圖片文件,通過網絡發(fā)送給單獨部署的另一臺OCR服務器進行圖片檢查,以實現對圖片中文字的內容審計。
(1)互聯(lián)網檢查服務器(簡稱“檢測器”)。
互聯(lián)網檢查服務器負責對內部網絡連接到互聯(lián)網的數據流進行采集、分析和識別,并將采集到的圖片文件,發(fā)送給后端的互聯(lián)網檢查OCR服務器。
(2)互聯(lián)網檢查OCR服務器(簡稱“OCR服務器”)。
互聯(lián)網檢查OCR服務器負責接收前端互聯(lián)網檢查服務器傳送來的圖片,并使用其上的OCR組件解析出圖片上的文字信息。而后,對照用戶設定的關鍵詞策略,判斷該圖片是否含有不合規(guī)的信息。
(3)以下以BDOCR協(xié)議舉例說明互聯(lián)網檢查服務器與互聯(lián)網檢查OCR服務器之間的通信。1)BDOCR:指藍盾互聯(lián)網檢查設備中互聯(lián)網檢查服務器與互聯(lián)網檢查OCR服務器之間的TCP通信協(xié)議。2)前端互聯(lián)網檢查服務器負責從交換機抓取數據包,而后將采集到的圖片文件傳送給后端互聯(lián)網檢查1)OCR服務器,由其負責進行圖片所含文字部分的檢查。3)報文規(guī)格。BDOCR協(xié)議為TCP協(xié)議的載荷,協(xié)議包包含兩部分,頭部及BDOCR協(xié)議的載荷部分。
下面給出BDOCR協(xié)議包的封裝格式(如圖1):
各字段的含義如下:
版本:2字節(jié),表示BDOCR協(xié)議版本。其中高8位為主版本號,低8位為次版本號。
流程ID:2字節(jié),標示該BDOCR數據包的類型及具體的請求動作。其中:
關鍵詞策略下發(fā)報文: 0x01
圖片下發(fā)報文: 0x02
中標回復報文: 0x04
異常通報報文: 0x08
ID:4字節(jié),事務標志,同一事務的所有通信包其ID保持一致??梢允褂靡粋€無符號整數表示,每構建一個事務,該值加1,保證在4G個包內其ID值是唯一的。
時間:4字節(jié),構造、發(fā)送數據包時的時間,標示從1970年1月1日0時0分0秒至今的秒數
載荷長度:4字節(jié),標示該BDOCR數據包載荷部分的數據長度。
載荷:根據報文類型具備不同的長度。
關鍵詞策略下發(fā)報文:由檢測器向OCR服務器下發(fā)關鍵詞策略。載荷內容如圖2所示:
策略ID:4個字節(jié)。各策略的ID互不相同,用于標示各策略。策略名長度:4個字節(jié)。標示策略名部分的數據長度。策略名:不定長。用于在界面上顯示策略,策略名也是唯一的。策略長度:4個字節(jié)。標示策略內容部分的數據長度。策略內容:不定長。用戶設定的關鍵詞策略,用于匹配信息(圖片所含文字部分)是否合規(guī)。
圖片下發(fā)報文:由檢測器向OCR服務器下發(fā)圖片文件。載荷內容如圖3所示:
圖片ID:4個字節(jié)。各圖片的ID互不相同,用于標示各圖片。圖片類型:4個字節(jié)。標示圖片的不同類型,如JPEG、BMP、TIFF、GIF、PNG等。文件長度:4個字節(jié)。標示圖片文件部分的數據長度。
圖片文件:不定長。需要進行內容檢查的圖片文件。
中標回復報文:當OCR服務器檢查發(fā)現有不合規(guī)的圖片文件,向檢測器回復中標信息。載荷內容如圖4所示:
圖片ID:4個字節(jié)。各圖片的ID互不相同,用于標示各圖片。中標策略數:4個字節(jié)。標示該圖片匹配到的策略個數。中標策略ID:4個字節(jié)。各策略的ID互不相同,用于標示各策略。
異常通報報文:當某設備本身發(fā)生異常,向另一臺設備通報自身異常。如設備發(fā)生多類異常,則都需一一進行通報。載荷內容如圖5所示:
異常ID:4個字節(jié)。用于標示各類異常。異常情況:4個字節(jié)。0x0000:標示設備已恢復正常;0x0001:標示設備發(fā)生異常。
3 結語
本文實現的互聯(lián)網檢查方法,除了可以監(jiān)控一般的文字信息外,還可以對以圖片形式出現的文字內容進行檢查??梢钥焖侔l(fā)現互聯(lián)網違規(guī)發(fā)布的涉密文件,大幅提升互聯(lián)網涉密信息檢查能力。當然,這些方法只是治標之策,唯有增強相關人員保密意識,加強信息公開保密審查,實現辦公網絡與互聯(lián)網物理隔離等措施多管齊下,才能及時發(fā)現和有效防范互聯(lián)網泄密行為,保護國家秘密。
參考文獻
[1]蔣俊杰.身份識別與接入控制系統(tǒng)的研究與應用[J].信息與電腦(理論版),2010年12期.
[2]孫羽菲.低質量文本圖像OCR技術的研究[D].中國科學院研究生院(計算技術研究所),2005年.
[3]閻彩英.淺析電子政務外網互聯(lián)網出口的安全技術構架[J].中國信息界.2011年02期.
[4]劉海波,顧國昌,張國印.Internet信息涉密檢查系統(tǒng)的設計與實現[J].計算機工程與應用,2004年09期.endprint