亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智能移動終端涉密信息監(jiān)測系統(tǒng)

        2022-03-24 04:00:18王本鈺顧益軍彭舒凡
        科學技術(shù)與工程 2022年6期
        關(guān)鍵詞:字符識別字符終端

        王本鈺, 顧益軍,2*, 彭舒凡

        (1.中國人民公安大學信息網(wǎng)絡(luò)安全學院, 北京 102600; 2.安全防范技術(shù)與風險評估公安部重點實驗室, 北京 102600)

        信息時代,信息資源成了推動社會進步最重要的元素之一,信息資源的價值也越來越高,但隨著技術(shù)的更新?lián)Q代,涉密信息通過智能移動終端流出的可能性不斷上升。

        涉密信息[1]通常是指政府、科技、軍隊、公安等領(lǐng)域的絕密文件或者保密設(shè)施的信息及內(nèi)容等,或者是企業(yè)單位的商業(yè)保密文件的信息內(nèi)容等。為了防止涉密信息被泄露,相關(guān)部門通常會建立一套專門用于處理涉密業(yè)務、與互聯(lián)網(wǎng)進行隔離的涉密辦公網(wǎng)或者是在主機上安裝涉密信息監(jiān)測系統(tǒng)來防止涉密文件內(nèi)部的泄露。徐建文[2]利用光學字符識別技術(shù)(optical character recognition ,OCR)技術(shù)設(shè)計實現(xiàn)了主機中電子文檔的涉密信息監(jiān)測系統(tǒng)。武越等[3]利用關(guān)鍵詞字典、文件指紋、機器學習模型生成涉密數(shù)據(jù)特征,再通過監(jiān)控網(wǎng)關(guān)對數(shù)據(jù)進行解析和檢測實現(xiàn)了局域網(wǎng)中涉密信息監(jiān)測系統(tǒng)。這些系統(tǒng)對于局域網(wǎng)中電子文檔具有很好的監(jiān)測效果,可以防止涉密信息的泄露。然而目前由于手機、平板電腦等智能移動終端的快捷性、便攜性,使得涉密單位工作人員可以輕松偷拍涉密信息或者通過聊天軟件上傳涉密圖片而不被察覺,如利用手機拍取文件材料、武器編號、重大會議等。因此如何有效地防止智能移動終端泄密事件的發(fā)生已經(jīng)變得尤為重要。

        近年來,光學字符識別(OCR)[4]由于其高效、便捷的特性已經(jīng)被用于多個領(lǐng)域的圖像文字識別當中去[5-7]。因此,在充分了解當前涉密單位對于涉密信息保護存在的漏洞后,現(xiàn)結(jié)合涉密單位的實際需求和應用場景,利用OCR技術(shù)實現(xiàn)一個智能移動終端涉密信息泄露監(jiān)測系統(tǒng)。

        傳統(tǒng)OCR技術(shù)的核心步驟是特征提取[8],找出圖像中候選的文字區(qū)域的特征,以此來實現(xiàn)文字識別。但是這種方法不僅耗時耗力,而且識別準確率低。目前,隨著深度學習技術(shù)的不斷發(fā)展,在計算機視覺領(lǐng)域都通過深度學習方法來實現(xiàn)OCR技術(shù),得到的文字識別準確率高,效果非常好。雖然在OCR的研究領(lǐng)域里,基于深度學習的方法經(jīng)常被用來解決自然場景中的復雜問題[9-10],但是很少關(guān)注真實文本背景下的文字識別,因此在真實背景干擾下的文本檢測和文字識別效果不理想。針對上述問題,現(xiàn)合成具有真實背景干擾下的字符數(shù)據(jù)集,預處理真實背景紋理素材,合成仿真數(shù)據(jù)集,增加了識別算法的泛化效果。同時提出基于CTPN[11]+Tesseract-OCR[12]的復雜背景下的文字檢測與識別方法:CTPN算法在文本檢測方面具有較高的準確率,將搜集的數(shù)據(jù)集與真實場景的數(shù)據(jù)集結(jié)合,繼續(xù)擴充檢測訓練集的豐富性,再對檢測模型進行訓練。使用合成的真實場景字符庫對Tesseract-OCR字符識別引擎進行訓練,降低部分字符因背景干擾引起的識別錯誤率。

        1 系統(tǒng)設(shè)計

        1.1 系統(tǒng)介紹

        傳統(tǒng)的涉密信息監(jiān)測系統(tǒng)往往都是安裝在電腦等終端中,僅僅只能防止涉密文件在電腦等終端中不被泄露。然而當前智能移動終端普及率高,辦公便捷但保密形勢嚴峻,一些辦公人員及與涉密文件有直接接觸人員的保密意識不強,通過移動終端相機拍攝涉密文件在社交軟件中恣意進行傳播,甚至存在通過終端拍攝涉密文件賣給他國的違法行為,造成重要秘密泄露乃至國家根本利益受損。基于此背景,涉密信息泄露報警系統(tǒng)應運而生。該系統(tǒng)的核心問題是為了減少手機等智能移動終端泄密事件的發(fā)生,在監(jiān)測到使用者通過智能移動終端拍攝包含涉密信息的照片或者通過聊天軟件拍攝或者上傳涉密圖片時進行警告并自動刪除。該系統(tǒng)一方面是對涉密單位的信息進行保護,防止工作人員有意泄露涉密信息的行為發(fā)生;另一方面對于工作人員無意間泄露涉密信息的行為進行及時的補救和提醒。這款系統(tǒng)基于Java語言,利用全局和局部相結(jié)合、檢索和識別分步走的模式,適用于各種版本的Android設(shè)備,由數(shù)字圖像處理系統(tǒng)模塊、文本圖像檢測系統(tǒng)模塊、涉密敏感詞匹配系統(tǒng)模塊3個模塊組成。它實現(xiàn)了針對智能移動終端上的涉密信息的實時保護功能,有效地防止通過智能移動終端涉密信息泄露事件的發(fā)生,填補了當前涉密單位對于智能移動終端管控的空白。該系統(tǒng)主要實現(xiàn)以下3個功能。

        (1)全局掃描功能:管理員可以自定義設(shè)置涉密敏感詞,并以此為依據(jù)搜索智能移動終端中的涉及此關(guān)鍵字的所有敏感信息。

        (2)實時相機監(jiān)察功能:對于相機實施實時監(jiān)控,捕捉使用者使用相機操作的動作,對使用者拍取包含涉密敏感詞的圖片進行刪除并警告。

        (3)社交管控功能:可以實現(xiàn)對當前主流的聊天工具(QQ、微信)實時監(jiān)控功能,實時掃描聊天記錄中是否含有涉及涉密敏感詞的圖片。

        1.2 整體架構(gòu)

        該系統(tǒng)設(shè)計了數(shù)字圖像處理系統(tǒng)模塊、文本圖像檢測系統(tǒng)模塊、涉密敏感詞匹配系統(tǒng)模塊這3個模塊,該系統(tǒng)結(jié)構(gòu)圖如圖1所示。

        圖1 系統(tǒng)結(jié)構(gòu)圖Fig.1 System architecture diagram

        在整個系統(tǒng)實現(xiàn)過程中,管理者可以自定義設(shè)置涉密敏感詞,并以此為依據(jù)搜索智能移動終端中涉及此涉密敏感詞的所有信息,具有極強的可拓展性,可根據(jù)涉密單位不同需要進行功能擴充,來適應不同的工作環(huán)境。在數(shù)字圖像處理系統(tǒng)模塊中實現(xiàn)對智能移動終端拍攝的圖片或者本地存儲的圖片進行數(shù)字化處理的功能;在文本圖像檢測系統(tǒng)模塊中實現(xiàn)文本檢測的功能;涉密敏感詞匹配系統(tǒng)模塊根據(jù)管理員錄入的涉密敏感詞生成涉密敏感字庫與圖片文本進行匹配,匹配成功即警告。該系統(tǒng)能夠自動對比識別,具有實用性和實時性。在該系統(tǒng)運行條件下,系統(tǒng)將對移動終端畫面、應用后臺進行實時監(jiān)控,實現(xiàn)全局掃描、實時相機監(jiān)察和社交管控功能。

        2 系統(tǒng)功能模塊

        2.1 數(shù)字圖像處理系統(tǒng)模塊

        數(shù)字圖像處理[13]系統(tǒng)模塊是該系統(tǒng)中不可或缺的一個部分,由于圖像在獲取時容易因為環(huán)境亮度的明暗、是否是正面拍攝、文字資料的印刷是否清晰等因素而影響系統(tǒng)后續(xù)的工作,因此需要通過數(shù)字圖像處理技術(shù)將原本不符合要求的圖像轉(zhuǎn)化為可以進行下一步操作的圖像。數(shù)字圖像處理系統(tǒng)模塊將Android系統(tǒng)相機、聊天軟件、圖庫獲取的圖像結(jié)合Android NDK技術(shù)和JNI接口進行數(shù)字圖像處理。數(shù)字圖像處理系統(tǒng)模塊流程圖如圖2所示,包含灰度化處理、二值化[14]、圖像降噪[15]、傾斜校正[16]和圖像插值[17]等操作。

        圖2 數(shù)字圖像處理系統(tǒng)模塊流程圖Fig.2 Flow chart of digital image processing system module

        第一步,對所獲得圖像進行灰度化處理,將含有R、G、B三原色的原始圖像變?yōu)橹缓泻诎c的處理后的圖像。

        (1)

        式(1)中:v為灰度值;R′、G′、B′為灰度處理后的值,減少文本圖像檢測系統(tǒng)模塊的計算量。

        第二步,采用閾值法對圖像進行二值化,將圖像上的像素點的灰度值設(shè)置成0或255。

        (2)

        式(2)中:threshold為閾值。

        第三步,采用高斯濾波對圖像進行降噪操作,消除在圖像采集過程中環(huán)境、亮度、文本資料等因素對于圖像清晰度的影響。

        (3)

        式(13)中:(x,y)為圖片中點坐標;σ為標準差。

        第四步,利用霍夫變換對圖片進行傾斜校正操作,解決實際拍攝過程中無法獲得正面圖像或者圖像傾斜的問題。

        b=-x×k+y

        (4)

        式(4)中:(x,y)為圖片中點坐標;k、b為圖片中直線參數(shù)。由于k、b是相對固定,因此可以在霍夫空間中得到多條匯聚于該點的直線,選擇統(tǒng)計峰值最高的直線就可以完成圖像的傾斜校正工作。

        第五步,對圖像進行插值操作,采用最近鄰插值法使低分辨率圖像變?yōu)楦叻直媛蕡D像。即對于灰度值未知的插值點(x,y),如果(x,y)在灰度值已知的坐標點(x0,y0)的鄰域內(nèi),則(x,y)的灰度值為(x0,y0)的灰度值。

        2.2 文本圖像檢測系統(tǒng)模塊

        文本檢測和文本識別是OCR系統(tǒng)的核心內(nèi)容。文本檢測更是OCR系統(tǒng)進行文本識別的先提條件。文本檢測任務可以看作是特殊的目標檢測,但是由于文本邊界難以確定、文本行長度不固定、文本具有序列特征等特點,文本檢測又不同于通常的目標檢測。因此目標檢測的通用方法并不適用于文本檢測。傳統(tǒng)的文本檢測方法也沒有考慮到上下文關(guān)系,是先將單個字符檢測出來后再連接起來,這樣導致文本檢測的準確率十分低下?;诖祟悊栴},歐洲計算機視覺會議(European conference on computer vision, ECCV)上提出了CTPN算法。CTPN算法首先采用CNN卷積神經(jīng)網(wǎng)絡(luò)用于特征提取,之后選取固定寬度的anchor檢測小尺度的文本候選框,并將同一行anchor的特征串成序列輸入雙向長短期記憶神經(jīng)網(wǎng)絡(luò)中,接下來采用全連接層進行分類,并通過Side-refinement[18]算法過濾多余的文本框,最后通過文本線構(gòu)造算法將一系列小尺度的文本框合成文本線。CTPN算法的具體實現(xiàn)步驟如下。

        (1)在CNN部分選取VGG-16網(wǎng)絡(luò)進行特征提取,得到大小為N×C×H×W的conv5特征圖(N為特征圖的數(shù)量,C為通道數(shù),H為圖片的高度,W為圖片的寬度)。

        (2)在conv5特征圖上滑動3×3的窗口學習空間特征,輸出大小為N×9C×H×W的特征圖。

        (3)將大小為N×9C×H×W的特征圖reshape成(N×H)×W×9C的特征圖。

        (4)將每一行的特征向量輸入到輸入BILSTM中,學習每一行的序列特征,輸出大小為(N×H)×W×256的特征,再經(jīng)過一次reshape恢復形狀,得到大小為N×256×H×W的特征。

        (5)連接一個全連接層,經(jīng)過類似于Faster R-CNN[19]的RPN網(wǎng)絡(luò),獲得文本框。

        (6)采用Side-refinement算法過濾多余的文本框。

        (7)通過文本線構(gòu)造算法將一系列小尺度的文本框合成文本線。

        該系統(tǒng)選用CTPN文本檢測算法來進行文本檢測工作,所使用的文本圖像檢測系統(tǒng)模塊流程圖如圖3所示,包含CTPN算法模型訓練和CTPN算法文本檢測兩個部分組成。

        圖3 文本圖像檢測系統(tǒng)模塊流程圖Fig.3 Module flow chart of text image detection system

        CTPN算法是針對復雜場景的文本檢測算法,具有泛化效果,但是在實際測試過程中,發(fā)現(xiàn)對于該系統(tǒng)所應用的特殊場景并不具備很好的文本檢測效果,因此需要收集相應場景的圖片對CTPN模型進行再訓練,提高文本檢測的準確率。本文模擬真實情境下通過智能移動終端拍攝文件材料、武器裝備、會議場景,收集了5 421張圖片并組成訓練數(shù)據(jù)集。收集訓練數(shù)據(jù)集樣圖如圖4所示。

        圖4 CTPN訓練數(shù)據(jù)集樣圖Fig.4 Sample map of CTPN training data set

        在獲取訓練數(shù)據(jù)集后,需要對訓練數(shù)據(jù)集中的圖像進行標注,標注圖像的時候采用的是順時針方向標注,分別標注左上角坐標點,右上角坐標點,右下角坐標點,左下角坐標點,生成相應的xml文件。之后將標注好的文件數(shù)據(jù)輸入到模型中,進行訓練。運用CTPN算法和本文收集的訓練數(shù)據(jù)集,即可訓練出可應用于該系統(tǒng)所需的特殊場景的文本檢測模型。

        圖5 敏感詞匹配系統(tǒng)模塊流程圖Fig.5 Flow chart of the sensitive word matching system module

        2.3 敏感詞匹配系統(tǒng)模塊

        敏感詞匹配系統(tǒng)模塊主要由兩個部分組成,分別是Tesseract-OCR字符識別引擎和LCS文本比對算法組成,系統(tǒng)模塊流程圖如圖5所示。由于在實際測試過程中,將Tesseract-OCR字符識別引擎直接用作本文所需場景的圖片識別時取得的效果非常差,因此該系統(tǒng)利用Tesseract-OCR中自帶的字符訓練工具結(jié)合本文設(shè)計實現(xiàn)的模擬真實場景字符庫進行再訓練,提高字符識別的準確率。在LCS文本比對算法中,該系統(tǒng)利用LCS算法對管理員輸入的涉密敏感詞和Tesseract-OCR識別的字符文本進行比對,匹配成功則警告并且刪除圖片。

        2.3.1 Tesseract-OCR開源字符識別引擎

        Tesseract-OCR是一款由HP公司于1985年研發(fā)成功的開源字符識別引擎,后來被Google公司接收進行不斷的升級和優(yōu)化。Tesseract-OCR可以用于多種語言文字的字符識別,對于英文字符和數(shù)字的識別準確率較高。Tesseract-OCR同時自帶了一個基于LSTM長短期記憶網(wǎng)絡(luò)的字符訓練工具,可以高效地實現(xiàn)文字的特征提取和分類工作。

        Tesseract-OCR的核心內(nèi)容主要分為3個方面,分別是文本輪廓分析、文本字符定位和分割、文字識別。Tesseract-OCR采取嵌套的輪廓搜索算法來實現(xiàn)文本輪廓分析部分,將分析得到的文本輪廓組成文本塊,之后將對文本塊進行行列切分,最后將文本塊切割成單個字符再逐個識別。

        將Tesseract-OCR字符識別引擎直接用于本文所需場景的圖片識別,但是所取得的識別效果非常差。分析原因,一方面是Tesseract-OCR采取的文本字符定位和分割算法不適用于復雜場景的文本檢測工作,文本檢測效果較差;另一方面,由于該系統(tǒng)應用場景的字符字體具有多樣性、文本背景干擾因素多等原因,所以Tesseract-OCR自帶的chi_sim.traindata字庫的字符識別效果欠佳。因此,針對上述兩個問題,本文嘗試利用訓練好的CTPN算法進行文本檢測工作,取得的效果明顯優(yōu)于Tesseract-OCR文本檢測效果。同時為了解決字符識別準確率低的問題,現(xiàn)結(jié)合真實應用場景下的字符種類、背景干擾等因素設(shè)計實現(xiàn)了模擬真實場景字符庫,并通過Tesseract-OCR自帶的基于LSTM長短期記憶網(wǎng)絡(luò)的字符訓練工具進行再訓練,對于復雜場景下的字符識別取得了不錯的效果。

        目前中文字符的國家標準GB2312—80中收錄了10個阿拉伯數(shù)字,52個大小英語字符,6 763個中文字符,合計共有6 825個基礎(chǔ)字符。首先利用GB2312—80所收集的6 825個基礎(chǔ)字符建立含有6 825標簽類的基礎(chǔ)字符庫。然后選取文本材料、武器裝備、會議等涉密場景最常用的仿宋體、黑體、楷體和Times New Roman 4種字體風格對基礎(chǔ)字符庫進行擴展,使得每個字體得到4張不同風格的字符圖片。之后將真實背景紋理素材和每個字符圖片合成得到模擬真實場景字符庫。通過對比發(fā)現(xiàn)模擬真實場景字符效果非常接近真實場景下的字符效果,保留了真實場景下的字符背景干擾,具有很強的真實性、可信性和可行性。Tesseract-OCR模擬真實場景字符庫如圖6所示。

        在得到模擬真實場景字符庫后,需要利用Tesseract-OCR自帶的字符訓練工具對字符庫進行訓練,提高字符識別的準確率以滿足該系統(tǒng)應用場景的需求。Tesseract-OCR字符庫訓練流程如圖7所示。

        圖6 Tesseract-OCR模擬真實場景字符庫Fig.6 Tesseract-OCR simulation of real-life scenarios character library

        圖7 Tesseract字符庫訓練流程圖Fig.7 Tesseract character library training flowchart

        2.3.2 LCS文本比對算法

        當通過Tesseract-OCR字符識別引擎識別圖片文字信息后,該系統(tǒng)通過LCS算法[20]來實現(xiàn)敏感詞和圖片文本這兩個文本之間的比對工作。LCS算法是采用動態(tài)規(guī)劃的方法來求解兩個字符串之間的最長公共子串長度。

        LCS算法用c[i,j]記錄序列Xi和Yj的最長公共子序列的長度。其中Xi=,Yj=。當i=0或j=0時,空序列是Xi和Yj的最長公共子序列,故c[i,j]=0。其他情況下,可建立遞歸關(guān)系為

        c[i,j]=

        (5)

        設(shè)用戶自定義輸入的敏感詞為A,系統(tǒng)識別圖片中的文本信息為B,顯然當c[A,B]=Len(A)時,其中Len(A)表示敏感詞A的長度該系統(tǒng)識別圖片中的文本信息含有涉密敏感詞,判定為涉密照片,應對圖片進行刪除操作。

        3 系統(tǒng)測試

        3.1 測試環(huán)境

        為保證測試結(jié)果真實可信、具有參照性,測試數(shù)據(jù)對安卓基帶內(nèi)核版本不同、安全補丁不一的各類原型機都具有可信度,因此對智能移動終端涉密信息監(jiān)測系統(tǒng)的測試分為虛擬大環(huán)境廣度測試與實際機型對照測試。

        (1)虛擬環(huán)境測試平臺:在Android studio3.0.1環(huán)境搭建下,使用到Intel HAXM引擎,調(diào)用X86架構(gòu)的安卓虛擬機,啟用安卓虛擬設(shè)備(android virtual device,AVD),創(chuàng)建Android EM ulator-5.1_WVGA和Android Emulator-4.1_WVGA進行虛擬環(huán)境平臺下的普遍性測試。

        (2)實際機型對照測試:為了規(guī)避由各生產(chǎn)商進行的操作系統(tǒng)定制開發(fā),而造成的權(quán)限獲取失敗、文件指針指向錯誤等不確定因素,采取多機型、多品牌、多系統(tǒng)的測試環(huán)境,以華為榮耀系列20、30、X10,努比亞Z17S進行對照測試。

        3.2 不同場景的圖像文本識別測試

        在不同場景的圖像文本識別測試中,使用該系統(tǒng)掃描識別各類復雜場景下的圖片,測試該系統(tǒng)對于不同背景、不規(guī)范字體條件下的字符識別率。測試中使用不同測試環(huán)境對不同測試類型的圖片分別測試200次之后取平均值。測試結(jié)果如表1所示,由測試結(jié)果可知,該系統(tǒng)可以有效識別各類復雜場景下含有文字信息的不規(guī)則圖像,且文字信息識別率均在較高水平。

        表1 不同場景的圖像文本識別結(jié)果

        3.3 社交軟件涉密敏感詞捕捉測試

        在社交軟件涉密敏感詞捕捉測試中,對時下常用聊天交友工具實施監(jiān)測。測試內(nèi)容是對“交友”過程中發(fā)送或接收涉密敏感詞圖像的行為經(jīng)泄密判定算法判定后,該系統(tǒng)成功警告并刪除圖片的概率,即敏感信息捕捉比率。測試中使用不同測試環(huán)境分別對騰訊QQ、微信兩款聊天交友軟件進行測試,計發(fā)圖片次數(shù)各為1 000次,統(tǒng)計每次識別結(jié)果。測試結(jié)果如表2所示,結(jié)果顯示在交友軟件中發(fā)送涉密圖片,該系統(tǒng)成功捕捉概率較高,并且在測試中微信端監(jiān)測效果要好于QQ端。

        表2 社交軟件中敏感涉密詞捕捉結(jié)果

        3.4 系統(tǒng)性能指標測試

        在系統(tǒng)性能測試中,啟動系統(tǒng)全局掃描功能,記錄掃描所有本地的圖像素材的總共用時,重復上述步驟1 000次,同時查看終端實時CPU占用率,以每秒記錄一次,每次實驗取100組有效取值。計算單張照片識別平均時延,與常態(tài)終端CPU占用率。之后切換系統(tǒng)界面,進入其他軟件界面,進行日常辦公娛樂操作,觀察后臺運行該系統(tǒng)是否對手機運行各類軟件流暢度有影響,檢查機身發(fā)熱情況。測試結(jié)果如表3所示,由測試結(jié)果可知,該系統(tǒng)內(nèi)存占用小,識別效率高,且不會給手機終端造成負擔,沒有出現(xiàn)發(fā)熱、卡頓等情況,運行穩(wěn)定,可以滿足日常工作需求。

        表3 系統(tǒng)性能指標測試結(jié)果

        圖8 終端UI界面Fig.8 Entry of sensitive words and activation methods

        4 系統(tǒng)實現(xiàn)

        智能移動終端涉密信息監(jiān)測系統(tǒng)終端UI界面如圖8所示,該系統(tǒng)基本功能展示如圖9~圖12所示,所有展示以華為榮耀X10為演示對象。

        錄入敏感詞及啟動方式:打開系統(tǒng),在此系統(tǒng)中,左邊功能鍵是可以掃描本地的所有圖片信息,查找手機等智能移動終端中是否含有涉密敏感詞的圖片,右邊功能鍵為錄入涉密敏感詞庫,可以依據(jù)涉密單位的實際需求錄入相關(guān)的涉密敏感詞,錄入涉密敏感詞后,打開系統(tǒng)進行涉密信息監(jiān)測,功能實現(xiàn)如圖9所示。

        全局掃描功能:打開檢測后,該系統(tǒng)會開啟全局掃描功能,后臺掃描圖庫中的圖像信息,并判定是否含有涉及涉密敏感詞的圖像信息,如果發(fā)現(xiàn)含有涉密敏感詞信息的圖像,該系統(tǒng)便發(fā)出警告,并刪除涉及涉密敏感詞信息的圖像,如圖10所示。

        圖9 錄入敏感詞及啟動方式Fig.9 Entry of sensitive words and activation methods

        實時相機監(jiān)察功能:當使用相機拍攝含有涉密敏感詞的文件圖像時,該系統(tǒng)會對拍攝的圖像進行識別判定,確定為含有涉密敏感詞圖像時,該系統(tǒng)會警告提示,并刪除圖像信息,如圖11所示。

        社交管控功能:該系統(tǒng)可以后臺實時監(jiān)控社交軟件,實現(xiàn)社交管控功能,捕獲用戶的瀏覽、保存、發(fā)送涉密圖像等動作。以主要的聊天程序微信為例,當聊天時發(fā)送了涉及涉密敏感詞的圖片時,該系統(tǒng)就會發(fā)出警告提示,并刪除本地瀏覽圖片縮略圖,如圖12所示。

        5 結(jié)論

        智能移動終端涉密信息監(jiān)測系統(tǒng)采用成熟的OCR技術(shù)原理,性能穩(wěn)定,可靠性強。在數(shù)字圖像處理方面采用了灰度化處理、二值化、降噪、傾斜矯正、插值處理,為后續(xù)OCR系統(tǒng)的實現(xiàn)奠定了良好的基礎(chǔ)。在文本檢測方面,采用CTPN算法進行文本檢測工作,利用真實涉密場景收集的圖片對于CTPN模型進行再訓練,提高CTPN模型對于復雜場景下的文本檢測準確率。在涉密敏感詞匹配方面,采用Tesseract-OCR字符識別引擎對復雜背景下的文本進行端到端的識別,使用合成的真實場景下的數(shù)據(jù)集對Tesseract-OCR進行訓練,解決了部分字符因背景干擾而識別錯誤的現(xiàn)象,提高了字符識別準確率。利用LCS算法進行文本比對,算法耗時低,滿足快速比對的需求。智能移動終端涉密信息監(jiān)測系統(tǒng)以全局掃描,實時相機監(jiān)察,社交管控三大功能為立足點,防護于源頭,服務于崗位。通過數(shù)字圖像處理系統(tǒng)模塊、文本圖像檢測系統(tǒng)模塊、涉密敏感詞匹配系統(tǒng)模塊3個系統(tǒng)模塊,實現(xiàn)了對智能終端“涉密敏感信息”的識別清除,對終端的涉密信息做到實時全面監(jiān)控清查。通過該類監(jiān)測手段可保護涉密內(nèi)容特別是對“紅頭機密文件”辦公領(lǐng)域等有重大的保護作用及意義,且對目前網(wǎng)絡(luò)新興的“圖片謠言”等輿論監(jiān)察有著極大的應用前景,可為特殊崗位人員定制集成于系統(tǒng)應用之中移動終端。該軟件具有操作方便、簡約高效、針對性強、拓展性好、可靠性高。等特點,能夠極大地保護信息安全,減少失泄密事件的發(fā)生,推廣應用前景十分廣闊,符合當前中國特殊行業(yè)的需求。

        圖10 全局掃描功能Fig.10 Global scan function

        圖11 實時相機監(jiān)察功能Fig.11 Live camera monitoring function

        圖12 社交管控功能Fig.12 Social control functions

        猜你喜歡
        字符識別字符終端
        尋找更強的字符映射管理器
        X美術(shù)館首屆三年展:“終端〉_How Do We Begin?”
        字符代表幾
        通信控制服務器(CCS)維護終端的設(shè)計與實現(xiàn)
        一種USB接口字符液晶控制器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        一種改進深度學習網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
        多功能北斗船載終端的開發(fā)應用
        電子制作(2016年15期)2017-01-15 13:39:14
        儀表字符識別中的圖像處理算法研究
        基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識別
        宅男天堂亚洲一区二区三区| 亚洲永久无码动态图| 亚洲黄色在线看| 亚洲国产中文字幕九色| 日本在线观看一区二区三| 孕妇特级毛片ww无码内射| 欧美日本亚洲国产一区二区| 激情内射亚洲一区二区| 久久亚洲精品国产av| 亚洲成a∨人片在线观看不卡 | 93精91精品国产综合久久香蕉| 四虎在线播放免费永久视频| 国产一区二区三区四区色| 日韩av毛片在线观看| 大胸少妇午夜三级| 免费一级特黄欧美大片久久网| 国产av一区二区三区区别| 中文字幕亚洲综合久久久| 亚洲精品乱码久久久久蜜桃| 女人扒开下面无遮挡| 91久久国产情侣真实对白| 亚洲精品一区二区成人精品网站| 久久精品国产99久久久| 国产av精国产传媒| 2020国产精品久久久久| 亚洲男同免费视频网站| 亚洲精品久久久av无码专区 | 国产精品久久久久久久成人午夜 | 一本色道久久88—综合亚洲精品| 国产成人综合日韩精品无码| 蜜桃成人无码区免费视频网站| 在线观看网址你懂的| 国产av大片久久中文字幕| 日韩人妻熟女中文字幕a美景之屋| 中文亚洲av片在线观看| 妓院一钑片免看黄大片| 尤物蜜芽福利国产污在线观看| 美利坚亚洲天堂日韩精品| 日韩国产人妻一区二区三区| 中文字幕无码不卡免费视频| 蜜桃视频色版在线观看|