亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向航天專網(wǎng)的敏感內(nèi)容審查系統(tǒng)構(gòu)建淺析

        2020-12-23 08:19:54北京空間機電研究所劉麗玲范慧莉趙青青閆順琪孫麒劉啟賢
        網(wǎng)信軍民融合 2020年8期
        關(guān)鍵詞:全文檢索審查員字符

        ◎北京空間機電研究所 劉麗玲 范慧莉 趙青青 閆順琪 孫麒 劉啟賢

        隨著網(wǎng)絡(luò)化、智能化技術(shù)的飛速發(fā)展,航天企業(yè)的信息化、辦公自動化水平顯著提升,與此同時,也給國家涉密信息的安全防護工作帶來了新的挑戰(zhàn)。在保密管理工作中敏感內(nèi)容輸出檢查是一個重要的環(huán)節(jié)。目前,大部分航天企業(yè)對專網(wǎng)用戶日常處理的信息進行監(jiān)督和檢查時,還只是通過對保密安全系統(tǒng)的入口進行監(jiān)督和審計。近些年,為適應(yīng)運營業(yè)務(wù)需要,航天企業(yè)建立了多種保密安全系統(tǒng),由于系統(tǒng)入口數(shù)量多,各系統(tǒng)審計的顆粒度、審計標(biāo)準(zhǔn)不統(tǒng)一,給涉密信息內(nèi)容的檢查帶來了諸多問題,因此構(gòu)建面向航天專網(wǎng)的敏感內(nèi)容審查系統(tǒng),改進檢查方法手段,加強對日常工作中傳播文件敏感信息的識別與控制,在航天企業(yè)保密安全管理工作中顯得尤為重要。

        面向航天專網(wǎng)的敏感內(nèi)容審查系統(tǒng)需要實現(xiàn)以下三方面的目標(biāo)功能:

        1、根據(jù)統(tǒng)一的敏感信息篩查規(guī)則,對所有客戶端的打印內(nèi)容進行自動檢查,審計高密級文檔按低密級打印等違規(guī)行為。

        2、根據(jù)統(tǒng)一的敏感信息篩查規(guī)則,對所有客戶端的刻錄內(nèi)容進行自動審查,審計高密級文檔按低密級刻錄等違規(guī)行為。

        3、對定制化的敏感信息防護要求,能夠?qū)Υ龣z查的文件內(nèi)容進行全文檢索審查。

        一、解決方案

        設(shè)計面向所有應(yīng)用系統(tǒng)的統(tǒng)一的接口協(xié)議,敏感內(nèi)容審查系統(tǒng)通過調(diào)用統(tǒng)一的接口可以收集郵件系統(tǒng)、導(dǎo)入導(dǎo)出系統(tǒng)、打印系統(tǒng)等第三方系統(tǒng)的數(shù)據(jù),基于數(shù)據(jù)解析技術(shù)、OCR識別技術(shù),進行文本內(nèi)容提取。利用全文檢索技術(shù),根據(jù)預(yù)先定義的敏感內(nèi)容審查規(guī)則對數(shù)據(jù)進行深度的內(nèi)容審查,通過上述的主要功能,構(gòu)建一套集安全、可控、高效于一體的保密審查管理體系。

        圖1 內(nèi)容審查管理系統(tǒng)架構(gòu)圖

        敏感內(nèi)容審查系統(tǒng)架構(gòu)圖如圖1所示。

        (一)審查內(nèi)容同步

        借助統(tǒng)一的接口協(xié)議,利用OCR內(nèi)容識別提取技術(shù)、數(shù)據(jù)傳輸技術(shù)來自動同步郵件、導(dǎo)入導(dǎo)出、打印等辦公應(yīng)用系統(tǒng)的任務(wù)日志和任務(wù)內(nèi)容文件,將同步的數(shù)據(jù)通過數(shù)據(jù)解析技術(shù)進行文字解析提取后保存在數(shù)據(jù)庫中,用于后續(xù)的內(nèi)容審查。

        (二)保密審查員管理

        系統(tǒng)管理員可根據(jù)實際管理要求,配置企業(yè)級保密審查員和多個部門級保密審查員,并配置審查員的相應(yīng)權(quán)限和審查范圍。通常審查范圍要求如下:

        所級審查員:具有定期對全企業(yè)各涉密系統(tǒng)、所有客戶端文件檢索審查的權(quán)限。

        部門級審查員:具有對部門內(nèi)所有客戶端文件檢索審查的權(quán)限,可以自定義審查規(guī)則。

        (三)敏感內(nèi)容篩查規(guī)則

        保密審查員可以按照涉密等級、業(yè)務(wù)內(nèi)容設(shè)定敏感內(nèi)容、風(fēng)險篩查點規(guī)則,其規(guī)則通常為關(guān)鍵主題詞的集合,如密級、型號代號、型號名稱等不同類型關(guān)鍵字或者具體的型號名稱和型號代號值。

        (四)審查報告生成

        根據(jù)審查員設(shè)定的敏感內(nèi)容篩查規(guī)則,自動對系統(tǒng)中存儲的文本內(nèi)容或圖片進行全文檢索,并生成風(fēng)險報告。根據(jù)風(fēng)險報告按照審查員預(yù)先設(shè)定的審查周期自動生成審查報告。生成周期分為日報、周報、月報、季報、年報。也可以根據(jù)實際業(yè)務(wù)需要,指定特定的時間范圍進行手動生成審查報告。

        (五)關(guān)鍵敏感詞檢索

        保密審查員可以自定義關(guān)鍵敏感詞進行全文檢索,系統(tǒng)將含有關(guān)鍵字的所有文本內(nèi)容顯示在列表中,審查員可以根據(jù)需要顯示檢索內(nèi)容的上下文,也可以查看任務(wù)的預(yù)覽文件和下載原文。關(guān)鍵字在上下文及預(yù)覽文件中全部以高亮顯示,便于用戶迅速查看定位,根據(jù)敏感詞所處語境判斷是否涉密。

        二、關(guān)鍵技術(shù)

        (一)OCR內(nèi)容提取

        敏感內(nèi)容審查系統(tǒng)的OCR(Optical Character Recognition)內(nèi)容提取采用的是光學(xué)字符識別技術(shù),對圖片中的圖像數(shù)據(jù)進行轉(zhuǎn)碼、數(shù)據(jù)處理、字符識別、位置識別等。OCR的概念最早由德國科學(xué)家TauSheck在1929年首次提出,我國在“863”計劃以后開始OCR技術(shù)的研究,經(jīng)過近百年的發(fā)展,軟件硬件的不斷更新?lián)Q代,目前對漢字的識別率已經(jīng)超過98%[1-2]。在信息識別領(lǐng)域比較常用的有開源的Tesseract、OCRopus、Cuneiform等,商用的有漢王、ABBYY、ExperVision TypeReader等。

        面向航天專網(wǎng)的敏感內(nèi)容審查系統(tǒng)在選擇OCR引擎時,應(yīng)主要考慮以下幾個方面:

        (1)完全斷網(wǎng)使用。航天企業(yè)根據(jù)不同工作環(huán)境的限制,存在離線工作情況,所以O(shè)CR系統(tǒng)從圖片識別,到授權(quán)方式必須支持在離線的環(huán)境中進行,且不能引入其他的硬件設(shè)備。

        (2)詞語識別準(zhǔn)確率。經(jīng)過調(diào)研發(fā)現(xiàn),市場上存在的部分產(chǎn)品對拉丁語系的轉(zhuǎn)換識別效果不錯,對中文的識別準(zhǔn)確率不高。對于排版不規(guī)整的圖片,識別準(zhǔn)確率相對較低。

        (3)操作系統(tǒng)的適配。對軍工企業(yè),操作系統(tǒng)正在逐步國產(chǎn)化,OCR引擎開發(fā)需要兼容國產(chǎn)化的操作系統(tǒng),可以適配Windows平臺及國產(chǎn)化操作系統(tǒng)。

        1、Tesseract技術(shù)原理

        Tesseract OCR引擎功能強大,由于識別準(zhǔn)確率高,多用于駕駛證識別、車牌識別、醫(yī)學(xué)化驗單識別、快遞單號識別等領(lǐng)域,其主要功能概括地可以分為兩部分:

        (1)圖像輪廓分析是字符識別的準(zhǔn)備階段?;谥票砦粰z測的方法對頁面布局進行分析提取,將圖像的表格、文本、圖片等元素內(nèi)容進行區(qū)分。

        (2)文本塊分割和識別是整個Tesseract的核心,工作內(nèi)容最為復(fù)雜。首先是文本塊切割,包括粗略切分和精細(xì)切分兩個過程:

        粗略切分,就是利用字符間的間隔進行切分,得到大部分的字符文本塊,也有粘連文本塊或者錯誤切分的文本塊。然后通過字符區(qū)域類型來判定識別字符,通過與字符庫中的文本進行比對,完成第一次字符的識別。

        精細(xì)切分,就是根據(jù)粗略切分識別出來的字符,對粘連的文本塊進行二次切割,同時合并錯誤分割的字符,完成文本塊的精細(xì)切分。

        Tesseract OCR引擎識別步驟[3]:

        如歷代江西文學(xué)就是江西人民創(chuàng)造的優(yōu)秀的文化遺產(chǎn),發(fā)掘其深厚意蘊可以讓青年學(xué)生了解江西文學(xué)、文化、歷史的發(fā)展軌跡,江西對全國的貢獻、江西在全國的地位,樹立江西青年的自豪感、自信心、責(zé)任感,激發(fā)他們對江西的熱愛之情,培養(yǎng)他們的鄉(xiāng)土情懷,促進精神文明建設(shè)。

        (1)字符輪廓區(qū)域分析,檢測出圖片字符區(qū)域,以及子輪廓,進一步將眾多輪廓線集合為塊區(qū)域。

        (2)由字符輪廓和塊區(qū)域得出文本行,并且通過字符間的空格識別出詞語。對于固定間距的文本塊利用字符單元分割出單個字符,而對百分號的文本通過模糊間隔來分割。

        (3)使用具有學(xué)習(xí)能力的自適應(yīng)分類器,逐次對每個單詞進行分析。分析過程中將滿足條件的字符記錄到分類器中,這樣越到后面識別的字符越準(zhǔn)確。識別到頁尾后,再對頁首識別不準(zhǔn)確的字符進行二次識別,識別精度越來越高。

        (4)最后,借助其他方法,識別含糊不清的空格,如通過筆畫高度識別小寫字母、大寫字母的文本。

        2、Tesseract OCR 引擎的應(yīng)用

        文字識別引擎可應(yīng)用于許多領(lǐng)域,包括輸入文本、自動處理郵件以及自動獲取文本的其他領(lǐng)域。這些領(lǐng)域涵蓋零售商品價簽信息提取、快遞單號信息識別、銀行支票的處理、身份證件識別、醫(yī)療化驗單信息識別等很多場景,方便用戶快速錄入信息、提取信息、識別信息,提高各行各業(yè)的工作效率[4]。

        (二)全文檢索

        面向航天專網(wǎng)的敏感內(nèi)容審查系統(tǒng)其核心是對文本內(nèi)容進行快速遍歷檢查,根據(jù)檢查規(guī)則找出并定位到具體的關(guān)鍵詞語。

        內(nèi)容審查分兩個階段:

        1、在各類安全系統(tǒng)任務(wù)執(zhí)行過程中,對單個任務(wù)的文本內(nèi)容進行篩查,判斷是否符合保密要求,給審查者提供意見。

        2、在任務(wù)結(jié)束后,對大量任務(wù)的文本數(shù)據(jù)進行檢索遍歷。

        在任務(wù)執(zhí)行過程中進行簡單的文字搜索,實現(xiàn)較為簡單,可以滿足第1個階段的需求,但在第2個階段,對大量的數(shù)據(jù)進行批量檢索,耗時會比較長,無法滿足日常保密審查應(yīng)用要求。所以研究所在系統(tǒng)建設(shè)中引入全文檢索引擎。全文檢索引擎產(chǎn)品類型較多,包括基于Java的Lucene、ElasticSearch、Solr,C++的Xapian、 Sphinx,Python的Whoosh,Go的wokong等[5-6]。

        航天企業(yè)選型時需要從以下幾個方面綜合考慮:

        (1)性能、穩(wěn)定性、成熟度。全文檢索引擎需要保存所有入口的文本內(nèi)容,并創(chuàng)建一對一的索引,以便快速檢索、定位,屬于核心中間件。

        (2)中文分詞。拉丁語系是以空格作為語句單元分割,但對于中文就較為復(fù)雜,尤其是在應(yīng)對新詞的情況下,必要時在性能和準(zhǔn)確性方面應(yīng)有所取舍,建議優(yōu)先考慮檢索內(nèi)容的可靠性。

        (3)部署和可擴展性。支持多平臺,在單服務(wù)器無法支持的情況下可以方便的橫向擴展。

        (4)選型時還要綜合考慮成本、易用性等。

        作者所在研究所選擇使用ElasticSearch作為全文檢索引擎。

        對ElasticSearch進行簡單的性能測試。測試樣本為1.95GB的純文本,共2001個文件,其中最大文件為31.1MB,對應(yīng)Word文檔約為12038頁,1000萬字。一次性對所有文本創(chuàng)建索引,三次平均耗時為29分43秒,期間CPU使用率在2%~18%間浮動。索引完成后,索引數(shù)據(jù)共3.21GB。索引創(chuàng)建完成后,按短語搜索的方式進行查詢,同一字符,第一次搜索較慢,消耗在0.7s到2s間浮動,第二次及之后的耗時在0.2s以下。內(nèi)存大小對檢索速度影響較大。 (注:以上時間包含測試程序運行時間,HTTP RESTFul通信時間,ElasticSearch檢索時間。測試機CPU:Intel(R)Core(TM) i7-3720QM CPU @ 2.60GHz,RAM 12GB。)

        1、Elastic Search原理

        圖2 Elastic Search全文檢索原理圖

        Elastic Search(ES)是一個基于Apache Lucene構(gòu)建的開源、分布式的全文搜索引擎,同時也是一個分布式文檔庫,庫中的每個字段均是被索引的數(shù)據(jù)且可被搜索,能夠擴展至數(shù)以百計的服務(wù)器,存貯與處理PB級的數(shù)據(jù),可以短時間存儲、搜索和分析大量的數(shù)據(jù),具有高效搜索的能力,Elastic Search全文檢索原理圖如圖2所示。

        Elastic Search具有以下4個主要特點[6]:

        (1)高度的可擴展性:增加一臺機器,只需要添加集群配置,啟動Elastic Search進行即可;

        (2)分片機制:一個索引可以分成多個Sharding,提高處理效率;

        (3)高可用性:每個分片可以設(shè)置多個備份,少量機器宕機不影響正常使用;

        (4)不僅具有全文搜索能力,還可以按照字段進行結(jié)構(gòu)化搜索、聚合分析。

        2、Elastic Search的應(yīng)用

        Elastic Search多應(yīng)用于熱點圖、交通情況信息圖等需要實時數(shù)據(jù)搜索和顯示的場景以及數(shù)據(jù)更新頻繁的場景等。

        (1)2 013 年初,GitHub放棄Solr,使用Elastic Search來做P B級的搜索。GitHub使用ElasticSearch搜索20TB的數(shù)據(jù),包括13億文件和1300億行代碼。

        (2)維基百科啟動以elasticsearch為基礎(chǔ)的核心搜索架構(gòu)。

        (3)SoundCloud使用ElasticSearch為將近1.8億用戶提供即時且精準(zhǔn)的音樂搜索服務(wù)。

        (4)百度目前廣泛采用ElasticSearch作為文本數(shù)據(jù)分析,收集百度所有服務(wù)器上的各類指標(biāo)數(shù)據(jù)及用戶定義數(shù)據(jù),通過對數(shù)據(jù)進行多維分析展示,用來輔助定位分析實例異?;驑I(yè)務(wù)層面異常。目前已覆蓋百度20多個業(yè)務(wù)線,包括casio、云分析、網(wǎng)盟、預(yù)測、文庫、風(fēng)控等,單集群最大100臺機器,200個ES節(jié)點,每天導(dǎo)入30TB以上的數(shù)據(jù)。

        (5)此外,新浪,阿里,有贊等著名公司也開始了ES方面的相關(guān)技術(shù)研發(fā)和實踐。

        三、結(jié)語

        本文針對航天專網(wǎng)涉密信息審計存在多入口、人工審計成本高、效率低、審計結(jié)果不精準(zhǔn)等問題,提出了通過信息化手段實現(xiàn)自動風(fēng)險篩查的解決方案,輔助管理員審查敏感內(nèi)容,提高審查效率。通過在本單位實際應(yīng)用表明,敏感內(nèi)容審查系統(tǒng)可以對保密安全管理提供有效的支撐。

        猜你喜歡
        全文檢索審查員字符
        尋找更強的字符映射管理器
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        新加坡啟動專利審查非正式溝通渠道
        Oracle數(shù)據(jù)庫全文檢索性能研究
        美國專利商標(biāo)局會晤制度簡介
        專利代理(2016年2期)2016-02-08 12:46:01
        基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
        Modiano & Partners再次承接歐洲專利局審查員外部見習(xí)項目
        對專利法實施細(xì)則第51條第1款的把握
        巨爆中文字幕巨爆区爆乳| 国产av色| 亚洲全国最大的人成网站| 日本一区二区在线高清观看| 欧美成免费a级毛片| 亚洲国际无码中文字幕| 人妻丰满熟妇av一区二区| 在教室轮流澡到高潮h免费视| 性做久久久久久久| 真人男女做爰无遮挡免费视频| 丰满人妻AV无码一区二区三区| 国产毛片视频一区二区三区在线 | 精品高清一区二区三区人妖| 国产av国片精品jk制服| 久久人人爽人人爽人人av东京热| 国产激情久久久久久熟女老人| 大陆成人精品自拍视频在线观看 | 国产99久久无码精品| 自拍偷拍另类三级三色四色| 西川结衣中文字幕在线| 天堂中文在线资源| 被欺辱的高贵人妻被中出| 亚洲成熟中老妇女视频| 超碰97人人射妻| 国产精品-区区久久久狼| 国产好片日本一区二区三区四区| 日本a爱视频二区三区| 亚洲av永久无码精品网站在线观看| 这里只有久久精品| 亚洲一区二区三区综合网| 中文字幕一区二区三区视频| 激情综合一区二区三区| 亚洲嫩草影院久久精品| 久久久熟女一区二区三区| 国产无遮挡又爽又刺激的视频老师 | 久久人人爽人人爽人人片亞洲| 1234.com麻豆性爰爱影| 一区二区三区国产色综合| 亚洲avav天堂av在线网爱情| 啪啪视频一区二区三区入囗| 美腿丝袜视频在线观看|