亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向網(wǎng)絡(luò)安全的圖像文字敏感詞過濾方法

        2018-10-08 06:07:40仵晨陽張悅健張滏鈺
        西安郵電大學(xué)學(xué)報 2018年4期
        關(guān)鍵詞:分詞字符卷積

        劉 偉,何 瑤,仵晨陽,張悅健,張滏鈺

        (1.電子信息現(xiàn)場勘驗應(yīng)用技術(shù)公安部重點實驗室,陜西西安710121;2.陜西省無線通信與信息處理技術(shù)國際合作研究中心,陜西西安710121;3.西安郵電大學(xué)計算機(jī)學(xué)院,陜西西安710121)

        互聯(lián)網(wǎng)已成為我國居民檢索信息、分享知識、獲取服務(wù)的首選平臺[1]?;ヂ?lián)網(wǎng)具有自由、開放和交互等特點,這使得利用互聯(lián)網(wǎng)進(jìn)行詐騙、銷售槍支炸藥、販賣毒品、制造和傳播謠言、恐怖活動等犯罪活動成為可能,嚴(yán)重危害著社會安全與穩(wěn)定,侵害了廣大人民群眾的利益[2-4]。復(fù)雜嚴(yán)峻的網(wǎng)絡(luò)安全問題,是公共信息網(wǎng)絡(luò)安全監(jiān)察相關(guān)職能部門及相關(guān)研究單位共同關(guān)注和重點研究的熱點。

        電子論壇、微博、QQ、微信等社交工具是網(wǎng)絡(luò)時代下網(wǎng)民交流的主要平臺,網(wǎng)絡(luò)犯罪嫌疑人主要利用這些平臺進(jìn)行違法犯罪活動。監(jiān)控與過濾犯罪嫌疑人在這些平臺上發(fā)布的敏感信息是預(yù)防和打擊犯罪的重要環(huán)節(jié)。

        有很多方法可以用來監(jiān)控和過濾敏感文本信息。結(jié)合語義和統(tǒng)計模型篩選Web上敏感文本的方法,是對敏感文本的統(tǒng)計和語義特征進(jìn)行分析[5];通過文本模式匹配,過濾社交網(wǎng)絡(luò)用戶所發(fā)布評論中的敏感信息系統(tǒng)[6];利用敏感詞的組合信息改進(jìn)過濾效果,在核方法的框架下特征共現(xiàn)行為建模的原則[7];基于Patricia前綴樹建立分級敏感詞庫的方法,應(yīng)用于社交網(wǎng)站中敏感信息的過濾,用以解決網(wǎng)站中的敏感信息安全問題[8];內(nèi)網(wǎng)敏感信息檢測系統(tǒng)采用全文檢索和增量文件實時監(jiān)控技術(shù),通過建立敏感文件判定規(guī)則和敏感文件黑白名單機(jī)制,提高對內(nèi)網(wǎng)終端計算機(jī)違規(guī)存儲敏感信息檢查的準(zhǔn)確率和效率[9];針對傳統(tǒng)文本特征抽取方法在應(yīng)用于敏感信息過濾時出現(xiàn)的時間滯后、準(zhǔn)確性低等問題,結(jié)合敏感信息特征,提出的融合意見挖掘和自然語言處理技術(shù)的敏感信息動態(tài)特征抽取方法[10];網(wǎng)絡(luò)安全審計中敏感詞檢測系統(tǒng)的原型[11];基于網(wǎng)頁敏感度的敏感網(wǎng)頁分類監(jiān)測策略以及基于敏感信息摘要的去重策略[12];基于敏感信息的挖掘算法提出的網(wǎng)絡(luò)熱點自動發(fā)現(xiàn)以及主題追蹤的有效解決方案[13];商業(yè)化敏感文本信息監(jiān)控與過濾平臺,例如網(wǎng)易、百度和騰訊的敏感詞分析和過濾平臺[14-16],都取得了較好的應(yīng)用效果。

        近年來,有一些敏感文本信息被嵌入圖像,躲過文本信息監(jiān)控,發(fā)布到了社交平臺上。檢測圖像中的敏感文字信息首先要自動識別圖像中的文字,這是光學(xué)字符識別問題(optical character recognition,OCR)[17-18]。OCR 算法識別出的結(jié)果是單獨字符,必須將其結(jié)構(gòu)化才有意義,而目前的OCR平臺和軟件未考慮識別出字符的結(jié)構(gòu)化問題[14-16,19]。已有的圖像敏感文字檢測研究中,采用BP神經(jīng)網(wǎng)絡(luò)算法和深信度網(wǎng)絡(luò)對敏感信息進(jìn)行檢測,但是僅對背景簡單、布局規(guī)范的文字[20];文獻(xiàn)[21]研究了復(fù)雜圖像文本提取方法并構(gòu)建基于關(guān)鍵詞的敏感網(wǎng)絡(luò)圖像過濾系統(tǒng),但未深入討論識別出字符的結(jié)構(gòu)化問題。

        針對上述不足,本文采用圖像處理、文字識別和中文語言處理方法,提出一種面向網(wǎng)絡(luò)安全的圖像文字敏感詞過濾方法。該方法首先采用連通域分析、連通域合并及傾斜矯正方法來定位與分割圖像中的單個字符;之后使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)對單個字符進(jìn)行識別;最后借助于預(yù)先定義的敏感詞數(shù)據(jù)庫,使用中文分詞和字符串編輯距離來檢測敏感詞。

        1 算法設(shè)計

        1.1 算法框架

        待檢測的文本圖像來自電子論壇、微博、QQ、微信等社交平臺。對原始圖像進(jìn)行預(yù)處理(包括灰度化、二值化、去噪和形態(tài)學(xué)膨脹等運(yùn)算),采用連通域算法對二值化圖像處理得到各個聯(lián)通區(qū)域;根據(jù)連通域的面積大小、長寬比等參數(shù),確定文本區(qū)域;之后對單個字符進(jìn)行分割與合并;最后判斷識別出的字符是否傾斜,如果傾斜則進(jìn)行傾斜矯正。單個字符分割結(jié)束后使用一個預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)對單個字符進(jìn)行識別;最后采用中文分詞技術(shù)將識別出的漢字組織為一系列有意義的詞語,并借助敏感詞數(shù)據(jù)庫判定其是否包含敏感詞。算法原理如圖1所示。

        圖1 算法原理

        1.2 文本定位

        文本定位是所提方法的第一個關(guān)鍵步驟。很多文字識別的場景中文字排列比較規(guī)范且背景簡單(如文檔識別),可以采用投影法等來分割字符。本文所處理的圖像中的文字信息排列不規(guī)范,且圖像背景較為復(fù)雜,因此采用基于八鄰域標(biāo)記的連通域方法進(jìn)行文本定位。分析得到各個連通域,根據(jù)文字的特點采用一些預(yù)先設(shè)置的規(guī)則去除非文字區(qū)域從而得到最終的文字區(qū)域。判定非文字區(qū)域的規(guī)則包括連通域大小占圖像一半尺寸甚至更多、連通域的長寬比例較大(可能是一條直線)或較小、連通域面積過小等。圖2為處理示例。

        圖2 文字定位

        1.3 文本合并與傾斜校正

        連通域分析方法會定位出漢字的連通域,由于漢字本身的結(jié)構(gòu)特征,該方法往往會把漢字的各個偏旁部首分割成不同的連通域,如圖2(a)中的“管”字。必須將這些“離散”的連通域合并為一個漢字。

        合并規(guī)則[22]:任取兩個連通域,如果它們在水平和垂直方向上都足夠靠近則合并為一個連通域。執(zhí)行此步驟直至重疊字符中再沒有連通域滿足合并條件。這一級中在水平和垂直方向上對連通域合并的條件都有限制。上述合并法則中,水平方向上的“足夠靠近”可以用該方向上的字符重疊率

        式(1)中c1,c3分別是兩個聯(lián)通域最左邊的列標(biāo)號,c2,c4分別是兩個連通域最右邊的列標(biāo)號,Tol是一個常量,設(shè)為0.4。類似也可以定義垂直方向上的重復(fù)率rolv。合并方法可以有效地將分離的漢字偏旁部首合并為單個完整的漢字。漢字合并示例如圖3所示。圖3(a)中的漢字“管”在連通域分析時被“分割”成不同的部分,通過合并算法將其合并,圖3(b)中用反色顯示。

        圖3 漢字合并

        為了對抗OCR軟件與敏感文本信息過濾系統(tǒng),一些嵌入圖像的文字往往會被設(shè)置為傾斜狀態(tài)。這種情況需要將傾斜的文本進(jìn)行校正以便于后續(xù)識別。本文在合并漢字偏旁部首后,根據(jù)圖像中文字的幾何位置將其劃分為不同的區(qū)域,同一個區(qū)域中包含了幾何位置上相鄰的文字。之后計算每個區(qū)域中各個文字連通域的質(zhì)心,如果發(fā)現(xiàn)這些質(zhì)心的連線不在水平線上,說明文字是傾斜的,要采用校正算法將其校正為水平位置從而便于后續(xù)的文字識別。本文采用的校正算法是最小二乘法,即根據(jù)同一區(qū)域中各個文字連通域的質(zhì)心擬合一條直線,然后利用得到的直線計算出文本行的傾斜角度,通過圖像的旋轉(zhuǎn)進(jìn)行文本行的傾斜校正。

        1.4 文字識別與敏感詞檢測

        采用卷積神經(jīng)網(wǎng)絡(luò)用于單個字符識別。針對字母數(shù)字及漢字的識別分別采用2種網(wǎng)絡(luò)模型。2種網(wǎng)絡(luò)模型的結(jié)構(gòu)類似,僅描述漢字識別網(wǎng)絡(luò),如圖5所示。該網(wǎng)絡(luò)輸入為漢字二值影像,大小為32×32。前兩層為卷積層,其卷積核的數(shù)目為16和32,卷積核的尺寸為分別為5×5和3×3。第3層和第5層為池化層,所采用的池化算法為最大值池化,池化操作的尺寸為2×2。最后一層卷積層的卷積核尺寸為3×3。第6層為全連接層。通過soft max進(jìn)行字符的分類識別。優(yōu)化方法選用隨機(jī)梯度下降法,損失函數(shù)選取交叉熵法。

        圖5 漢字識別卷積神經(jīng)網(wǎng)絡(luò)模型

        經(jīng)過圖5識別出的結(jié)果為包含單個字符的字符串,必須將其結(jié)構(gòu)化才有意義。采用中文分詞技術(shù)檢測字符串中有意義的中文單詞,基于預(yù)先定義的敏感詞數(shù)據(jù)庫判定識別出的中文單詞是否包含敏感詞。中文分詞是較為成熟的技術(shù),本文使用了結(jié)巴分詞[23]。分詞結(jié)束后要判斷分詞結(jié)果中是否包含敏感詞?;陬A(yù)先定義的敏感詞數(shù)據(jù)庫,采用字符串編輯距離的計算方法進(jìn)行敏感詞判定。定義度量值

        式中,length(a)為字符串 a的長度,edit(a,b)為字符串a(chǎn)和字符串b的編輯距離。max(length(a),length(b))為a和b兩個字符串長度的最大值。度量值S越大,表明兩個字符串越相似。

        2 實驗結(jié)果與分析

        2.1 實驗環(huán)境與數(shù)據(jù)

        實驗計算機(jī)配置為CPU為Inter Core i5雙核(64位處理器),2.50GHz;顯卡為內(nèi)存為 4G;GPU為NVIDIA GeForce 940MX;操作系統(tǒng)為Windows 7旗艦版(64位系統(tǒng));實驗程序用Matlab 2013b編寫。

        實驗中的數(shù)據(jù)庫包括3種:(1)用于識別單個字符的文字?jǐn)?shù)據(jù)庫,包括HCL2000手寫數(shù)據(jù)庫[24]、自建的一級漢字標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)庫(包括宋體、楷體、黑體等十幾種常用字體)、數(shù)字和字母數(shù)據(jù)庫(用于識別圖像中的手機(jī)號碼、QQ號碼等敏感信息);(2)自建的復(fù)雜背景與布局下的文字圖像數(shù)據(jù)庫,包括210張圖像,其中包含有敏感詞的圖像數(shù)據(jù)為100張。這些數(shù)據(jù)部分采集自互聯(lián)網(wǎng)(如引發(fā)輿情的謠言文字圖像)、部分?jǐn)?shù)據(jù)是本文作者根據(jù)敏感詞語料庫合成的數(shù)據(jù);(3)從網(wǎng)上下載的敏感詞語料文字?jǐn)?shù)據(jù)庫,包括暴恐、反動、民生等詞庫。

        2.2 結(jié)果與分析

        為了對比文字識別結(jié)果,將分割后的單個字符歸一化到同一尺寸,分別使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、支持向量機(jī)(SVM)和決策樹算法(DT)進(jìn)行字符識別比較。支持向量機(jī)采用多項式核函數(shù)進(jìn)行多分類(預(yù)先實驗表明多項式核可以取得最佳識別率),特征選用文字圖像的Gabor特征。實驗結(jié)果如表1所示。由表1可知,CNN模型取得了較高的識別正確率。

        表1 字符識別結(jié)果

        使用中文分詞技術(shù)(結(jié)巴分詞)對識別后的字符串進(jìn)行分詞以進(jìn)行后續(xù)的敏感詞檢測工作。結(jié)巴分詞支持全模式、精確模式和搜索引擎模式三種方式。由于下一步要進(jìn)行文本分析,本文采用精準(zhǔn)模式下的分詞結(jié)果。分詞結(jié)束后,使用字符串之間的編輯距離作為檢測敏感詞的度量函數(shù),相似度較高的視為敏感詞。本文對一些疑似敏感詞進(jìn)行識別處理,這些疑似敏感詞可能源于文字圖像識別錯誤,也可能源于人為因素的蓄意為之。表2給出了若干示例(表中“分詞結(jié)果”一欄中用分隔線表示分詞結(jié)果),表中有下劃線的詞語是疑似敏感詞校正后結(jié)果。

        表2 敏感詞檢測示例

        從包含敏感詞的文本圖像數(shù)據(jù)庫中隨機(jī)挑選25、50、75、100幅樣本圖像進(jìn)行檢測,分別計算查準(zhǔn)率、查全率及F1指標(biāo),結(jié)果如表3所示。

        表3 敏感詞檢測結(jié)果

        ?

        由表3可知,由于隨機(jī)挑選的文本圖像中可能包含敏感詞(每幅圖像中包含的敏感詞個數(shù)也不一致),也可能不包含,計算的查全率和F1值隨著數(shù)據(jù)的增大而增加,最高的查準(zhǔn)率接近80%。這表明本文方法具有較好的檢測效果。分別與文獻(xiàn)[20]和文獻(xiàn)[21]的實驗結(jié)果進(jìn)行對比,文獻(xiàn)[20]對1 000個樣本的最好識別率為93.7%;文獻(xiàn)[21]對100個敏感文字圖像樣本的召回率為77%。由于文獻(xiàn)[20]的研究對象是背景簡單、布局規(guī)范的文字,所以本文實驗結(jié)果和文獻(xiàn)[21]的結(jié)果對比更合適。由表3可以看出,針對100個樣本本文方法的召回率為82.24%,優(yōu)于文獻(xiàn)[21]的結(jié)果。由此說明本文方法的有效性。

        3 結(jié)語

        面向網(wǎng)絡(luò)安全的圖像文字敏感詞過濾方法針對復(fù)雜背景與布局下的文本圖像信息,采用OCR方法識別單個字符,并基于中文分詞技術(shù)和敏感詞數(shù)據(jù)庫檢測文本圖像中包含的敏感詞。實驗結(jié)果證實了本文方法的有效性。

        猜你喜歡
        分詞字符卷積
        尋找更強(qiáng)的字符映射管理器
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:50
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        消失的殖民村莊和神秘字符
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        值得重視的分詞的特殊用法
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        大陆成人精品自拍视频在线观看 | 男男啪啪激烈高潮无遮挡网站网址 | 国产乱人伦精品一区二区| 无码人妻专区免费视频| 精品女同一区二区三区在线播放器| 亚洲精品久久区二区三区蜜桃臀| 在线观看成人无码中文av天堂| 国精产品一区二区三区| 无码熟妇人妻AV不卡| 中文字幕午夜精品一区二区三区| 亚洲av成人无码一二三在线观看| 亚洲av无码一区二区二三区 | 99久久国产免费观看精品| 国产精品无码久久综合| 无码专区久久综合久中文字幕| 精品无码国产一二三区麻豆| 久久精品亚洲精品国产区| 人妻av无码一区二区三区| 国产成+人+综合+亚洲 欧美| 国产不卡一区二区三区视频| 男女av免费视频网站| 中文亚洲av片在线观看| 亚洲伊人久久大香线蕉影院| 久久综合这里只有精品| 国产综合精品久久99之一| 男女车车的车车网站w98免费| 亚洲欧洲日韩免费无码h| 久久中文字幕国产精品| 亚洲夜夜性无码| 国产成人精品无码播放| 国产美女自拍国语对白| 开心五月婷婷激情综合网| 国产97色在线 | 日韩| 国产精品视频免费的| 乳乱中文字幕熟女熟妇| 好吊妞无缓冲视频观看| 亚洲国产成人91| 久久99久久久精品人妻一区二区 | 男女男生精精品视频网站| 图片小说视频一区二区| 国产成人麻豆精品午夜福利在线|