亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖像處理和卷積神經(jīng)網(wǎng)絡(luò)的文本驗(yàn)證碼識別方案

        2020-09-10 06:50:56陳振昂黃星期秦中元
        網(wǎng)絡(luò)空間安全 2020年8期
        關(guān)鍵詞:文本實(shí)驗(yàn)

        陳振昂,黃星期,秦中元

        〔1.東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,江蘇南京 211189;2.網(wǎng)絡(luò)空間國際治理研究基地(東南大學(xué)),江蘇南京211189〕

        1 引言

        驗(yàn)證碼技術(shù)的全稱是“全自動區(qū)分計(jì)算機(jī)和人類的圖靈測試”(Completely Automated Public Test to tell Computer and Humans Apart,CAPTCHA),基本思想:根據(jù)預(yù)先人為制定的規(guī)則,由計(jì)算機(jī)系統(tǒng)自動生成一個(gè)用戶可以很容易解決但是計(jì)算機(jī)系統(tǒng)卻很難或者根本無法解決的問題。其中文本驗(yàn)證碼是使用最廣泛的驗(yàn)證碼技術(shù)之一,目前對于它的識別研究已經(jīng)成為了一個(gè)比較熱門的領(lǐng)域[1]。

        George D等人[2]根據(jù)神經(jīng)科學(xué)基礎(chǔ)—人體記憶物體時(shí)總是同時(shí)記憶該物體的輪廓和表面特征,提出了遞歸皮層網(wǎng)絡(luò)(Recursive Cortical Network,RCN),將驗(yàn)證碼的識別過程分為表征、推理和學(xué)習(xí)三個(gè)步驟。盡管該方案能獲得較好的識別準(zhǔn)確率,對訓(xùn)練集樣本數(shù)量要求要較低,但計(jì)算量龐大,需要較好的硬件設(shè)備。Dazhen Lin等人[3]針對基于漢字的驗(yàn)證碼提出了新的卷積神經(jīng)網(wǎng)絡(luò)模型,對混合干擾的驗(yàn)證碼進(jìn)行測試,識別準(zhǔn)確率均達(dá)到85%以上。但實(shí)驗(yàn)樣本字符間有明顯間隔,且反分割手段較差。Xing Wu等人[4]對帶有噪聲的可變長的基于漢字的文本驗(yàn)證碼進(jìn)行了研究,實(shí)驗(yàn)結(jié)果表明,所提出的方法能夠有效地識別出帶有噪聲的可變長漢字驗(yàn)證碼。但該方法受數(shù)據(jù)集影響明顯,并且字符分割方案不適用于具有復(fù)雜反分割手段的驗(yàn)證碼。

        基于國內(nèi)外學(xué)者的研究,本文提出了一種基于圖像處理和卷積神經(jīng)網(wǎng)絡(luò)的文本驗(yàn)證碼識別方案,本文設(shè)計(jì)的圖像分割算法具有較好的通用性,能夠有效提取出字符并且識別具有較高的準(zhǔn)確率。

        2 相關(guān)工作

        2.1 預(yù)處理

        原始驗(yàn)證碼圖片一般為RGB彩色圖片,并且?guī)в性肼暬【€等干擾。預(yù)處理階段的主要目的是去除驗(yàn)證碼圖片中的冗余信息(如背景顏色、噪聲弧線等)。此階段的流程如圖1所示。其中,二值化過程采用最大類間方差法,采用3×3的中值濾波去除噪聲。經(jīng)過預(yù)處理的圖像如圖2所示。

        圖1 預(yù)處理流程圖

        圖2 預(yù)處理效果圖

        2.2 腐蝕

        形態(tài)學(xué)腐蝕[5]可以細(xì)化字符,從而進(jìn)一步減少噪聲,并去除毛刺,腐蝕后的效果圖如圖3所示。

        2.3 顏色填充算法

        顏色填充算法(Color Filling Segmentation,CFS)[6]是一種連通域分割算法,其基本思想是以某一像素點(diǎn)為起始點(diǎn)遍歷其所在的連通域。但是此方法的缺陷在于無法將斷裂的字符識別為同一連通域,因此本文將對其改進(jìn)。

        圖3 形態(tài)學(xué)腐蝕效果圖

        2.4 滴水算法

        滴水算法是一種用于分割手寫粘連字符的算法,它模擬水滴的滾動,通過水滴的滾動路徑來分割字符,可以解決直線切割造成的過分分割問題。但該方法無法處理圖中的水平線條遇到邊界導(dǎo)致算法異常結(jié)束,因此本文將對其改進(jìn)。

        3 字符分割

        3.1 改進(jìn)顏色填充算法

        本文研究方案對顏色填充算法做三個(gè)方面的修改:

        (1)去除像素個(gè)數(shù)小于6的連通域;

        (2)合并邊界重合率達(dá)到70%以上的連通域;

        (3)計(jì)算保留連通域的平均像素個(gè)數(shù),設(shè)為T,去除像素個(gè)數(shù)小于T的四分之一的連通域。

        值得說明的是,邊界重合率是兩個(gè)不同連通域的位置重合程度指標(biāo)。設(shè)連通域1的橫坐標(biāo)范圍為[a,b],連通域2的橫坐標(biāo)范圍為[c,d](其中a

        算法效果如圖4所示。

        圖4 改進(jìn)顏色填充算法效果

        3.2 改進(jìn)的滴水算法

        為更好分割字符,本文對滴水算法做出的修改為:

        (1)水滴水平滾動時(shí),記錄其左右邊界,當(dāng)邊界距離超過8像素或再次到達(dá)邊界時(shí),取中心位置為下一滴落點(diǎn);

        (2)水滴到達(dá)底部時(shí),若距離其左側(cè)邊界過近(小于右側(cè)三分之一)或過遠(yuǎn)(大于右側(cè)的3倍),則將水滴起始位置分別向右或向左移動1像素,重新開始算法,校正次數(shù)超過8次,便判定為分割失敗。

        滴水算法效果圖如圖5所示。

        圖5 改進(jìn)的滴水算法效果圖

        3.3 提取字符

        對于已經(jīng)預(yù)處理完畢的圖片,如果顏色填充算法所得連通域個(gè)數(shù)正好等于實(shí)際字符個(gè)數(shù),則直接使用連通域分割,否則,使用滴水算法分割。

        如圖6所示為提取的字符效果圖,為降低后續(xù)計(jì)算量,將其壓縮到32×32。

        圖6 提取字符效果圖

        4 字符識別

        本文利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)構(gòu)建了一個(gè)模型,并使用字符信息對其進(jìn)行訓(xùn)練。

        4.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        本文設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)包含三個(gè)卷積層、三個(gè)池化層、兩個(gè)全連接層等,具體架構(gòu)參數(shù)如表1所示。

        表1 CNN模型架構(gòu)參數(shù)列表

        4.2 中心損失

        中心損失(Center Loss)函數(shù)是由Wen Y等人[7]針對人臉識別任務(wù)提出的一種可以增強(qiáng)深度學(xué)習(xí)模型判別力的損失函數(shù)。中心損失會學(xué)習(xí)每個(gè)類的深層特征從而得到一個(gè)類中心,并懲罰每個(gè)深層特征與其對應(yīng)類中心的距離,即更關(guān)注類內(nèi)差異。

        具體實(shí)現(xiàn)過程可概括為:

        (1)初始化類中心、學(xué)習(xí)率等參數(shù);

        表2 實(shí)驗(yàn)數(shù)據(jù)集

        (2)如果已收斂,則結(jié)束;否則根據(jù)每批次輸入數(shù)據(jù)計(jì)算中心損失,根據(jù)梯度計(jì)算反向傳播誤差,再更新每個(gè)類的中心。

        在本文設(shè)計(jì)的方案中,類深度特征中心的學(xué)習(xí)率η與誤差反向傳播的學(xué)習(xí)率相同,中心損失占總損失的權(quán)重λ為0.01。

        5 實(shí)驗(yàn)結(jié)果

        5.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文數(shù)據(jù)集均來自生成和網(wǎng)絡(luò)采集,具體如表2所示。

        5.2 字符分割算法評估

        本文設(shè)計(jì)并實(shí)現(xiàn)的字符分割算法,聯(lián)合投影分析、顏色填充算法等多種技術(shù)進(jìn)行字符預(yù)分割操作,根據(jù)每張驗(yàn)證碼圖片中字符間的實(shí)際情況決定采用連通域分割或者修改的滴水算法分割,從而提取出獨(dú)立字符。本文對于表2中的實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行了試驗(yàn)評估,各數(shù)據(jù)集的字符分割成功率如表3所示。可以看出,本文的方法在各數(shù)據(jù)集上的效果都很好。

        5.3 模型評估

        為了進(jìn)一步評估本文提出的文本驗(yàn)證碼識別算法,本文還將實(shí)驗(yàn)結(jié)果與相關(guān)研究進(jìn)行了比較。本文復(fù)現(xiàn)了引言中提到的各方案,在各數(shù)據(jù)集上識別準(zhǔn)確率的比較如表4所示,可以看出本文提出的方案在各實(shí)驗(yàn)數(shù)據(jù)集上均能表現(xiàn)出一定優(yōu)勢,僅在實(shí)驗(yàn)數(shù)據(jù)集F和H略遜于RCN和FRN,這是由于本文使用了CNN作為識別網(wǎng)絡(luò),該網(wǎng)絡(luò)需要較龐大的訓(xùn)練數(shù)據(jù)集,而實(shí)驗(yàn)數(shù)據(jù)集F和H卻偏小,造成了一定的過擬合,但在實(shí)驗(yàn)數(shù)據(jù)集G和I(分別是對數(shù)據(jù)集F和H的擴(kuò)充)上,本文方案識別準(zhǔn)確率取得了明顯的提升,可以超過使用RCN和FRN的方案。值得說明的是,表4中存在一些空缺項(xiàng),空缺原因是該算法不適用于對應(yīng)的數(shù)據(jù)集。

        總體來看,本文提出的文本驗(yàn)證碼識別方案對于字符獨(dú)立和存在字符粘連、噪聲塊與噪聲線等反分割設(shè)計(jì)的文本驗(yàn)證碼均能表現(xiàn)出更好的識別性能,當(dāng)字符訓(xùn)練數(shù)據(jù)集較小時(shí)也能通過擴(kuò)充的方式提高識別準(zhǔn)確率。

        6 結(jié)束語

        驗(yàn)證碼是互聯(lián)網(wǎng)業(yè)務(wù)的安全基礎(chǔ)設(shè)施之一,也是目前保障電子商務(wù)業(yè)務(wù)安全的重要環(huán)節(jié)之一。本文提出了一種通用的文本驗(yàn)證碼識別方案,即先進(jìn)行預(yù)處理,再使用改進(jìn)的顏色填充算法和滴水算法進(jìn)行字符分割,最后進(jìn)行字符識別。此外,本文構(gòu)建了一個(gè)具有三個(gè)卷積層、三個(gè)池化層、兩個(gè)全連接層的卷積神經(jīng)網(wǎng)絡(luò),并引入了中心損失來最小化類內(nèi)差異。實(shí)驗(yàn)部分,本文復(fù)現(xiàn)了四種典型的文本驗(yàn)證碼方法,通過準(zhǔn)確率的比較發(fā)現(xiàn),本文提出的方案在各實(shí)驗(yàn)數(shù)據(jù)集上均能表現(xiàn)出一定優(yōu)勢。雖然在數(shù)據(jù)集F和H上不如RCN和FRN,但是在擴(kuò)充數(shù)據(jù)集G和I上,解決了過擬合現(xiàn)象后,實(shí)現(xiàn)了準(zhǔn)確率的明顯提升。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠有效提取出驗(yàn)證碼字符,并且能獲得更高的識別準(zhǔn)確率。

        猜你喜歡
        文本實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        做個(gè)怪怪長實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        国产中文久久精品| 中文字幕无线码| 国产精品人妻一区夜夜爱| 欧美日韩一区二区三区色综合| 琪琪av一区二区三区| 亚洲一区二区三区特色视频| 中文乱码字慕人妻熟女人妻| 国产一极毛片| 亚洲国产精品午夜一区| 综合色免费在线精品视频| 极品少妇一区二区三区四区| 久久精品re| 亚洲国产不卡免费视频| 亚洲天堂av在线免费看| 国产在线一区二区三精品乱码| 国产成人亚洲综合色婷婷| 五月婷婷激情综合| 日韩中文字幕乱码在线| 九九九免费观看视频| 国产精品免费大片| 青青草综合在线观看视频| 亚洲永久免费中文字幕| 国产成人精品999视频| 区二区欧美性插b在线视频网站 | 91福利国产在线观一区二区 | 国产精品高清视亚洲乱码| 欧美成人片在线观看| 最新亚洲人AV日韩一区二区| 国产三级c片在线观看| 国产亚州精品女人久久久久久 | 漂亮的小少妇诱惑内射系列| 亚洲一区二区三区偷拍厕所| 亚洲精品无码永久中文字幕| 四房播播在线电影| 国产呦系列呦交| 亚洲国产一区二区三区精品| 免费人成视频xvideos入口| 九九99国产精品视频| 中文字幕日本av网站| 好吊妞无缓冲视频观看| 欧美乱妇日本无乱码特黄大片|