亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于漸進(jìn)式學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)端到端驗(yàn)證碼識(shí)別

        2018-09-21 10:03:10劉達(dá)榮張遠(yuǎn)平湯茂斌李福芳
        關(guān)鍵詞:特征

        劉達(dá)榮,張遠(yuǎn)平,湯茂斌,李福芳

        (廣州大學(xué) 計(jì)算機(jī)科學(xué)與教育軟件學(xué)院,廣東 廣州 510006)

        1 概 述

        驗(yàn)證碼[1]作為區(qū)分人類和機(jī)器的測試工具,在圖靈測試上占有一席之地。如鐵道部在高鐵票購買過程中,進(jìn)行驗(yàn)證碼識(shí)別以防止黃牛黨搶票;論壇注冊(cè)時(shí),提供的驗(yàn)證碼測試防止腳本自動(dòng)注冊(cè)。目前,比較常用的驗(yàn)證碼都會(huì)包含一些扭曲變形的字符進(jìn)行測試,測試者必須能看懂并輸入正確的字符串才能通過。對(duì)于人類來說,扭曲變形的字符并不難識(shí)別,但對(duì)于機(jī)器就相當(dāng)困難,一個(gè)好的驗(yàn)證碼可以有80%的概率被人類識(shí)別[2],但對(duì)于機(jī)器只有0.01%的概率被識(shí)別。一個(gè)典型的驗(yàn)證碼樣例[3]如圖1所示。

        圖1 谷歌提供的驗(yàn)證碼樣例

        傳統(tǒng)的光學(xué)字符識(shí)別[4]的方法是:首先定位字符的位置,然后進(jìn)行分割[5]和識(shí)別。Mori等[6-7]提出先分割,后使用字典來解決驗(yàn)證碼識(shí)別問題。然而,如圖1所示,因?yàn)檫@種驗(yàn)證碼的字符發(fā)生重疊或者變形,已經(jīng)不能用垂直線分割。目前,相關(guān)工作者已經(jīng)開始利用人工智能[8]研究自動(dòng)化方法去解決驗(yàn)證碼識(shí)別問題,如Goodfellow等[9]使用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)成功解決了該問題。但是訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)需要非常大的數(shù)據(jù)集[10],如ImageNet[11]數(shù)據(jù)集需要大量的圖片數(shù)據(jù):訓(xùn)練數(shù)據(jù)集126萬張圖像,驗(yàn)證集5萬張,測試集10萬張。對(duì)于驗(yàn)證碼識(shí)別,具有人工標(biāo)簽的訓(xùn)練數(shù)據(jù)并不多,而且與自然圖片中的對(duì)象不同,驗(yàn)證碼的變化空間非常大。

        由于變形驗(yàn)證碼的特征與手寫字符類似,因此文中借鑒LeCun等[12]提出的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行識(shí)別。CNN被設(shè)計(jì)成層級(jí)結(jié)構(gòu),常應(yīng)用于目標(biāo)檢測和分類,由于帶有卷積層,對(duì)圖像處理具有特別優(yōu)勢。利用卷積對(duì)圖像特有的局部感受野進(jìn)行特征提取,并進(jìn)行權(quán)值共享,從而大幅減少參數(shù);利用多卷積核學(xué)習(xí)多種特征,在通過卷積獲得了特征之后,利用池化對(duì)不同位置的特征進(jìn)行聚合統(tǒng)計(jì)[13]。目前,基于CNN產(chǎn)生的模型基本能解決大部分視覺問題,可見其強(qiáng)大功能。

        訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)需要較大的數(shù)據(jù)集和耗費(fèi)較長的訓(xùn)練時(shí)間,對(duì)此,文中提出兩種新方法:使用“best-vs-second-best”統(tǒng)計(jì)方法對(duì)驗(yàn)證碼進(jìn)行回收,以減少訓(xùn)練數(shù)據(jù)量;模仿人類的學(xué)習(xí)模式—漸進(jìn)式學(xué)習(xí),由易到難進(jìn)行學(xué)習(xí)來減少訓(xùn)練時(shí)間,提出基于漸進(jìn)式學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò),對(duì)驗(yàn)證碼進(jìn)行端到端的識(shí)別。

        實(shí)驗(yàn)流程如圖2(a)所示。首先,利用一萬張沒有扭曲變形的驗(yàn)證碼圖片作為訓(xùn)練數(shù)據(jù),基于手寫識(shí)別MNIST優(yōu)化后的網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,訓(xùn)練完畢后再對(duì)十萬張驗(yàn)證碼圖片進(jìn)行預(yù)測,在輸出結(jié)果時(shí)利用“best-vs-second-best”統(tǒng)計(jì)方法,把不確定度較大的圖片放回下一次訓(xùn)練中;接著,當(dāng)正確率上升到比較高的時(shí)候(90%以上),把原來的驗(yàn)證碼圖片替換成扭曲變形較大的圖片,重復(fù)以上過程,從而縮短學(xué)習(xí)時(shí)間并獲取較高的準(zhǔn)確率。

        (a)訓(xùn)練流程和數(shù)據(jù)流向

        2 學(xué)習(xí)模型

        傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)激活函數(shù)以Sigmoid函數(shù)和Tanh函數(shù)為主[14]。從數(shù)學(xué)上來看,非線性的Sigmoid函數(shù)對(duì)中央?yún)^(qū)的信號(hào)增益較大,對(duì)兩側(cè)區(qū)的信號(hào)增益小,在信號(hào)的特征空間映射上有很好的效果。從神經(jīng)科學(xué)上來看,中央?yún)^(qū)酷似神經(jīng)元的興奮態(tài),兩側(cè)區(qū)酷似神經(jīng)元的抑制態(tài),因而在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方面,可以將重點(diǎn)特征推向中央?yún)^(qū),將非重點(diǎn)特征推向兩側(cè)區(qū)。而在深層網(wǎng)絡(luò)中,為了加快訓(xùn)練網(wǎng)絡(luò)和減少梯度,利用了ReLu(rectified linear units)激活函數(shù)[15]。

        基于手寫識(shí)別MNIST的三層網(wǎng)絡(luò)結(jié)構(gòu),文中對(duì)其進(jìn)行改造,在池化層加入ReLu激活函數(shù)來提高收斂速度,以及加入DropOut技術(shù)[16-17]來防止網(wǎng)絡(luò)過擬合,如圖2(b)。DropOut技術(shù)是在訓(xùn)練網(wǎng)絡(luò)時(shí)用的一種技巧,在訓(xùn)練開始時(shí),隨機(jī)選擇一半隱層單元,保持輸入和輸出層不變進(jìn)行權(quán)值更新,在第二次迭代中,再次隨機(jī)選擇一半隱層單元,以此類推直到訓(xùn)練結(jié)束。運(yùn)用DropOut的訓(xùn)練過程,相當(dāng)于訓(xùn)練了很多個(gè)只有半數(shù)隱層單元的神經(jīng)網(wǎng)絡(luò),每一個(gè)這樣的半數(shù)網(wǎng)絡(luò),都可以給出一個(gè)分類結(jié)果,這些結(jié)果有的是正確的,有的是錯(cuò)誤的。隨著訓(xùn)練的進(jìn)行,大部分半數(shù)網(wǎng)絡(luò)都可以給出正確的分類結(jié)果,那么,少數(shù)的錯(cuò)誤分類結(jié)果就不會(huì)對(duì)最終結(jié)果造成較大影響。

        2.1 訓(xùn)練數(shù)據(jù)的生成

        由于沒有手動(dòng)打標(biāo)簽的驗(yàn)證碼數(shù)據(jù)集,文中采用自己編寫的PHP腳本自動(dòng)生成驗(yàn)證碼,并保證沒有重復(fù)的驗(yàn)證碼圖片。使用Cool PHP CAPTHCAH框架生成驗(yàn)證碼,其中包含了一串固定長度(6位)的扭曲字符,類似于谷歌的reCAPTCHA[4],生成的驗(yàn)證碼圖片大小為50×180。調(diào)整該框架生成灰度圖,沒有加入陰影和橫線作為背景,部分驗(yàn)證碼數(shù)據(jù)集見圖3。

        圖3 驗(yàn)證碼

        2.2 卷積層網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)和特征可視化

        如圖2(b)所示,圖片以像素形式轉(zhuǎn)換成矩陣輸入網(wǎng)絡(luò)。在卷積層1中,對(duì)數(shù)據(jù)層以窗口大小5×5、步長為2進(jìn)行特征提取,把原圖片50×180壓縮編碼以25×90的矩陣向量輸出到下一層,直到最后的分類輸出層。在卷積層1、2、3的輸出中,第一個(gè)輸出圖學(xué)習(xí)到了驗(yàn)證碼的邊緣,第二個(gè)輸出圖學(xué)習(xí)到了驗(yàn)證碼的局部特征,第三個(gè)輸出圖學(xué)習(xí)到了驗(yàn)證碼的全局特征。

        基于Caffe框架[18],硬件采用GTX960 GPU進(jìn)行訓(xùn)練,基礎(chǔ)學(xué)習(xí)率(base_lr)初始值設(shè)置為0.01,動(dòng)量為0.9,權(quán)值衰減為0.000 5,學(xué)習(xí)率策略采用多項(xiàng)式,權(quán)重(power)為0.75,最大迭代次數(shù)(max_iter)為20 000,并使用GPU進(jìn)行加速訓(xùn)練,迭代次數(shù)(iter)為兩千次。由于選取學(xué)習(xí)率策略為多項(xiàng)式模式(Poly),故在訓(xùn)練過程中的有效學(xué)習(xí)率為base_lr*(1-iter/max_iter)^(power),訓(xùn)練兩萬張圖片。

        對(duì)超參數(shù)進(jìn)行設(shè)置和建模,以及對(duì)每一層的輸入與輸出進(jìn)行特征可視化,如圖4所示。

        圖4 網(wǎng)絡(luò)結(jié)構(gòu)

        2.3 輸出層

        對(duì)于輸出層,為預(yù)測每個(gè)驗(yàn)證碼圖片的字符概率,采用SoftmaxWithLoss多分類函數(shù):

        (1)

        即對(duì)于隱層的輸出v,第i個(gè)輸出單元yi的概率為P(yi|v),ω為隱層與輸出層的權(quán)重值。在輸出層,由于不能直接輸出字符,采用如下映射函數(shù):

        Θ(yi)=

        (2)

        其中,yi為輸出層第i(i=0,1,…,5)個(gè)單元,對(duì)應(yīng)從數(shù)字0到字母z的其中一個(gè),其余如此類推。如第一個(gè)輸出單元y0,輸出最大概率對(duì)應(yīng)的橫坐標(biāo)為37,代表輸出字符a;第二個(gè)輸出單元y1,輸出最大概率對(duì)應(yīng)的橫坐標(biāo)為112,代表輸出字符n,如此類推,如圖5所示。

        以上文的驗(yàn)證碼圖片“anzwtg”為例,圖中為六位字符經(jīng)過識(shí)別后每一位對(duì)應(yīng)的最大概率,即x軸的第0號(hào)到61號(hào)為第一個(gè)字符的分布區(qū)間,第62到123為第二個(gè)字符的分部區(qū)間,依此類推。

        圖5 提取輸出層的概率分布圖

        2.4 利用不確定度回收訓(xùn)練圖片

        文中采用“best-vs-second-best”來統(tǒng)計(jì)已經(jīng)分類正確但具有較大不確定性的圖片,重新放回下一次迭代訓(xùn)練,以此減少訓(xùn)練樣本大小,公式如下:

        (3)

        其中,d為迭代次數(shù);P(yi)為每個(gè)字符的概率大小。分母是每次迭代的字符最大概率,分子是每次迭代的字符次大概率,即選取總不確定度η值最大的圖片,重新放入下一次迭代訓(xùn)練,以此來減少訓(xùn)練圖片規(guī)模。

        3 實(shí)驗(yàn)結(jié)果與分析

        文中提出漸進(jìn)式學(xué)習(xí),其準(zhǔn)確率和學(xué)習(xí)過程如圖6所示。其中,實(shí)線為直接采用困難驗(yàn)證碼圖片訓(xùn)練的效果,虛線為先進(jìn)行簡單圖片預(yù)訓(xùn)練,當(dāng)準(zhǔn)確率達(dá)到98%時(shí),替換成困難驗(yàn)證碼圖片進(jìn)行訓(xùn)練的效果。

        圖6 迭代次數(shù)與準(zhǔn)確率

        從圖6可以明顯看出,采用漸進(jìn)式學(xué)習(xí)在同一訓(xùn)練時(shí)間內(nèi)準(zhǔn)確率更高,達(dá)到86%。本次實(shí)驗(yàn)中,訓(xùn)練的總時(shí)間約為48 h,若繼續(xù)增加訓(xùn)練時(shí)間,準(zhǔn)確率還可以更高。與傳統(tǒng)方法相比較,在單張驗(yàn)證碼識(shí)別時(shí)間上,基于SVM識(shí)別需要0.76 s[19],在本測試中需要0.073 s,識(shí)別效率約為傳統(tǒng)方法的10倍。

        4 結(jié)束語

        結(jié)合傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行優(yōu)化,采用模仿人類學(xué)習(xí)過程的漸進(jìn)式學(xué)習(xí)模式,提出一種無分割、端到端驗(yàn)證碼識(shí)別算法。該算法充分利用卷積神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)特性,簡化傳統(tǒng)驗(yàn)證碼識(shí)別中字符分割等人工干預(yù)手段,使得網(wǎng)絡(luò)具有抗旋轉(zhuǎn)的優(yōu)良特性,并利用概率統(tǒng)計(jì)方法減少訓(xùn)練樣本,最終使得神經(jīng)網(wǎng)絡(luò)具有收斂速度快、檢測效果好的特性。在后續(xù)工作中,將在背景加入更多干擾來進(jìn)行測試,以期提高網(wǎng)絡(luò)的魯棒性。

        猜你喜歡
        特征
        抓住特征巧觀察
        離散型隨機(jī)變量的分布列與數(shù)字特征
        具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
        月震特征及與地震的對(duì)比
        如何表達(dá)“特征”
        被k(2≤k≤16)整除的正整數(shù)的特征
        不忠誠的四個(gè)特征
        詈語的文化蘊(yùn)含與現(xiàn)代特征
        新聞傳播(2018年11期)2018-08-29 08:15:24
        抓住特征巧觀察
        基于特征篩選的模型選擇
        亚洲欧洲精品成人久久曰影片| 亚洲日韩在线中文字幕综合| 亚洲国产精品综合久久网各| 在线免费观看国产精品| 日本一区二区国产高清在线播放| 你懂的视频在线看播放| 色88久久久久高潮综合影院| 99久久久无码国产精品试看| 久久精品熟女不卡av高清| 清纯唯美亚洲经典中文字幕| 无遮挡1000部拍拍拍免费| 日本免费一区二区三区| 精品无码久久久久久久久粉色 | 在线免费观看国产视频不卡| 人妻系列无码专区久久五月天 | 国产av一区二区三区狼人香蕉| 强d乱码中文字幕熟女免费| 亚洲av福利无码无一区二区 | 精品一区二区av在线| 中文字幕亚洲精品久久| 色综合视频一区中文字幕| 日韩h网站| 亚洲中文字幕在线精品2021| 亚洲成人一区二区av| 日本天堂免费观看| 国产精品视频一区二区三区四| 亚洲中文字幕不卡无码| 日本精品久久不卡一区二区| 成年女人色毛片| 国产91福利在线精品剧情尤物| 亚洲全国最大的人成网站| 激情人妻另类人妻伦| av无码免费永久在线观看| 亚洲欧美变态另类综合| 午夜亚洲精品视频在线| 亚洲综合在线一区二区三区| 国产午夜精品理论片| 蜜桃码一区二区三区在线观看| av无码小缝喷白浆在线观看| 亚洲暴爽av人人爽日日碰| 果冻蜜桃传媒在线观看|