亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的手寫漢字識(shí)別方法

        2021-09-16 08:00:36肖婷婷
        科技創(chuàng)新與應(yīng)用 2021年25期
        關(guān)鍵詞:手寫導(dǎo)數(shù)梯度

        肖婷婷

        (華東理工大學(xué),上海201424)

        隨著中國(guó)工業(yè)4.0的到來,手寫漢字識(shí)別HCCR應(yīng)用變得廣泛。1996年Nag和Casey使用的模板匹配法識(shí)別出1000個(gè)印刷體,引起了HCCR研究的熱潮。高學(xué)等人在風(fēng)險(xiǎn)最小化準(zhǔn)則上建立基于SVM的模型[1],并分析了識(shí)別手寫漢字遇到的特殊問題。手寫漢字具有隨意的特點(diǎn),和印刷體的規(guī)范差距甚遠(yuǎn),采集合適的字體較困難,且字形復(fù)雜,有較多形似字。因此,傳統(tǒng)HCCR流程中的預(yù)處理、特征提取效果不好,而CNN能夠自動(dòng)提取特征,適合處理非線性關(guān)系,對(duì)比而言是個(gè)好選擇[2]。有其他研究者改進(jìn)了CNN,如Graham等,針對(duì)較少的數(shù)據(jù)集提出了解決方案,進(jìn)行了知識(shí)路徑積分特征分析,充分利用了聯(lián)機(jī)時(shí)筆畫的時(shí)序信息,提高了準(zhǔn)確率[3]。除CNN外,有其他深度學(xué)習(xí)的方法也獲得了好的效果,DBN更適合處理一維的數(shù)據(jù),需要預(yù)訓(xùn)練,這兩方面均弱于CNN,在HCCR方面,CNN效果更好[4],因而有人提出了CNN和DBN結(jié)合的方法[5]。手寫單字的技術(shù)已較成熟,但手寫文本行依舊是難點(diǎn),LSTM和RNN適合提取序列信息,解決難題可能性大。

        1 數(shù)據(jù)集特點(diǎn)及預(yù)處理

        本文采用的是CASIA-HWDB數(shù)據(jù)集,其中脫機(jī)部分比如版本1.0和1.1總共有至少7599個(gè)漢字,而minist只要處理10個(gè)阿拉伯?dāng)?shù)字,可見漢字識(shí)別的難度之大。

        先將數(shù)據(jù)轉(zhuǎn)成tfrecord格式,同時(shí)記錄標(biāo)簽,圖像,圖像的長(zhǎng)與寬。并且圖片尺寸并不該作為變量輸入到模型,故將所有圖像都轉(zhuǎn)為64×64像素。且圖片的每一個(gè)像素點(diǎn)的范圍是0~255,統(tǒng)一將其轉(zhuǎn)為以0為中心,1為半徑的分布,轉(zhuǎn)為zero-centered數(shù)據(jù),加快收斂,若輸入全為正或負(fù),導(dǎo)致梯度只往一個(gè)方向更新,階梯狀梯度會(huì)減慢收斂,會(huì)大大影響深度神經(jīng)網(wǎng)絡(luò)。

        2 基于Keras的手寫數(shù)字識(shí)別模型

        Keras由Python編寫,是tensorflow結(jié)合CNTK后端等的高層API,降低了tensorflow編寫網(wǎng)絡(luò)的難度,Keras會(huì)自行根據(jù)是否有支持的顯卡切換CPU和GPU,有模塊化、簡(jiǎn)單化、擴(kuò)展性好的顯著優(yōu)點(diǎn)。支持神經(jīng)網(wǎng)絡(luò)的常見方法,比如數(shù)據(jù)的預(yù)處理,神經(jīng)網(wǎng)絡(luò)訓(xùn)練,評(píng)估和預(yù)測(cè),支持Sequential模型和函數(shù)化模型。本文運(yùn)用了層的堆疊Sequential模型,通過層的組合來搭建模型。Keras最大優(yōu)點(diǎn)和開發(fā)重點(diǎn),就是能快速搭建神經(jīng)網(wǎng)絡(luò)。

        2.1 多層神經(jīng)網(wǎng)絡(luò)模型

        多層神經(jīng)網(wǎng)絡(luò)模型(MLP)是包括輸入層、隱藏層、輸出層的前饋神經(jīng)網(wǎng)絡(luò)。MLP可看作一個(gè)有向圖,每?jī)蓚€(gè)神經(jīng)元之間連接的權(quán)重是邊權(quán),輸入層接受特征的輸入,整體是從輸入層往輸出層方向,直到傳輸?shù)捷敵鰧?。誤差反向傳播BP算法用權(quán)重梯度更新權(quán)重,而權(quán)重梯度根據(jù)輸出層預(yù)測(cè)值和實(shí)際標(biāo)簽的偏差,利用鏈?zhǔn)角髮?dǎo)法則求偏差對(duì)權(quán)重的導(dǎo)數(shù),中間變量為隱藏層的各輸出變量。

        以一個(gè)神經(jīng)元為例,若x為輸入列向量,w為權(quán)重向量,b為偏置,y為輸出,則:

        其中M為x的行數(shù),g(x)代表激活函數(shù),有利于處理非線性的問題。激活函數(shù)的種類如表1。sigmoid導(dǎo)數(shù)大于0,最大為0.25,至少每一層會(huì)被縮小1/4,特別是當(dāng)sigmoid輸入過大或過小,導(dǎo)數(shù)趨于0,梯度減小快。導(dǎo)數(shù)涉及到冪的運(yùn)算,深層網(wǎng)絡(luò)耗時(shí)增加。輸出數(shù)據(jù)非0中心,會(huì)導(dǎo)致后續(xù)梯度下降時(shí)呈現(xiàn)階梯狀。tanh的函數(shù)圖像是中心對(duì)稱的,但仍存在sigmoid另兩個(gè)問題。relu正的輸入數(shù)據(jù)的梯度為1,緩解了梯度消失的問題,不涉及冪運(yùn)算,負(fù)數(shù)的梯度為0,降低了過擬合的可能性,但造成了一定可能性的梯度消失,因而提出了leaky relu等激活函數(shù)。

        表1 不同的激活函數(shù)

        2.2 CNN網(wǎng)絡(luò)

        本文構(gòu)建網(wǎng)絡(luò)主要思想是局部感受野,權(quán)重共享,池化三部分。局部感受野是使用一個(gè)卷積核和原圖像部分(尺寸和卷積核的大小一致)進(jìn)行卷積,此處涉及的局部區(qū)域,一個(gè)卷積核一次卷積只提取了部分區(qū)域的特征。而同一個(gè)卷積核以一定的步長(zhǎng)值沿著x軸和y軸滑動(dòng),遍歷了整個(gè)圖片,代表圖片的所有小區(qū)域共享一個(gè)卷積核,卷積核中的元素就是權(quán)重和偏移量。手寫字識(shí)別只提取一種特征是不夠的,提取不同特征就需要不同的卷積核,卷積核的數(shù)值不同,代表對(duì)某個(gè)區(qū)域的敏感度不同。而權(quán)重共享最大的優(yōu)點(diǎn)就是大大減少了模型參數(shù),減小了計(jì)算量,對(duì)深層網(wǎng)絡(luò)更有利。池化是某個(gè)區(qū)域取最大值或者均等值將區(qū)域的信息轉(zhuǎn)為一個(gè)數(shù)值,對(duì)卷積層的輸出進(jìn)行了簡(jiǎn)化。池化保留了區(qū)域相對(duì)整體的信息,但喪失了更精確的位置數(shù)據(jù)。

        3 超參數(shù)的選擇

        使用tensorflow2.1框架,cuda10.1版本并行處理,cudnn7,英偉達(dá)GTX1050顯卡運(yùn)算。

        batch_size設(shè)為512,訓(xùn)練81代,得出損失大小和訓(xùn)練集的準(zhǔn)確率。使用softmax激活,將輸出層的范圍從(-∞,+∞)轉(zhuǎn)為(0,1),是每個(gè)樣本屬于各類的概率。將某個(gè)樣本的特征量作為輸入,得到T個(gè)類別分別對(duì)應(yīng)的概率,概率最大的類別作為預(yù)測(cè)標(biāo)簽。實(shí)驗(yàn)使用了一個(gè)batch的數(shù)據(jù)平均損失來反向傳播,輸出了準(zhǔn)確率。類別使用onehot編碼,只有下標(biāo)為真實(shí)標(biāo)簽的值1,其他均為0,交叉熵作為損失指標(biāo)。

        錯(cuò)誤預(yù)測(cè)比正確損失大,較大錯(cuò)誤程度的預(yù)測(cè)比小的損失更大。網(wǎng)絡(luò)總體是為了訓(xùn)練出權(quán)重矩陣和偏置,使盡量多的樣本概率最大的類別是真實(shí)類別。模型的優(yōu)化器選取了RMSProp,緩解了山谷震蕩問題。山谷點(diǎn)的鄰域內(nèi),即使橫軸仍在往一個(gè)方向更新,但是縱軸卻是來回震蕩,甚至可能無法收斂,需要降低縱軸更新速度。w為權(quán)重,α為學(xué)習(xí)率,β為平滑系數(shù),ε為極小值,公式如下:

        β起平滑作用,震蕩大的方向,s值大,步長(zhǎng)減小,震蕩小的方向則增加了步長(zhǎng)。β通常用0.999,ε典型值為10-8。

        4 預(yù)測(cè)結(jié)果和分析

        分析圖1得到,第一層卷積使用了relu激活函數(shù)的CNN模型起初損失函數(shù)減少快,epochs越大,損失函數(shù)降低得越平緩,最終收斂,訓(xùn)練集的準(zhǔn)確率達(dá)到98.42%。激活函數(shù)換為sigmoid,損失函數(shù)呈現(xiàn)略微上升的趨勢(shì),迭代了81代后未收斂,準(zhǔn)確率始終小于1%,出現(xiàn)了gradient vanishing現(xiàn)象。tanh激活函數(shù)下,收斂但在經(jīng)過相同代數(shù),比relu的損失大。一方面,sigmoid導(dǎo)數(shù)最大值為0.25,而tanh導(dǎo)數(shù)最大值為1,故使用sigmoid激活函數(shù)更易梯度消失。另一方面,relu正數(shù)輸入的導(dǎo)數(shù)為1,比tanh多數(shù)情況大,故更快收斂。實(shí)驗(yàn)得到損失誤差和準(zhǔn)確率如表2,sigmoid損失最大,relu最小。

        圖1 使用不同激活函數(shù)的CNN網(wǎng)絡(luò)訓(xùn)練過程

        表2 激活函數(shù)效果對(duì)比

        5 結(jié)束語

        本文將HWDB1.1數(shù)據(jù)集預(yù)處理后,構(gòu)建了一個(gè)簡(jiǎn)單而有效的卷積神經(jīng)網(wǎng)絡(luò),使用softmax loss計(jì)算損失,模型優(yōu)化使用RMSProp,根據(jù)第一層卷積層的不同激活函數(shù),觀察訓(xùn)練集的準(zhǔn)確率。實(shí)驗(yàn)表明,relu激活函數(shù)在訓(xùn)練同等epochs下,分類效果最好。sigmoid易出現(xiàn)梯度消失的問題,可使用batch normalization,改用leaky relu等激活函數(shù)。

        猜你喜歡
        手寫導(dǎo)數(shù)梯度
        手寫比敲鍵盤更有助于學(xué)習(xí)和記憶
        我手寫我心
        一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
        解導(dǎo)數(shù)題的幾種構(gòu)造妙招
        抓住身邊事吾手寫吾心
        一種自適應(yīng)Dai-Liao共軛梯度法
        一類扭積形式的梯度近Ricci孤立子
        基于集成學(xué)習(xí)的MINIST手寫數(shù)字識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:08
        關(guān)于導(dǎo)數(shù)解法
        導(dǎo)數(shù)在圓錐曲線中的應(yīng)用
        少妇久久高潮不断免费视频| 国产69精品久久久久777| 国产又色又爽又刺激在线播放| 亚洲精品成人网站在线观看| 精品人妻少妇一区二区中文字幕| 大量老肥熟女老女人自拍| 五月婷婷开心五月激情| 中文字幕亚洲无线码在线一区| 精品少妇一区二区三区免费观 | 亚洲国产日韩a在线乱码| 国产又a又黄又潮娇喘视频| 亚洲综合色成在线播放| 精品黄色av一区二区三区| 亚洲av成人永久网站一区| 色欲色香天天天综合网www | 蜜桃一区二区三区| 久久人人爽人人爽人人片亞洲| 国产亚洲精品hd网站| 日韩精品人妻一区二区三区蜜桃臀| 亚洲综合av大全色婷婷| 国产成人久久精品一区二区三区| 抽插丰满内射高潮视频| 日本一区二区三区专区| 一本色道久久亚洲精品| 中文字幕亚洲无线码一区女同| 国产无遮挡无码视频免费软件| 国产又黄又爽又无遮挡的视频| av手机天堂在线观看| 99久久精品在线视频| 少妇av射精精品蜜桃专区| 亚洲AV秘 无码二区在线| 东京道一本热码加勒比小泽| 国产视频一区二区在线免费观看| 大地资源中文第3页| 亚洲av鲁丝一区二区三区| 亚洲传媒av一区二区三区| 亚洲精品视频中文字幕| 国精产品一区一区三区有限公司杨| 一级毛片不卡在线播放免费| 黑人免费一区二区三区| 青青河边草免费在线看的视频 |