亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的文字識(shí)別優(yōu)化方法研究

        2020-01-07 07:21:18王雪冰姜道義張海洋
        關(guān)鍵詞:池化灰度運(yùn)算

        王雪冰,姜道義,張海洋

        (中國石油大學(xué)勝利學(xué)院 基礎(chǔ)科學(xué)學(xué)院,山東 東營 257061)

        從1958年感知器提出后,人們對(duì)于神經(jīng)網(wǎng)絡(luò)的探索進(jìn)入一個(gè)新的時(shí)代。但是感知器只能進(jìn)行線性分類,不能應(yīng)用于復(fù)雜的模式識(shí)別領(lǐng)域。1985年BP(back propagation)神經(jīng)網(wǎng)絡(luò)的提出,系統(tǒng)解決了多層神經(jīng)網(wǎng)絡(luò)隱含層連接權(quán)中的學(xué)習(xí)問題。但是在文字識(shí)別方面都沒有取得突破性的進(jìn)展,直到第一個(gè)二維卷積神經(jīng)網(wǎng)絡(luò)SIANN的出現(xiàn)才真正打開神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的大門。文字識(shí)別的基本原理為將輸入文字與經(jīng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的模型進(jìn)行模式匹配,計(jì)算類似度,將具有最大類似度的文字作為識(shí)別結(jié)果[1]。計(jì)算機(jī)視覺在手寫數(shù)字識(shí)別中第一個(gè)取得巨大成就的是Yann LC等(1998)提出的LeNet-1卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng),包含了兩個(gè)卷基層、兩個(gè)全連接層、六萬個(gè)學(xué)習(xí)參數(shù)。

        1 人工神經(jīng)網(wǎng)絡(luò)

        人工神經(jīng)網(wǎng)絡(luò)的發(fā)明起源于生物神經(jīng)網(wǎng)絡(luò),是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及功能的數(shù)學(xué)模型和計(jì)算模型,可以根據(jù)外界的輸入信息改變內(nèi)部神經(jīng)節(jié)點(diǎn)的參數(shù),具備學(xué)習(xí)功能。

        人工神經(jīng)網(wǎng)絡(luò)中由大量神經(jīng)元相連接,能夠模仿人腦的信息處理功能對(duì)高復(fù)雜性信息進(jìn)行處理,同時(shí)可以抽象出同類信息的模型,對(duì)新接收的信息進(jìn)行分類。

        2 卷積神經(jīng)網(wǎng)絡(luò)

        第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)是由Alexander W等(1987)提出的時(shí)間延遲網(wǎng)絡(luò)(time delay meural network, TDNN),主要應(yīng)用于語音識(shí)別。Yann LC等(1998)提出的LeNet-5,實(shí)現(xiàn)手寫字體識(shí)別的功能,并且定義了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。CNN結(jié)構(gòu)包括采樣層與卷積層,兩者交替而成[2]。

        2.1 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

        卷積神經(jīng)網(wǎng)絡(luò)屬于前饋型神經(jīng)網(wǎng)絡(luò),具有平移旋轉(zhuǎn)不變性,所以非常適合圖片識(shí)別,能夠?qū)⒉煌较虻奈淖謭D像準(zhǔn)確地識(shí)別出來。使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別的處理過程包括輸入、預(yù)處理、識(shí)別和后處理幾個(gè)過程[3]。

        卷積神經(jīng)網(wǎng)絡(luò)主要包含輸入層、卷積層層、Inception模塊、全連接層、輸出層。輸入層可以輸入多維數(shù)據(jù),卷積層中包含卷積層和池化層,是進(jìn)行計(jì)算的主要部分,全連接層競(jìng)爭(zhēng)對(duì)輸出的響應(yīng)機(jī)會(huì),輸出層由邏輯函數(shù)輸出分類標(biāo)簽。

        2.2 輸入層

        將需要識(shí)別的單字圖像輸入神經(jīng)網(wǎng)絡(luò),大小為64×64像素的灰度文字圖片,文字顏色為白色,文字背景為黑色。

        64×64對(duì)應(yīng)著神經(jīng)網(wǎng)絡(luò)初始計(jì)算時(shí)圖像矩陣的大小;使用灰度圖是因?yàn)槲淖值谋硎静恍枰^多的參數(shù),過多的顏色便會(huì)增加過多的影響因素,而灰度圖只有一個(gè)0~255的色階,大大降低了顏色給文字識(shí)別帶來的困難;本試驗(yàn)只做文字的識(shí)別,所以在前期處理圖像時(shí)只將圖片中的文字凸顯出來,而其他的因素歸為噪聲全部被過濾。

        2.3 隱藏層

        隱藏層由3個(gè)卷積層和3個(gè)池化層交替組成,負(fù)責(zé)對(duì)圖片進(jìn)行網(wǎng)絡(luò)計(jì)算分析。

        第一層卷積層使用64個(gè)5×5的卷積核對(duì)輸入的64×64像素的圖像進(jìn)行卷積運(yùn)算,設(shè)輸入的圖片矩陣為A,并使用ai,j(i=0,1,…,63;j=0,1,…,63)表示A中的對(duì)應(yīng)元素;設(shè)由第一層卷積層輸出的矩陣為B,并使用bi,j(i=0,1,…,59;j=0,1,…,59)表示經(jīng)歷本次卷積輸出B的元素,由卷積的運(yùn)算公式將A經(jīng)運(yùn)算轉(zhuǎn)換為B,輸入層和輸出層的各參數(shù)如表1所示,

        (1)

        表1 第一層卷積尺寸計(jì)算

        第一層池化層使用64個(gè)2×2的池化器對(duì)第一層卷積層輸出的60×60像素的圖像進(jìn)行最大池化運(yùn)算,輸入的是由第一層卷積后的矩陣B,設(shè)由第一層池化層輸出的矩陣為C,并使用Ci,j(i=0,1,…,29;j=0,1,…,29)表示經(jīng)歷本次卷積輸出的元素。使用最大池化運(yùn)算公式將計(jì)算第一次池化結(jié)果,

        ci,j=max(bi+m,j+n),m=0,1;n=0,1.

        (2)

        池化運(yùn)算各參數(shù)如表2所示。第二層卷積層使用128個(gè)5×5的卷積核對(duì)第一層池化層輸出的30×30像素的圖像進(jìn)行卷積運(yùn)算,第二層池化層使用128個(gè)2×2的池化器對(duì)第二層卷積層輸出的26×26像素的圖像進(jìn)行最大池化運(yùn)算,第三層卷積層使用256個(gè)4×4的卷積核對(duì)輸入的13×13像素的圖像進(jìn)行卷積運(yùn)算,第三層池化層使用256個(gè)2×2的池化器對(duì)第三層卷積層輸出的10×10像素的圖像進(jìn)行最大池化運(yùn)算。

        表2 第二層池化尺寸計(jì)算

        2.4 全連接層

        接收由隱藏層輸出的參數(shù),并且通過ReLU函數(shù)計(jì)算神經(jīng)元的興奮度。

        激活函數(shù)公式為

        (3)

        激活函數(shù)圖像[4]如圖1所示。

        圖1 激活函數(shù)

        由圖1可以看出ReLU函數(shù)是分段函數(shù),把小于零的部分映射成為零,大于零的部分保持不變,這樣為單向抑制函數(shù)。

        2.5 輸出層

        輸出層一共有3 755個(gè)結(jié)點(diǎn),分別對(duì)應(yīng)3 755個(gè)漢字,通過分析全連接層輸入的興奮度,輸出識(shí)別出的相應(yīng)漢字。

        3 文字識(shí)別

        3.1 數(shù)據(jù)集

        3.1.1 數(shù)據(jù)集的分類

        數(shù)據(jù)集包含3 755個(gè)常用漢字,每個(gè)漢字有60張不同方向并且漢字大小不一的灰度圖,每張圖片大小為64×64像素。數(shù)據(jù)集又分為訓(xùn)練集和測(cè)試集,訓(xùn)練集由48張圖片組成,測(cè)試集由12張圖片組成。每張圖片以.jpg形式存儲(chǔ),圖片像素點(diǎn)為漢字筆畫則其像素為0像素值,背景圖部分為255像素值。

        3.1.2 數(shù)據(jù)集的生成

        數(shù)據(jù)集由自定義生成模塊生成,在生成模塊中可自動(dòng)讀取不同字體的TTF文件來確定生成的字體類型,還可自定義生成數(shù)據(jù)集圖片的寬度、高度。并且默認(rèn)每種字體下,每個(gè)字的數(shù)據(jù)圖片共生成不同的30張,這個(gè)生成數(shù)量限制為每個(gè)字最多45張。

        每個(gè)漢字?jǐn)?shù)據(jù)集圖片的數(shù)量可通過增加TTF字體文件個(gè)數(shù)來解決,本試驗(yàn)?zāi)J(rèn)使用方正宋體和黑體來建立數(shù)據(jù)集。

        3.2 識(shí)別圖片去噪

        圖像去噪是文字識(shí)別必不可少的環(huán)節(jié),在此環(huán)節(jié)中需要將待識(shí)別圖像(圖2)轉(zhuǎn)化為計(jì)算機(jī)易于處理形式,并消除與識(shí)別內(nèi)容無關(guān)的噪點(diǎn)(水印)。

        文字識(shí)別的圖像不需要保留RGB顏色特征,灰度圖像即可以完整顯示文字特征,又能降低計(jì)算難度。在對(duì)圖片進(jìn)行灰化處理的過程中,還需對(duì)顏色進(jìn)行反轉(zhuǎn),目的是使文字的顏色為淺色,背景為深色(圖3)。

        圖2 待識(shí)別的文字圖像

        圖3 二值化后的文字圖像

        將圖片轉(zhuǎn)化為灰度圖以后,需要對(duì)圖像進(jìn)行去燥處理。因?yàn)榻厝〉膱D片是文檔,所以不存在光線對(duì)文字色澤的影響,而圖片中以文字的淺色為主。灰化完成后,需要對(duì)圖片進(jìn)行二值化處理,二值化的目的就是去除灰度處理后圖像殘存的模糊背景[5]。可以先對(duì)小于125以下的色階進(jìn)行計(jì)數(shù),然后取數(shù)量對(duì)多的色階為峰值,并向右取大于峰值百分之十的數(shù)值k為整個(gè)圖片進(jìn)行分化的界限。以灰度像素值k為分界線,大于k的像素值轉(zhuǎn)化為255,小于k像素值轉(zhuǎn)化為0,此處理目的是增強(qiáng)圖像的對(duì)比度并且去除圖像噪聲對(duì)識(shí)別的影響(圖4)。

        圖4 去燥后的文字圖像

        3.3 文字切割及歸一化處理

        (4)

        M′=MG(gi∈G,gi=1).

        (5)

        借用光伏識(shí)別理論將圖片進(jìn)行二值化,因?yàn)槎祷蟮膱D像每個(gè)像素只包含一個(gè)灰度值,可以將圖片按照公式(4)轉(zhuǎn)化為二維矩陣M。

        對(duì)矩陣依照求和公式(5)進(jìn)行按行求和,因?yàn)楹袧h字筆畫的每一行求和后的數(shù)值均不為零,只需確定映射后不為零的行便可以將圖片中每一行的漢字提取出來(圖5)。

        同理每一行中也可以按照以上方法提取出單個(gè)文字(圖6)。但是有些漢字是左右結(jié)構(gòu),可能將一個(gè)字分成左右兩個(gè)漢字,需進(jìn)一步判斷文字是否被分割成兩個(gè)。

        如圖7所示,已經(jīng)識(shí)別出需要分割的文字,但是可看出“別”字、“門”字被分割為兩個(gè)漢字,識(shí)別完后需要對(duì)分割出的字符進(jìn)一步確認(rèn)。取識(shí)別后行高的中位數(shù)為ptModeY,取識(shí)別后字寬的中位數(shù)為ptModeX。如果分割出圖片的寬度值比ptModeX大于20%,則將分割的結(jié)果舍棄;如果分割出圖片的寬度值不小于ptModeX的75%,則判斷此次分割正確,存儲(chǔ)分割后文字;如果分割出的圖片以及它之后圖片的寬度值的和小于ptModeX,則判斷這兩個(gè)分割圖片為一個(gè)字,并進(jìn)行儲(chǔ)存。

        圖5 提取行的文字圖像

        圖6 識(shí)別出的文字

        切割完的文字大小與輸入層需要的大小不一,需要經(jīng)過歸一化處理。歸一化處理分為位置歸一化處理和大小歸一化,位置歸一化處理需要將文字的位置定位于圖片的中間,大小歸一化處理需要將圖像大小存儲(chǔ)為64×64像素[6]。

        3.4 特征值提取和識(shí)別結(jié)果

        特征提取是文字識(shí)別中最根本的一步,利用建立的卷積神經(jīng)網(wǎng)絡(luò)對(duì)分割后的單字圖片做特征值提取,對(duì)已有的模型進(jìn)行比對(duì),識(shí)別出文字的結(jié)果(圖7)。

        圖7 文字識(shí)別結(jié)果

        4 結(jié) 論

        (1)基于卷積神經(jīng)網(wǎng)絡(luò)的漢字識(shí)別在常規(guī)理論條件下,準(zhǔn)確率較高。但是本試驗(yàn)針對(duì)數(shù)據(jù)集中每種文字圖片取樣數(shù)據(jù)偏少,圖片質(zhì)量偏差的特殊情況,通過增加不同字體以增加數(shù)據(jù)集的方法研究,進(jìn)一步優(yōu)化識(shí)別的準(zhǔn)確率和系統(tǒng)能力。

        (2)文字的分割也是影響文字識(shí)別的重要因素,使用映射函數(shù)可以將排序整齊的文字切割,但對(duì)于多種復(fù)雜的情況卻束手無策。將識(shí)別-分割進(jìn)行結(jié)合,針對(duì)識(shí)別相識(shí)度低,通過再將此部分文字進(jìn)行組合識(shí)別模型構(gòu)建研究,從而優(yōu)化文字識(shí)別的等級(jí)。

        猜你喜歡
        池化灰度運(yùn)算
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計(jì)
        采用改進(jìn)導(dǎo)重法的拓?fù)浣Y(jié)構(gòu)灰度單元過濾技術(shù)
        重視運(yùn)算與推理,解決數(shù)列求和題
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        基于灰度拉伸的圖像水位識(shí)別方法研究
        有趣的運(yùn)算
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
        基于最大加權(quán)投影求解的彩色圖像灰度化對(duì)比度保留算法
        “整式的乘法與因式分解”知識(shí)歸納
        日产精品一区二区免费| 久久人人玩人妻潮喷内射人人| 亚洲视频在线看| 国产香蕉尹人在线视频你懂的| 亚洲国产精品久久久婷婷| 国产又黄又硬又粗| 国产成a人亚洲精v品无码性色| 国产欧美曰韩一区二区三区| 亚洲天堂线上免费av| 无码人妻丰满熟妇区免费| 国产乱色精品成人免费视频| 91短视频在线观看免费| 在线亚洲精品免费视频| 国产日产欧产精品精品蜜芽| 国产农村乱子伦精品视频| 自拍亚洲一区欧美另类| 男女后入式在线观看视频| 伊人久久大香线蕉午夜av| 精品久久久噜噜噜久久久| 成人精品国产亚洲欧洲| 白白色免费视频一区二区在线| 成品人视频ww入口| 亚洲成a人片在线观看天堂无码 | 精品午夜一区二区三区久久| 不卡av一区二区在线| 凹凸国产熟女精品视频app| 无遮高潮国产免费观看| 放荡人妻一区二区三区| 亚洲精品一区三区三区在线 | 男女肉粗暴进来120秒动态图| 狠狠色噜噜狠狠狠狠97俺也去| 日韩国产精品一区二区三区| 蜜桃一区二区三区| 亚洲男人精品| 日韩精品一区二区三区视频 | 男女打扑克视频在线看| 一二区成人影院电影网| 国产天堂在线观看| 国产麻豆放荡av激情演绎| 丰满人妻久久中文字幕| 欧美人与动牲交a欧美精品|