亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GoogLeNet卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)業(yè)書籍文字識別*

        2021-03-22 02:21:42陳飛昕陳振國張超偉李浩欣丁煒妮
        智慧農(nóng)業(yè)導(dǎo)刊 2021年1期

        陳飛昕,陳振國,張超偉,李浩欣,丁煒妮

        (廣東技術(shù)師范大學(xué) 機(jī)電學(xué)院,廣東 廣州 510635)

        信息化是現(xiàn)代農(nóng)業(yè)發(fā)展的一個重要方向,如何高效率地將傳統(tǒng)紙質(zhì)農(nóng)業(yè)書籍轉(zhuǎn)換為電子信息,成為農(nóng)業(yè)信息化中的重要課題之一。當(dāng)今世界計算機(jī)技術(shù)、人工智能技術(shù)[1]得到快速且蓬勃的發(fā)展,人們處理文字信息的頻率也迅速提高,文字識別技術(shù)已經(jīng)成為信息采集的重要方式之一。

        漢字識別是一種使用相關(guān)算法及軟件來提取漢字的特征,實現(xiàn)圖像與漢字的關(guān)聯(lián)[2],并與機(jī)器內(nèi)預(yù)存特征進(jìn)行匹配識別,將漢字圖像自動轉(zhuǎn)換成某種代碼的一種技術(shù)。隨著深度學(xué)習(xí)的崛起[3],數(shù)據(jù)成為推動深度學(xué)習(xí)技術(shù)發(fā)展的巨大助力,基于卷積神經(jīng)網(wǎng)絡(luò)的方法是現(xiàn)在主要研究的方法。柴偉佳,王連明[4]提出了以7層神經(jīng)網(wǎng)絡(luò)(其中3層為卷積層)對漢字字符進(jìn)行識別。潘煒深等[5]則在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加了基于多尺度滑動窗的方法提取文字的梯度直方圖特征對漢字字符進(jìn)行識別。王蕾等[6]提出一個用于特征提取的分塊獲勝序列模型,采用按行分塊原則進(jìn)行分塊,多個獲勝神經(jīng)元有序組合的方式表征特征,模型的輸出層為二維方形結(jié)構(gòu),增加了輸出層神經(jīng)元可以表示的類別數(shù)。代賀等[7]改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)刪減了部分全連接等并推導(dǎo)了前向和反向傳插算法。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,網(wǎng)絡(luò)結(jié)構(gòu)得到了有效簡化,響應(yīng)速度快,識別率也得到了提高,具有良好的魯棒性和泛化性。但是由于書寫風(fēng)格的不同,會導(dǎo)致識別錯誤的情況。武子毅等[8]提出了基于集成注意力層的模型,將注意力放在圖像的某個部位,對目標(biāo)區(qū)域賦予更高的權(quán)重,注意力圖與圖像進(jìn)行濾波處理,將AlexNet網(wǎng)絡(luò)與注意力圖進(jìn)行了融合,增加了漢字圖像重點區(qū)域的權(quán)重,有效彌補(bǔ)了神經(jīng)網(wǎng)絡(luò)丟失微小特征的不足,但是運算復(fù)雜度較高。

        本文基于Matlab開發(fā)環(huán)境針對農(nóng)業(yè)書籍研究了適用于復(fù)雜版面的文字識別技術(shù),實現(xiàn)了圖像信息的獲取,進(jìn)行圖像預(yù)處理,包括版面分析與提取預(yù)處理以及文字與處理,將處理后的文字圖像進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)識別,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的樣本,因此本文在卷積訓(xùn)練之前進(jìn)行了樣本數(shù)據(jù)庫擴(kuò)增。卷積當(dāng)中采用了能夠避免Dead ReLU問題的Leaky ReLU激活函數(shù)進(jìn)行卷積運算,大大減少了計算時間。本文搭建了GoogLeNet網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu)并進(jìn)行了實驗測試,結(jié)果表明:在該訓(xùn)練網(wǎng)絡(luò)下,文字識別具有較高準(zhǔn)確率。

        1 復(fù)雜版面的分析與處理

        1.1 圖像預(yù)處理

        輸入圖像第一步需要進(jìn)行圖像預(yù)處理,先對圖像進(jìn)行灰度化、二值化處理,經(jīng)過灰度化、圖像閾值二值化處理后,進(jìn)行拉普拉斯算子邊緣化處理,最后通過圖像膨脹、腐蝕運算、圖像頂帽運算完成圖像的預(yù)處理。其中,運用拉普拉斯算子進(jìn)行的邊緣處理能更好地凸顯字體的細(xì)節(jié),為提高后續(xù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練奠定了基礎(chǔ)。拉普拉斯算子是一種較為簡單的圖像處理算子,旋轉(zhuǎn)不變性是它最突出的特點。對于一個二維圖像函數(shù),拉普拉斯變換為各向同性的二階導(dǎo)數(shù),定義為:

        圖1表示了灰度值存在的“跳躍”邊緣,通過一階微分求導(dǎo),可以更加清晰地表示邊緣“跳躍”的存在(峰值),如圖2所示;而在邊緣部分使用二階求導(dǎo)會出現(xiàn)如圖3所示情況,即在一階導(dǎo)數(shù)的極值位置,二階導(dǎo)數(shù)為0,但正因此本文利用該特點來作為檢測圖像邊緣的方法。在研究過程中發(fā)現(xiàn)二階導(dǎo)數(shù)的0值不僅僅出現(xiàn)在邊緣,它們也可能出現(xiàn)在無意義的位置,但運用均值濾波可以過濾消除掉這些點。

        圖1 灰度值“跳躍”示意圖

        圖2 求導(dǎo)后邊緣的“峰值”示意圖

        圖3 二階導(dǎo)數(shù)位置為0示意圖

        為了更適用于數(shù)字圖像表達(dá),將該方程表示為離散形式:

        在經(jīng)過一系列的文字圖像預(yù)處理之后,得到理想效果(如圖4所示),為后續(xù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練奠定基礎(chǔ)。

        圖4 文字圖像預(yù)處理前后對比

        1.2 版面分析與提取

        版面分析的常用方法有自頂向下[2]、自底向上、非層次性或混合型等。自底向上的方法比較擅長獲取文檔圖像的完整信息,對處理復(fù)雜版面的文檔圖像較為擅長,因此本文采用了自底向上的版面分析方法。自底向上版面分析方法首要的目的是獲得最底層的版面信息,通過搜索文檔圖像的連通域來實現(xiàn),獲得底層信息后再通過某些約束條件將具有相同屬性的連通域合并起來,可以獲得整個文檔圖像的版面分析結(jié)果。整個版面分析方法最終能成功提取完整的版面信息,為后續(xù)的字符歸類切分和字符識別奠定了基礎(chǔ)。

        基于Matlab復(fù)雜版面識別軟件模塊首先把預(yù)處理后的文檔圖像進(jìn)行連通域搜索和初步的合并;提取較小和較大的特殊連通區(qū)域[9],其中,較小的連通區(qū)域作為噪聲點去除,較大的連通區(qū)域看作表格或圖像,再做進(jìn)一步處理;剩余的連通區(qū)域為文本連通域,對其進(jìn)行行、列合并使其逐步合并為文本區(qū)域,最后將識別結(jié)果再發(fā)送至版面呈現(xiàn)系統(tǒng),便能實現(xiàn)文章的區(qū)分以及圖像歸類到相應(yīng)文章(如圖5所示)。

        圖5 版面分析原理圖

        2 基于卷積神經(jīng)網(wǎng)絡(luò)的文字圖像識別

        2.1 卷積神經(jīng)網(wǎng)絡(luò)的原理

        圖像識別就是對進(jìn)行預(yù)處理后的圖像運用算法進(jìn)行識別的任務(wù)?;诮Y(jié)構(gòu)模式識別和模板匹配識別是傳統(tǒng)的文字識別算法中比較流行的兩種算法。傳統(tǒng)識別算法對于字符的識別存在一些缺陷,需要考慮字符的紋理特征等因素。因此本項目采用卷積神經(jīng)網(wǎng)絡(luò)的識別算法進(jìn)行識別。本文構(gòu)建了一個包括圖像輸入層、卷積層、激活函數(shù)層、最大池化層、全連接層、分類層等的卷積神經(jīng)網(wǎng)絡(luò),用大量樣本進(jìn)行訓(xùn)練后,將該網(wǎng)絡(luò)用來進(jìn)行圖像識別(如圖6所示)。

        圖6 卷積神經(jīng)網(wǎng)絡(luò)各個層次的連接

        除此之外,為了使算法識別速率更快,有效提高對于特殊字符以及復(fù)雜文字的識別準(zhǔn)確率,本文還針對該識別算法,進(jìn)行了三種改進(jìn)優(yōu)化方式。

        (1)樣本擴(kuò)增,本文采用了波紋扭曲結(jié)合平移[4]、旋轉(zhuǎn)、尺度縮放的數(shù)據(jù)擴(kuò)增方法(如圖7所示)。

        圖7 樣本擴(kuò)增

        (2)加入BN層,從而提升訓(xùn)練速度和精度。

        (3)采用Adam和傳統(tǒng)SGD方法相結(jié)合的訓(xùn)練方法[4],本文將采用Adam方法自適應(yīng)調(diào)整學(xué)習(xí)率,避免手工調(diào)參,使網(wǎng)絡(luò)快速收斂,使用SGD方法以極小的學(xué)習(xí)率在訓(xùn)練好的模型上進(jìn)一步精調(diào),最終達(dá)到最優(yōu)的分類效果。

        2.2 Leaky ReLU激活函數(shù)

        激活函數(shù)在一個感知器中起著重要作用,為了增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,使用的激活函數(shù)往往是一個連續(xù)且可導(dǎo)的非線性函數(shù)。同時為了使得訓(xùn)練的效率和穩(wěn)定性不受到影響,激活函數(shù)的導(dǎo)函數(shù)的值域要合理地控制在一個合適的區(qū)間內(nèi),不能過大或過小。常見的激活函數(shù)有:sigmoid函數(shù)、logistic函數(shù)、tanh函數(shù)、reLU函數(shù)等。ReLU函數(shù)有“降低計算量”“解決梯度消失問題”“緩解過擬合問題”這三個重要的特點,但是,在實際使用過程中,會出現(xiàn)Dead ReLU Problem,指的是某些神經(jīng)元可能永遠(yuǎn)不會被激活,導(dǎo)致相應(yīng)的參數(shù)永遠(yuǎn)不能被更新。為了解決ReLU函數(shù)的這些問題,本文采用Leaky ReLU激活函數(shù)。該函數(shù)輸出對負(fù)值輸入有很小的坡度。由于導(dǎo)數(shù)總是不為零,這能減少靜默神經(jīng)元的出現(xiàn),允許基于梯度的學(xué)習(xí),解決了ReLU函數(shù)進(jìn)入負(fù)區(qū)間后,導(dǎo)致神經(jīng)元不學(xué)習(xí)的問題。Leaky ReLU激活函數(shù)的數(shù)學(xué)表達(dá)式為:

        從圖8中可以看出,Leaky Relu激活函數(shù)很好解決了Relu函數(shù)的靜默神經(jīng)元過多問題,使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效以及準(zhǔn)確。

        圖8 Relu激活函數(shù)與Leaky Relu激活函數(shù)處理效果對比

        2.3 隨機(jī)梯度下降算法

        為使神經(jīng)網(wǎng)絡(luò)的誤差盡量小,損失函數(shù)要取到最小值,這個過程可以近似看作求取損失函數(shù)最優(yōu)解的過程。對損失函數(shù)最小值的尋找方向一定是其下降幅度最大的方向,即損失函數(shù)初始點位處梯度向量的方向。在訓(xùn)練輪數(shù)進(jìn)行不斷迭代的過程中應(yīng)用隨機(jī)梯度下降法,得出最小化的損失函數(shù)以及訓(xùn)練模型的參數(shù)值,反向調(diào)整卷積核的輸入權(quán)值[10]。隨機(jī)梯度下降算法的相關(guān)計算公式如式(3)-(5)所示,公式的參數(shù)意義如表1所示。

        表1 隨機(jī)梯度下降算法公式參數(shù)的含義

        2.4 搭建GoogLeNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練

        該模型的創(chuàng)新在于使用Inception結(jié)構(gòu),這是一種網(wǎng)中網(wǎng)的結(jié)構(gòu),即原來的結(jié)點也是一個網(wǎng)絡(luò)。Inception一直在不斷發(fā)展,目前已經(jīng)發(fā)展到V2、V3、V4。其中1×1卷積主要用來降維,用了InceptionV1之后整個網(wǎng)絡(luò)結(jié)構(gòu)的寬度和深度都可擴(kuò)大,能夠帶來2~3倍的性能提升。但是,如果只是單純的堆疊網(wǎng)絡(luò),雖然可以提高文字識別的準(zhǔn)確率,但是會導(dǎo)致計算效率的下降,而InceptionV2使用Batch Normalization,加快模型訓(xùn)練速度;使用兩個3×3的卷積代替5×5的大卷積,降低了參數(shù)數(shù)量并減輕了過擬合;增大學(xué)習(xí)速率并加快學(xué)習(xí)衰減速度以適用BN規(guī)范化后的數(shù)據(jù);去除Dropout并減輕L2正則化;更徹底地對訓(xùn)練樣本進(jìn)行打亂;減少數(shù)據(jù)增強(qiáng)過程中對數(shù)據(jù)的光學(xué)畸變,因為BN訓(xùn)練更快,每個樣本被訓(xùn)練的次數(shù)更少,因此更真實的樣本對訓(xùn)練更有幫助。因此本文采用Inception V2結(jié)構(gòu),Inception V2的結(jié)構(gòu)如圖9所示。

        圖9 Inception V2結(jié)構(gòu)圖

        本文使用2個連續(xù)的3×3的卷積核組成小網(wǎng)絡(luò)來代替單個size=5的卷積層(如圖10),這樣的方案不會導(dǎo)致表達(dá)缺失,因此,采用Inception V2結(jié)構(gòu)是文字識別的比較好的一種方案。

        圖10 用3×3卷積核代替5×5卷積核

        2.5 實驗結(jié)果分析

        設(shè)置初始學(xué)習(xí)率為0.01,權(quán)重衰減為0.0001,迭代次數(shù)為51次。在訓(xùn)練過程中,使用交叉嫡作為損失函數(shù),反向傳播通過隨機(jī)梯度下降算法調(diào)整下一輪迭代的卷積層權(quán)值,保存模型在此過程中性能最好的參數(shù)權(quán)重。

        通過訓(xùn)練驗證,本文構(gòu)建的GoogLeNet模型識別準(zhǔn)確率如圖11所示。

        圖11 GoogLeNet模型識別準(zhǔn)確率示意圖

        從圖中可以看出訓(xùn)練剛開始時識別準(zhǔn)確率提高得很快,且驗證數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集同步上升,隨著迭代次數(shù)加深,準(zhǔn)確率逐漸趨近于98%,由此可以得出:模型訓(xùn)練結(jié)果較為理想。

        3 結(jié)束語

        本文針對農(nóng)業(yè)書籍探索了基于卷積神經(jīng)網(wǎng)絡(luò)的文字識別的方法,通過對輸入文檔的圖像預(yù)處理、版面分析與提取等處理方法,為計算機(jī)更好地識別采集到的文檔圖像提供了良好的條件,基于GoogLeNet構(gòu)建了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),利用該網(wǎng)絡(luò)對處理后的文檔圖像進(jìn)行了識別。實驗表明,GoogLeNet網(wǎng)絡(luò)具備高效率、高準(zhǔn)確率識別的優(yōu)勢,為農(nóng)業(yè)書籍的識別提供了技術(shù)參考。

        日韩亚洲欧美中文高清在线| 中文区中文字幕免费看| 亚洲av无码片vr一区二区三区| 国产又色又爽无遮挡免费| 狠狠狠狠狠综合视频| 国产精品国产三级农村妇女| 丰满少妇人妻无码| 水蜜桃无码视频在线观看| 亚洲精品国产国语| 国产高清不卡二区三区在线观看| 精品国产sm最大网站| 日本做受高潮好舒服视频| 中文不卡视频| 白色白色白色在线观看视频| 天天综合网网欲色| 青青草原综合久久大伊人| 一区二区三区福利在线视频| 日韩在线视频专区九区| 国产精品区一区二区三在线播放 | 国产成人精品人人做人人爽| 日本刺激视频一区二区| 在线精品无码字幕无码av| 东京热久久综合久久88| 亚洲国产日韩综一区二区在性色| 亚洲婷婷久悠悠色悠在线播放| 亚洲av不卡一区二区三区| 精品视频入口| 国产一区二区三区乱码在线 | 欧美一区二区三区视频在线观看 | 成人午夜免费福利| 久久精品国产亚洲av一般男女| 亚洲熟女www一区二区三区| 夜色阁亚洲一区二区三区| 久久精品国产视频在热| 开心五月天第四色婷婷| 在线观看免费人成视频| 欧洲一区在线观看| 亚洲熟女熟妇另类中文| 欧美成妇人吹潮在线播放| 啪啪免费网站| 国产av一区麻豆精品久久|